Top > Search of Japanese Patents > METHOD AND COMPUTER PROGRAM FOR DISCRIMINATING SIGNAL PEPTIDE

METHOD AND COMPUTER PROGRAM FOR DISCRIMINATING SIGNAL PEPTIDE achieved

Patent code P03A002043
File No. Y01-P111
Posted date Oct 1, 2003
Application number P2001-181248
Publication number P2003-014734A
Patent number P3998171
Date of filing Jun 15, 2001
Date of publication of application Jan 15, 2003
Date of registration Aug 17, 2007
Inventor
  • (In Japanese)美宅 成樹
  • (In Japanese)五味 雅裕
Applicant
  • (In Japanese)国立研究開発法人科学技術振興機構
Title METHOD AND COMPUTER PROGRAM FOR DISCRIMINATING SIGNAL PEPTIDE achieved
Abstract PROBLEM TO BE SOLVED: To provide a method and a computer program for accurately discriminating if signal peptide or signal anchor is contained in protein where an amino acid sequence has been determined.
SOLUTION: To each of twenty kinds of amino acids being the components of protein, data where a hydrophobic index H, a negative charge residual group index NC, a signal peptide discrimination index SP Index, and signal sequence discrimination index SS Index are assigned, and a discrimination expression are used in advance, the position of a positive charge residual group near the peak position of the two-time average hydrophobic value of a region proposed for a signal sequence is set to be a discrimination reference position Pr, the region of 18 residual groups from 10th to 27th downstream from the discrimination reference position Pr to the C terminal side of the amino acid sequence is set to be a region R to be discriminated, the Sp index and SS Index are assigned to each of 18 amino acid residual groups, and it is discriminated which of signal peptide, signal anchor, and no signal sequence the candidate region corresponds to according to the discrimination expression.
Outline of related art and contending technology (In Japanese)


シグナルペプチドは、分泌型水溶性タンパク質および一部の膜タンパク質のアミノ酸配列のN末端付近に存在する10~30残基長の機能性セグメントであり、細胞質内で生合成されたポリペプチド鎖の生体膜透過、及び膜への組み込みにおいて重要な役割を果たしている。
シグナルペプチドの判別および領域予測は、これまで、シグナルペプチドが膜透過後に切除を受ける位置である、Cleavage Site付近のアミノ酸配列のパターンを認識することによって行われてきた。このようなアプローチによるシグナルペプチドの判別、及び領域予測には幾つかの方法が提唱されている。ひとつにはシグナルペプチドの配列パターンからウエイトマトリックスを作製し、これを用いてシグナルペプチドの判別・領域予測を行う統計的手法があり、またニューラルネットワークや隠れマルコフモデルのような機械学習的アルゴリズムを用いたパターン認識的手法、並びにこれらの手法を組み合わせた複合的手法などがある。



典型的なシグナルペプチドは、疎水的な性質の側鎖を持つアミノ酸残基が比較的高頻度で現れる疎水性コア領域を有することが知られている。従って、シグナルペプチドを判別する初段階として、与えられた任意のアミノ酸配列からシグナルペプチドの候補領域を捕捉することを目的とする時、この疎水性コア領域をシグナルペプチドの候補とする手法が従来のシグナルペプチド判別技術でも用いられてきた。



しかしながら、シグナルペプチドの疎水性コア領域を捉える際、ある疎水性インデックス値の閾値をもって決定するという単純な方法では、シグナルペプチドの疎水性コア領域だけでなく、膜タンパク質の膜貫通領域や、本来単なる水溶性タンパク質の一領域に過ぎないような配列までがシグナルペプチドの候補領域として誤って予測されることがあるという欠点があった。



一方、典型的なシグナルペプチドを特徴付けるとされるものとして別の要素も知られている。その一つは、疎水性コア領域のN末端側に正電荷を有するアミノ酸残基が高頻度で現れるということである。またシグナルペプチドが、膜透過後に切除されるアミノ酸配列上の位置であるCleavage Siteには、明確な配列パターンは存在しないが、Cleavage SiteからN末端側へ1つ目と3つ目のアミノ酸残基に相当する位置(即ち(-1,-3)位)に、側鎖の体積が小さなアミノ酸残基が頻出することが知られている((-1、-3)ルール;詳細はVon Heigne,Eur.J.Biochem.133:17-21(1981)に記載されている)。しかしながら、これら既存の典型的なシグナルペプチドを特徴付けるとされる要素だけでは、シグナルペプチドの判別に充分な精度を得ることはできなかった。



一般に、アミノ酸配列上における機能予測には、ある機能に特徴的なアミノ酸残基の出現パターンを検索するモチーフ検索という手法が取られるが、このような方法ではシグナルペプチドの判別は不可能である。例えば、既存の技術では、シグナルペプチドに関する膨大な凡例を機械学習的アルゴリズムによって判別プログラムに学習させ、これによってシグナルペプチドを判別させることにより一定以上の精度でシグナルペプチドの判別を可能としてきた。しかしながら、隠れマルコフモデルやニューラルネットワークに代表される機械学習的アルゴリズムによる判別では、判別が可能なシグナルペプチドは学習に使用したデータセットに依存することになるという宿命的な問題が存在する。このことは、学習したパターンとは異なる判別対象を判別できないという欠陥につながる。また、精度を上げるために学習するデータを増やしていくと、本来シグナルペプチドではないものをシグナルペプチドと誤って判別する確率が増加していくという欠点も併せ持つ。

Field of industrial application (In Japanese)


本発明は、アミノ酸配列が決定されたタンパク質について、シグナルペプチドの有無を判別する方法に関し、コンピュータを用いて大量のアミノ酸配列に対して迅速且つ高い精度で対象の配列がシグナルペプチドを含有するか否かを判別する方法、及びシグナルペプチドが存在すると判別される場合には、シグナルペプチド領域についての情報を出力する方法、及びそれを実施する為のコンピュータソフトウェアに関する。

Scope of claims (In Japanese)
【請求項1】
 
(a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5~9個の何れかの数の一連の窓を有するウィンドウWを用いて、生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5~25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータXstartXendXlength、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法;







【請求項2】
 
シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを、真生物由来のタンパク質を構成する場合と、原核生物由来のタンパク質を構成する場合とで別々に設定し、被判別タンパク質が何れの生物に由来するタンパク質であるかに従って、(1)の工程で割り振るシグナルペプチド判別指標SP Indexとシグナル配列判別指標SS Indexを選択する、請求項1に記載されたコンピュータを用いたシグナルペプチドの判別方法。

【請求項3】
 
(a)真核生物由来のタンパク質と原核生物由来のタンパク質の各タンパク質別に、タンパク質の構成要素である20種類のアミノ酸それぞれについて、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てたデータ、及び、各種判別式を記憶部にあらかじめ格納させておき、(b)5~9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、下式(1)及び(2)に前記疎水性指標をあてはめて二回平均疎水性値[[H]]を算出し、




(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5~25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e-1)複数の候補領域S(i)が得られた場合には被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart及びXend、並びに候補領域Cの長さXlength)を求める。但し、(e-2)候補領域Cが100残基目より後にのみ現れるか否かを判別し、100残基目より後にのみ現れる場合には、シグナル配列はないものとしてプログラムは終了する。(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cの平均疎水性値を下記式(3)によって求め、


次いで前記候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置から被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)前記判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域を構成する18個のアミノ酸残基それぞれに、被判別タンパク質が真核生物由来か原核生物由来かに応じて、対応する前記シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)下式(4)及び(5)に基づいて判別対象領域におけるSP Index及びSS Indexの平均値を算出し、




計算された各パラメータを元に下記3つの判別式(6)、(7)、(8)によって、(m)該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、






(p)得られた各々の結果を下記[1][8]にあてはめて、候補領域を判定する(但し、各判別式中の定数は夫々±10%の間で変動することがあるものとする。);
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
(q)また、上記判別結果が[5]又は[6]となって保留とした場合には、シグナルペプチド切除部位であるCleavage Siteを特徴付ける(-1、-3)ルールに即したパターン検索を行い、もし当てはまればSP、当てはまらない場合はNSとすることを特徴とするコンピュータプログラム。
IPC(International Patent Classification)
F-term
State of application right Registered
Please contact us by E-mail or facsimile if you have any interests on this patent.


PAGE TOP

close
close
close
close
close
close
close