TOP > 国内特許検索 > シグナルペプチドの判別方法、及びそのためのコンピュータプログラム > 明細書

明細書 :シグナルペプチドの判別方法、及びそのためのコンピュータプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第3998171号 (P3998171)
公開番号 特開2003-014734 (P2003-014734A)
登録日 平成19年8月17日(2007.8.17)
発行日 平成19年10月24日(2007.10.24)
公開日 平成15年1月15日(2003.1.15)
発明の名称または考案の名称 シグナルペプチドの判別方法、及びそのためのコンピュータプログラム
国際特許分類 G01N  33/48        (2006.01)
G06F  19/00        (2006.01)
G06F  17/30        (2006.01)
FI G01N 33/48 Z
G06F 19/00 600
G06F 17/30 170Z
請求項の数または発明の数 3
全頁数 16
出願番号 特願2001-181248 (P2001-181248)
出願日 平成13年6月15日(2001.6.15)
新規性喪失の例外の表示 特許法第30条第1項適用 2000年12月18日~19日 日本バイオインフォマティクス学会開催の「GIW2000(The Eleventh Workshop on Genome Informatics)」において文書をもって発表
審査請求日 平成16年4月22日(2004.4.22)
特許権者または実用新案権者 【識別番号】503360115
【氏名又は名称】独立行政法人科学技術振興機構
発明者または考案者 【氏名】美宅 成樹
【氏名】五味 雅裕
個別代理人の代理人 【識別番号】100087631、【弁理士】、【氏名又は名称】滝田 清暉
審査官 【審査官】宮地 匡人
参考文献・文献 Nielsen, H.,Machine learning approaches for the prediction of signal peptides and other protein sorting signals,Protein engineering,1999年,Vol.12, No.1,p.3-9
Jagla, B.,Adaptive encoding neural networks for the recognition of human signal peptide cleavage sites,Bioinformatics,2000年,Vol.16, No.3,p.245-250
Chou, KC.,Using subsite coupling to predict signal peptides,Protein engineering,2001年 2月,Vol.14, No.2,p.75-9
五味雅裕,シグナルペプチドを判別するためのアミノ酸配列解析,日本生物物理学会第37回年会講演予稿集,日本,日本生物物理学会,1999年,p.S173
五味雅裕,シグナルペプチド判別システムの開発,第51回タンパク質構造討論会講演要旨集,日本,2000年,p.176
調査した分野 G01N 33/48
G06F 17/30
G06F 19/00
特許請求の範囲 【請求項1】
(a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5~9個の何れかの数の一連の窓を有するウィンドウWを用いて、生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5~25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータXstartXendXlength、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法;
JP0003998171B2_000016t.gifJP0003998171B2_000017t.gifJP0003998171B2_000018t.gif
【請求項2】
シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを、真生物由来のタンパク質を構成する場合と、原核生物由来のタンパク質を構成する場合とで別々に設定し、被判別タンパク質が何れの生物に由来するタンパク質であるかに従って、(1)の工程で割り振るシグナルペプチド判別指標SP Indexとシグナル配列判別指標SS Indexを選択する、請求項1に記載されたコンピュータを用いたシグナルペプチドの判別方法。
【請求項3】
(a)真核生物由来のタンパク質と原核生物由来のタンパク質の各タンパク質別に、タンパク質の構成要素である20種類のアミノ酸それぞれについて、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てたデータ、及び、各種判別式を記憶部にあらかじめ格納させておき、(b)5~9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、下式(1)及び(2)に前記疎水性指標をあてはめて二回平均疎水性値[[H]]を算出し、
JP0003998171B2_000019t.gifJP0003998171B2_000020t.gif(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5~25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e-1)複数の候補領域S(i)が得られた場合には被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart及びXend、並びに候補領域Cの長さXlength)を求める。但し、(e-2)候補領域Cが100残基目より後にのみ現れるか否かを判別し、100残基目より後にのみ現れる場合には、シグナル配列はないものとしてプログラムは終了する。(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cの平均疎水性値を下記式(3)によって求め、
JP0003998171B2_000021t.gif次いで前記候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置から被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)前記判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域を構成する18個のアミノ酸残基それぞれに、被判別タンパク質が真核生物由来か原核生物由来かに応じて、対応する前記シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)下式(4)及び(5)に基づいて判別対象領域におけるSP Index及びSS Indexの平均値を算出し、
JP0003998171B2_000022t.gifJP0003998171B2_000023t.gif計算された各パラメータを元に下記3つの判別式(6)、(7)、(8)によって、(m)該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、
JP0003998171B2_000024t.gifJP0003998171B2_000025t.gifJP0003998171B2_000026t.gif(p)得られた各々の結果を下記[1][8]にあてはめて、候補領域を判定する(但し、各判別式中の定数は夫々±10%の間で変動することがあるものとする。);
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
(q)また、上記判別結果が[5]又は[6]となって保留とした場合には、シグナルペプチド切除部位であるCleavage Siteを特徴付ける(-1、-3)ルールに即したパターン検索を行い、もし当てはまればSP、当てはまらない場合はNSとすることを特徴とするコンピュータプログラム。
発明の詳細な説明
【0001】
【発明の属する技術分野】
本発明は、アミノ酸配列が決定されたタンパク質について、シグナルペプチドの有無を判別する方法に関し、コンピュータを用いて大量のアミノ酸配列に対して迅速且つ高い精度で対象の配列がシグナルペプチドを含有するか否かを判別する方法、及びシグナルペプチドが存在すると判別される場合には、シグナルペプチド領域についての情報を出力する方法、及びそれを実施する為のコンピュータソフトウェアに関する。
【0002】
【従来技術】
シグナルペプチドは、分泌型水溶性タンパク質および一部の膜タンパク質のアミノ酸配列のN末端付近に存在する10~30残基長の機能性セグメントであり、細胞質内で生合成されたポリペプチド鎖の生体膜透過、及び膜への組み込みにおいて重要な役割を果たしている。
シグナルペプチドの判別および領域予測は、これまで、シグナルペプチドが膜透過後に切除を受ける位置である、Cleavage Site付近のアミノ酸配列のパターンを認識することによって行われてきた。このようなアプローチによるシグナルペプチドの判別、及び領域予測には幾つかの方法が提唱されている。ひとつにはシグナルペプチドの配列パターンからウエイトマトリックスを作製し、これを用いてシグナルペプチドの判別・領域予測を行う統計的手法があり、またニューラルネットワークや隠れマルコフモデルのような機械学習的アルゴリズムを用いたパターン認識的手法、並びにこれらの手法を組み合わせた複合的手法などがある。
【0003】
典型的なシグナルペプチドは、疎水的な性質の側鎖を持つアミノ酸残基が比較的高頻度で現れる疎水性コア領域を有することが知られている。従って、シグナルペプチドを判別する初段階として、与えられた任意のアミノ酸配列からシグナルペプチドの候補領域を捕捉することを目的とする時、この疎水性コア領域をシグナルペプチドの候補とする手法が従来のシグナルペプチド判別技術でも用いられてきた。
【0004】
しかしながら、シグナルペプチドの疎水性コア領域を捉える際、ある疎水性インデックス値の閾値をもって決定するという単純な方法では、シグナルペプチドの疎水性コア領域だけでなく、膜タンパク質の膜貫通領域や、本来単なる水溶性タンパク質の一領域に過ぎないような配列までがシグナルペプチドの候補領域として誤って予測されることがあるという欠点があった。
【0005】
一方、典型的なシグナルペプチドを特徴付けるとされるものとして別の要素も知られている。その一つは、疎水性コア領域のN末端側に正電荷を有するアミノ酸残基が高頻度で現れるということである。またシグナルペプチドが、膜透過後に切除されるアミノ酸配列上の位置であるCleavage Siteには、明確な配列パターンは存在しないが、Cleavage SiteからN末端側へ1つ目と3つ目のアミノ酸残基に相当する位置(即ち(-1,-3)位)に、側鎖の体積が小さなアミノ酸残基が頻出することが知られている((-1、-3)ルール;詳細はVon Heigne,Eur.J.Biochem.133:17-21(1981)に記載されている)。しかしながら、これら既存の典型的なシグナルペプチドを特徴付けるとされる要素だけでは、シグナルペプチドの判別に充分な精度を得ることはできなかった。
【0006】
一般に、アミノ酸配列上における機能予測には、ある機能に特徴的なアミノ酸残基の出現パターンを検索するモチーフ検索という手法が取られるが、このような方法ではシグナルペプチドの判別は不可能である。例えば、既存の技術では、シグナルペプチドに関する膨大な凡例を機械学習的アルゴリズムによって判別プログラムに学習させ、これによってシグナルペプチドを判別させることにより一定以上の精度でシグナルペプチドの判別を可能としてきた。しかしながら、隠れマルコフモデルやニューラルネットワークに代表される機械学習的アルゴリズムによる判別では、判別が可能なシグナルペプチドは学習に使用したデータセットに依存することになるという宿命的な問題が存在する。このことは、学習したパターンとは異なる判別対象を判別できないという欠陥につながる。また、精度を上げるために学習するデータを増やしていくと、本来シグナルペプチドではないものをシグナルペプチドと誤って判別する確率が増加していくという欠点も併せ持つ。
【0007】
【課題を解決するための手段】
(a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当てておき、(b)5~9個の何れかの数の一連の窓を有するウィンドウWを用いて生物に由来する被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5~25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域を最終的な候補領域Cとして選択すると共に、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数(Xstart、Xend、並びに候補領域Cの長さXlength)を求め、(f)前記候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)前記候補領域Cがある場合にはその平均疎水性値及び該候補領域C中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)該判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index及びシグナル配列判別指標SS Indexを割り振り、(l)前記判別対象領域RにおけるSP Index及びSS Indexの平均値を算出し、(m)計算された各パラメータXstartXendXlength、Pp及びPrを元に、下記3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから前記候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とする、コンピュータを用いたシグナルペプチドの判別方法、及び、その方法を実施するコンピュータプログラムによって達成された。
JP0003998171B2_000002t.gifJP0003998171B2_000003t.gifJP0003998171B2_000004t.gif
【0008】
一方、細胞質内において合成されたタンパク質が輸送されるプロセスを考えてみると、シグナルペプチドを形作るアミノ酸配列の持つべき性質が分かる。即ち、細胞質以外の場所で働くタンパク質は全て、最低一回は生体膜を透過するプロセスを経る必要がある。この場合の、生体内における膜透過を実現するシステムは複数存在することが知られている。最もよく用いられるのがシグナルペプチドが関与するタンパク質膜透過機構であり、多くの分泌タンパク質がこの経路を辿って生体膜を透過する。例えば、細胞質内で遊離リボソームにおけるタンパク質のポリペプチド鎖を合成する際には、このタンパク質がシグナルペプチドを持つ場合には、シグナルペプチドがシグナル認識粒子(SRP)によって認識を受ける。そして、SRPによる認識はシグナルペプチドの疎水性領域を認識すると言われている。
【0009】
上記SRPによる認識を受けるとポリペプチド鎖の伸張が停止する。一方、SRPの方は膜上のSRP受容体に認識されるとポリペプチド鎖の伸張が再開される。SRP受容体の傍にはタンパク質を膜透過させる機構であるトランスロコンと呼ばれるタンパク質の複合体があり、運ばれてきたポリペプチド鎖を膜透過させる。この時、シグナルペプチドはN末端側が細胞質側に向くトポロジーを形成しており、トランスロコンの中で丁度膜を貫通するような形になっている。ポリペプチド鎖の伸張が100~150残基まで進んだところで、膜表在性の酵素であるシグナルペプチダーゼによって、シグナルペプチドはCleavage Siteにおいて切除されるのである。
【0010】
もしCleavage Siteを持たず、それ以外はシグナルペプチドと同様の配列がタンパク質のN末端に存在する場合には、シグナルペプチドの場合と同様にSRPによる認識とトランスロコン通過というプロセスを踏むものの、Cleavage Siteが無いためにシグナルペプチダーゼによる切除を受けない。その結果としてこのセグメントは膜に組み込まれ、N末端が膜の内側を向いた膜貫通領域を形成する。このような膜貫通領域を形成するセグメントを本明細書ではシグナルアンカー(SA)と呼び、特にシグナルペプチドと同様の経路で膜を透過するシグナルアンカーをTypeII型シグナルアンカー(SA-II)と呼ぶ。また、本明細書では、SRPにより認識を受けてトランスロコンを通過して膜を透過した後最終的に切除されるセグメントをシグナルペプチド(SP)、シグナルペプチドと同様の経路を通って膜を透過するが切除を受けないセグメントをTypeII型シグナルアンカー(SA‐II)、そしてシグナルペプチドとシグナルアンカーを含む機能性セグメント全体を総称してシグナル配列と定義する。
【0011】
シグナルペプチドを保有する水溶性タンパク質の場合には、シグナルペプチドが切除された後、タンパク質本体が膜を透過し、生体膜を挟んで反対側の空間へと分泌される。一方、シグナルペプチドを有する膜タンパク質の場合には、シグナルペプチド領域が切除された後、下流の膜貫通領域のN末端が外側向きで生体膜に挿入されるために、N末端が膜外を向いたトポロジーを有する膜タンパク質となる。
【0012】
このように、シグナルペプチドの役割には次の三つの別々の段階が存在する。1)細胞質側においてSRPによる認識を受ける
2)トランスロコンによって認識を受ける
3)生体膜透過後、シグナルペプチダーゼによる認識を受け切除される
これらのうちの1)と2)は、シグナルペプチド及びTypeII型シグナルアンカー両者に共通する特徴的機能と考えられ、3)が特にシグナルペプチドに特有の特徴的機能である。SRPが認識するシグナルペプチドの部位は、シグナルペプチドの持つ疎水性の高いアミノ酸配列の領域であると考えられる。
【0013】
SRPによるシグナルペプチドの認識と同様に、トランスロコンによる認識やシグナルペプチダーゼによるシグナルペプチドの認識の場合にも、配列特異性というよりもむしろこの領域を構成するアミノ酸の側鎖の疎水性、極性といった物理化学的性質によって認識されると考えられる。既存の方法ではシグナルペプチドを特徴付けるはっきりとしたアミノ酸配列パターンが見出せないのも、このような要因に起因すると考えられる。
【0014】
そこで本発明者等は、シグナルペプチドをより高い精度で予測することについて鋭意検討した結果、Kyte-Doolittleの疎水性指標(以下、疎水性指標とする)と、新しく定義した負電荷残基指標によってシグナルペプチド候補領域を抽出し、列挙された候補領域に新しく定義したシグナルペプチド判別指標およびシグナルアンカー判別指標を適用し、併せて候補領域の位置や長さを用いてシグナルペプチドを予測した場合には、従来技術に比して格段に高精度の予測が可能となることを見出し、本発明に到達した。
【0015】
【発明が解決しようとする課題】
従って本発明の第一の目的は、アミノ酸配列が決定されたタンパク質に、シグナルペプチド又はシグナルアンカーの何れかが含まれるか否かを、高い精度で判別するための方法を提供することである。
更に本発明の第二の目的は、与えられた任意のアミノ酸配列がシグナルペプチドを含むかどうか、含む場合にはその領域およびシグナルペプチドの切除部位であるCleavage Siteを高い精度で判別するための、コンピュータプログラムを提供することにある。
【0016】
【課題を解決するための手段】
本発明の上記の諸目的は、アミノ酸配列の決定されたタンパク質の判別方法であって、該方法が、
a)タンパク質の構成要素である20種類のアミノ酸それぞれに対して、予め、疎水性指標H、負電荷残基指標NC、シグナルペプチド判別指標SP Index、及びシグナル配列判別指標SS Indexを割り当て、(b)5~9個の何れかの数の一連の窓を有するウィンドウWを用いて被判別タンパク質のアミノ酸配列から一連のアミノ酸配列を抽出し、(c)抽出された前記ウィンドウWと対応する全てのアミノ酸配列について、前記疎水性指標を用いて計算した二回平均疎水性値[[H]]を算出し、(d)得られた[[H]]の値が一定の閾値kを越える領域の一連のアミノ酸残基の数が5~25残基となり、かつその領域内に負電荷残基指標NCが1であるアミノ酸残基を含まないとき、その領域を構成するアミノ酸残基からなるセグメントをシグナル配列の候補領域Cとし、(e)複数の候補領域S(i)が得られた場合には、被判別アミノ酸配列のN末端に最も近い候補領域S(i)を最終的な候補領域Cとして選択し、その候補領域Cの始点及び終点のアミノ酸残基の位置を示す数Xstart、及び、Xend並びに候補領域Cを構成するアミノ酸の数Xlengthを求め、(f)候補領域Cが得られない場合には被判別タンパク質はシグナルペプチドを含まない水溶性タンパク質であると認定し、(g)候補領域Cがある場合にはその平均疎水性値及び該候補領域中の二回平均疎水性値[[H]]の最大ピーク位置Ppを求め、(h)該ピーク位置Ppから被判別アミノ酸配列のN末端に向かって正電荷残基を検索し、最もピーク位置に近い正電荷残基の位置を判別基準位置Prとし、(i)もし正電荷残基が見出されない場合には被判別アミノ酸配列のN末端をPrと定義し、(j)該判別基準位置Prからアミノ酸配列のC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rとして設定し、(k)判別対象領域Rを構成する18個のアミノ酸残基それぞれに、前記したシグナルペプチド判別指標SP Index、シグナル配列判別指標SS Indexを割り振り、(l)判別対象領域RにおけるSP IndexおよびSS Indexの平均値を算出し、(m)計算された各パラメータを元に、3つの判別式によって、該領域についてシグナルペプチド-シグナルアンカーの二群の判別、(n)シグナルペプチド-シグナル配列無しの二群の判別、(o)シグナルアンカー-シグナル配列無しの二群の判別、と二群の判別を3回行ってそれぞれで判別結果を得、(p)得られた各々の判別結果の組み合わせから該候補領域Cがシグナルペプチド、シグナルアンカー、シグナル配列無しの何れに該当するものかを判別することを特徴とするシグナルペプチドの判別方法、及びそのためのコンピュータプログラムによって達成された。
【0017】
【発明の実施の形態】
一般的に、シグナルペプチドは典型的な膜貫通領域と同様の特徴をもっており、特に疎水性が高いアミノ酸残基が頻出するという点で両者は類似している。このため、疎水性だけではシグナルペプチドとシグナルアンカー等の膜貫通セグメントを区別することは困難であるといえる。一方、その疎水性領域の長さが膜貫通セグメントのそれと比較して短い場合や、極性のアミノ酸残基を多く含み全体として比較的親水的なセグメントであるものも多い。このような特徴をもつシグナルペプチドの場合には、水溶性タンパク質の配列中に散在して見られる比較的短めの疎水性セグメントと区別することが困難である。
【0018】
しかしながら、シグナルペプチドが細胞質側で生合成されてから膜を透過して切除されるまでの一連の流れを考慮したとき、その第一段階となるSRP(Signal Recognition Particle:シグナル認識粒子)によるシグナル配列認識に伴うシグナル配列とSRPとの相互作用は疎水性相互作用に基づいており、この段階では、シグナルペプチドと膜貫通セグメントであるシグナルアンカーは区別されていない。従って、配列の疎水性を基に、シグナルペプチドとシグナルアンカーを含む候補領域を列挙することは妥当であると考えられる。しかしながら、SRPはシグナル配列認識の段階で水溶性タンパク質の配列を捕捉しないことから明らかなように、シグナル配列(シグナルペプチド+シグナルアンカー)と水溶性タンパク質上の疎水性セグメントを分ける要素が存在する。
【0019】
上記の要素は、本発明者等の解析の結果、シグナル配列のもつ疎水性領域には、極性の、特に負電荷を有するアミノ酸残基が現れない連続した領域があるのに対して、シグナル配列を有さない水溶性タンパク質の場合には、たとえN末端近傍に疎水性領域があったとしても、そこには負電荷残基が無秩序に分布するという相違点のあることが明らかとなった。言い換えれば、負電荷残基が存在しないことがSRPの認識を受けるひとつの条件であると言える。そこでこの負電荷残基の効果を、候補領域を列挙する際に取り入れるために、新たに負電荷残基指標NCを作成した。表1にこのパラメータを示す。尚、三文字のアルファベット表記は20種類のアミノ酸の3文字表記、カッコ内のアルファベットは三文字表記のアミノ酸を一文字表記する場合の記号である。
【表1】
JP0003998171B2_000005t.gif
【0020】
上記のアルゴリズムによって候補領域を列挙した次の段階は、シグナルペプチドと膜貫通セグメント(シグナルアンカー)の区別である。今、仮に任意のアミノ酸配列が与えられたと仮定すると、列挙された候補領域には、シグナルペプチド、膜貫通セグメント、シグナル配列をもたない水溶性タンパク質の疎水性セグメントが含まれると考えられるが、これらをどのように判別するかの問題である。シグナルペプチドとシグナルアンカーの最大の違いは膜透過後の切除プロセスの有無である。
【0021】
シグナルペプチドの切除部位であるCleavage Siteには、それを特徴付ける配列モチーフのような明確なパターンは存在せず、Cleavage SiteのN末端側にシグナルペプチド及びシグナルアンカーに共通的に見られる疎水性セグメントが存在することから、シグナルペプチドとシグナルアンカーを特徴付ける要素は、疎水性セグメントのC末端からCleavage Siteを跨いで全アミノ酸配列のC末端側に至る領域に存在すると考えることができる。そこで[1]シグナルペプチドのCleavage Siteを挟んだ前後10残基ずつ計20残基の領域、[2]シグナルアンカーの膜貫通領域のC末端側境界を挟んだ前後10残基ずつ計20残基の領域、[3]シグナル配列をもたない水溶性タンパク質の疎水性領域であるC末端側境界を挟む前後10残基ずつ計20残基;という3つの領域について、それぞれアミノ酸残基の出現傾向を解析し、どのようなアミノ酸残基が頻出するのかを調べ、これをもとにシグナルペプチド判別指標SP Index、およびシグナル配列判別指標SS-Indexを作成した。元となったアミノ酸残基の出現傾向には、タンパク質の由来生物種について真核生物(Eukaryote)と原核生物(Prokaryote)という大きな区分で差異が認められたため、SP-Index及びSS-Indexについて、真核生物由来のアミノ酸配列に適用するための指標と、原核生物由来のアミノ酸配列に適用するための指標とを別々に作成した。それぞれの指標の値については表2に示した。SP-Index、SS-Index両者を総称して以後SSインデックスと呼称する。
【表2】
JP0003998171B2_000006t.gif
【0022】
以下、本発明の判別方法を具体的手順に従って説明する。
本発明においては、先ずシグナルペプチドを有するか否か判別しようとするタンパク質について、アミノ酸配列と、そのタンパク質が真核生物由来のものか、原核生物由来のものであるかの情報を与える。尚、被判別タンパク質が真核生物由来のものか原核生物由来のものかの情報は、後述する如く、SP Index及びSS Indexを割り振る前に与えれば良く、必ず初めに与えなくてはならないというものではない。そこで、先ず与えられたアミノ酸配列を構成する各アミノ酸に対し、表1によって予め設定されている疎水性指標Hを割り当てる。次に、例えば7残基の、連続するアミノ酸残基に当てはめることのできるウィンドウWを用いて、下記(1)式によって一回平均疎水性値[H]を計算する。
JP0003998171B2_000007t.gif但し、iはウィンドウの中心アミノ酸の位置を示す。上記の計算は、タンパク質を構成するアミノ酸鎖のN末端側から例えば7残基ウィンドウを1残基毎にずらしながら全ての単位について計算する。一通りC末端側まで適用し終えた後、下記(2)式によって二回平均疎水性値[[H]]を計算する。
JP0003998171B2_000008t.gif
【0023】
得られた[[H]]を用いて疎水性プロファイルを作成し、該プロファイルにおいて、[[H]]が連続して閾値kを超えるアミノ酸残基の数がLよりも大である部分を、シグナル配列の候補領域セグメントS(i)とする。但しLは5~25から選択される何れかのアミノ酸残基の数、即ち長さであり、好ましくは8~10から選択される整数である。尚、Lを9とした場合には、前記kとして0を設定することが好ましい。
【0024】
上記の如くして抽出された候補領域セグメントS(i)の各セグメントについて、領域を構成する各アミノ酸に負電荷残基指標NCを割り振る。NCが連続して0であるアミノ酸残基を候補領域として残し、NCが1の残基によって分割されたS(i)の各分割領域の長さがLを超えない場合には、その領域を候補から排除する。
【0025】
以上の操作をしても1つも候補領域が列挙されなかった場合には、被判別タンパク質はシグナル配列を持たない水溶性タンパク質と判定され、判定操作(プログラム)は終了する。また、列挙された候補領域がアミノ酸配列のN末端から100残基目よりも後にのみ現れる場合には、シグナル配列無しとして判定操作は終了する。従ってこれらのタンパク質については以降の演算はされず、別の被判別タンパク質について、初めから本判定操作(プログラム)が実行される。一方、複数の候補領域S(i)が列挙された場合には、最もN末端側に現れたS(i)を候補領域Cとして採用する。
【0026】
次に、シグナルペプチドの判別に必要なパラメータを、次のようにして候補領域より抽出する。下記式(3)によって、Cの平均疎水性値を求めると共に、候補領域Cの始点(Xstart)および終点(Xend)を求める。
JP0003998171B2_000009t.gifまた候補領域Cの長さ即ち候補領域Cを構成するアミノ酸の数をXlengthとする。また候補領域C中で、二回平均疎水性値[[H]]が最も大きい位置を疎水性ピーク位置Ppとする。次いで、Ppから被判別アミノ酸配列のN末端側に遡って最初に現れた正電荷残基の位置を基準位置Prとする。もし正電荷残基が見つからなかった場合には、被判別アミノ酸配列のN末端を基準位置Prとする。
【0027】
求められた基準位置Prからアミノ酸配列のC末端側へ、下流10番目から27番目までの18残基の領域を判別対象領域Rとし、判別対象領域Rを構成する18残基のアミノ酸残基それぞれに、シグナルペプチド判別指標SP Index及びシグナル配列判別指標SS-Indexを割り振り、下記式(4)及び(5)によって判別対象領域におけるSP IndexおよびSS Indexの平均値を算出する。
JP0003998171B2_000010t.gifJP0003998171B2_000011t.gif
【0028】
次いで、下記判別式(6)によってシグナルペプチド(SP)-シグナルアンカー(SA)間の二群の判別を行い、同様にして下記判別式(7)によってシグナルペプチド(SP)-非シグナル配列(NS)の二群の判別を、下記判別式(8)によってシグナルアンカー(SA)-非シグナル配列(NS)の二群の判別を行う。下記式中の係数等は下記表3に示した。
JP0003998171B2_000012t.gifJP0003998171B2_000013t.gifJP0003998171B2_000014t.gif【表3】
JP0003998171B2_000015t.gif
【0029】
上記判別式(6)~(8)を用いた三回の2群の判別の結果の組み合わせにより、最終的な判別結果は下記の通りとなる。
[1]SP∩SP∩SA→SP
[2]SP∩SP∩NS→SP
[3]SP∩NS∩SA→NS
[4]SP∩NS∩NS→NS
[5]SA∩SP∩SA→保留
[6]SA∩SP∩NS→保留
[7]SA∩NS∩NS→NS
[8]SA∩NS∩SA→SA
【0030】
上記[5]および[6]では三群の判別で矛盾が生じるため例外処理を行う。当てはまらない場合も多いが、シグナルペプチド切除部位であるCleavage Siteを特徴づけるルールとして広く認知されている、前述した(-1,-3)ルールに即したパターン検索を行い、もし当てはまれば、これを手がかりにしてSPであると最終判断を下し、ない場合にはNSとする。
【0031】
本発明のコンピュータプログラムは、被判別タンパク質のアミノ酸配列について以上のデータ入力と演算を行わせ、必要に応じて、得られた結果をモニター及び/又はプリンターによって出力する。上記の判別を実施する為のコンピュータプログラムのフローチャートは、図1および図2に示される通りである。本発明のコンピュータプログラムは、C言語等を用いて記載することができる。以下に更に詳述する。
【0032】
プログラムを起動し、被判別タンパク質を形成するアミノ酸配列を入力し(STP101)、被判別タンパク質の由来生物種が真核生物(Eukaryote)と原核生物(Prokaryote)のどちらに属するのかを選択して入力する(STP102)。一方、前記表1~3のデータ及び(1)~(8)の数式等を予め記憶部に格納しておく。次に、入力された全てのアミノ酸残基に、予め記憶部に格納されている前記表1のデータのうち、該当する疎水性指標Hの値を割り当てる(STP103)。尚、被判別タンパク質の由来生物種についての情報入力は、STP102に限定されるものではなく、後述するSTP112の前であればどの段階であっても良い。
【0033】
所定のウィンドウを、アミノ酸配列の端から1残基ごとにずらしながら、各ウィンドウに対応するアミノ酸列を抽出し、抽出された全てのアミノ酸配列に対して前記(1)式に従って一回平均疎水性値[H]を求め、ついで前記(2)式に従って二回平均疎水性値[[H]]を求めて疎水性プロファイルを作成する(STP104)。
【0034】
[[H]]が連続して閾値kを超えるアミノ酸残基の数がLよりも大であるものを、シグナル配列の候補領域セグメントS(i)とする。但しLは5~25から選択された何れかのアミノ酸残基の数、即ち長さであり、好ましくは8~10から選択される整数である。尚、Lを9とした場合には、前記kとして0を設定することが好ましい。抽出された候補S(i)の各セグメントについて、領域を構成する各アミノ酸に負電荷残基指標NCを割り振る。NCが連続して0である領域の長さがL以上であれば、候補領域Cとして残し、NCが1の残基によって分割されたS(i)の各分割領域の長さがLを超えない場合にはその領域を候補から排除する(STP105)。
【0035】
ここで、1つも候補領域Cが列挙されなかった場合には被判別タンパク質はシグナル配列を持たない水溶性タンパク質と判定され、判定操作(プログラム)は終了する。次に、列挙された候補領域Cが100残基目よりも後に現れたか否かを判定し、100残基よりも後にのみ現れる場合にはシグナル配列無しとして、判定操作は終了する(STP106)。
【0036】
一方、S(i)が一つに絞られた場合はそれを候補領域Cとして、また複数の候補領域が列挙された場合には最もN末端側に現れたS(i)を候補領域Cとして採用する(STP107)。従って候補領域Cは、最終的に1個に絞られる。得られた候補領域Cにおける領域の平均疎水性値を前記(3)式によって求めると共に、候補領域C中における疎水性値の最大ピーク位置Pp、候補領域始点Xstart、候補領域終点Xend及び候補領域長さXlengthの各パラメータを求める(STP108)。
【0037】
候補領域Cの最大ピーク位置からN末端側へ遡って正電荷残基を検索し(STP109)、もっともPpに近いところで見つかった正電荷残基の位置をPrとし、正電荷残基が見つからなかった場合にはN末端をPrとする(STP110)。次に、PrからC末端側へ下流10番目から27番目までの18残基の領域を判別対象領域Rと決定する(STP111)。判別対象領域Rを構成する18残基のアミノ酸残基それぞれに、予め記憶部に格納してある表2のシグナルペプチド判別指標SP-Index及びシグナル配列判別指標SS-Indexを割り振って、前記式(4)及び(5)によって判別対象領域におけるSP IndexおよびSS Indexの平均値を算出する(STP112)。次に、上記候補領域に(-1,-3)ルールに即したパターンが見出されるかどうかを検索する。もし見つかった場合にはフラグMotifを立てる。ここでの結果は、シグナルペプチド判別における、後の例外処理でのみ使われる(STP113)
【0038】
前記判別式(6)によってSP-SA間の二群の判別を行い、同様にして、前記判別式(7)によってSP-NS間の二群の判別を行う。更に、前記判別式(8)によってSA-NS間の二群の判別を行う(STP114)。これらの式中における係数等は予め記憶部に記録されている前記表3から読み出して使用される。上記判別結果は、シグナルペプチド(SP)、シグナルアンカー(SA)、又はシグナル配列なし(NS)として得られる。具体的には、前式(6)の計算結果FSP-SAがシグナルペプチド-シグナルアンカー(SP-SA)を判別する閾値TSP-SA以上である場合には、SP-SA判別の結果をSPとし、TSP-SA未満である場合にはSP-SA判別の結果をSAとする。この場合のTSP-SAには、真核生物の場合には-0.382を、原核生物の場合には-9.98を設定することが好ましい。前式(7)の計算結果FSP-NSが、シグナルペプチド-シグナル配列なし(SP-NS)を判別する閾値TSP-NS以上である場合には、SP-NS判別の結果をSPとし、TSP-NS未満である場合にはSP-NS判別の結果をNS(シグナル配列なし)とする。この場合のTSP-NSには、真核生物の場合には3.00を、原核生物の場合には2.74を設定する。前式(8)の計算結果FSA-NSがシグナルアンカー-シグナル配列なし(SA-NS)を判別する閾値TSA-NS以上である場合には、SA-NS判別の結果をSAとし、TSA-NS未満である場合にはSA-NS判別の結果をNS(シグナル配列なし)とする。この場合のTSA-NSには、真核生物の場合には2.00を、原核生物の場合には2.30を設定することが好ましい。
【0039】
上記の判別結果を用い、[1]SP-SAの判別がSPでSP-NSの判別がSP、かつSA-NSの判別がSAの場合には、判別結果をSPとし(STP115)、[2]SP-SAの判別がSPでSP-NSの判別がSP、かつSA-NSの判別がNSの場合には、判別結果をSPとする(STP116)。また、[3]SP-SAの判別がSPでSP-NSの判別がNS、かつSA-NSの判別がSAの場合には判別結果をNSとし(STP117)、[4]SP-SAの判別がSPでSP-NSの判別がNS、かつSA-NSの判別がNSの場合ににおける判別結果をNSとする(STP118)。[5]SP-SAの判別がSAでSP-NSの判別がSP、かつSA-NSの判別がSAの場合には、既に記憶部に格納されているMotifフラグをチェックする例外処理を行い(STP119)、その結果がtrueであればSPとし、falseの場合にはSAとする(STP120)。同様に、[6]SP-SAの判別がSAでSP-NSの判別がSP、かつSA-NSの判別がNSである場合にも、Motifフラグをチェックする例外処理を行い(STP121)、その結果がtrueであればSPとし、falseの場合にはNSとする(STP122)。[7]SP-SAの判別がSAで、SP-NSの判別がNS、且つSA-NSの判別がNSの場合には判別結果はNSとし(STP123)、[8]SP-SAの判別がSAで、SP-NSの判別がNS且つSA-NSの判別がSAの場合には判別結果はSAとする(STP124)。
これら全ての演算が完了すると、判別結果と候補領域の終点を出力して(STP125)、プログラムは終了する。
【0040】
【発明の効果】
本発明によれば、一次配列が解明されたタンパク質について、94%以上の正答率で、迅速に、被判別タンパク質がシグナルペプチドを持つか否かを判定することができる。
【図面の簡単な説明】
【図1】本発明のコンピュータプログラムのフローチャートSTP101からSTP112までの一例である。
【図2】図1に続くSTP113以降のフローチャートである。
図面
【図1】
0
【図2】
1