TOP > 国内特許検索 > 位置特異的スコアの算出装置、算出方法及びプログラム、GPIアンカー修飾部位の特定装置、特定方法及びプログラム、並びにGPIアンカー修飾部位の判定装置、判定方法及びプログラム > 明細書

明細書 :位置特異的スコアの算出装置、算出方法及びプログラム、GPIアンカー修飾部位の特定装置、特定方法及びプログラム、並びにGPIアンカー修飾部位の判定装置、判定方法及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5991524号 (P5991524)
公開番号 特開2014-048797 (P2014-048797A)
登録日 平成28年8月26日(2016.8.26)
発行日 平成28年9月14日(2016.9.14)
公開日 平成26年3月17日(2014.3.17)
発明の名称または考案の名称 位置特異的スコアの算出装置、算出方法及びプログラム、GPIアンカー修飾部位の特定装置、特定方法及びプログラム、並びにGPIアンカー修飾部位の判定装置、判定方法及びプログラム
国際特許分類 G06F  19/22        (2011.01)
FI G06F 19/22
請求項の数または発明の数 18
全頁数 27
出願番号 特願2012-189907 (P2012-189907)
出願日 平成24年8月30日(2012.8.30)
審査請求日 平成27年3月23日(2015.3.23)
特許権者または実用新案権者 【識別番号】801000027
【氏名又は名称】学校法人明治大学
発明者または考案者 【氏名】田中 大貴
【氏名】池田 有理
【氏名】佐々木 貴規
個別代理人の代理人 【識別番号】100064908、【弁理士】、【氏名又は名称】志賀 正武
【識別番号】100106909、【弁理士】、【氏名又は名称】棚井 澄雄
【識別番号】100108578、【弁理士】、【氏名又は名称】高橋 詔男
【識別番号】100126882、【弁理士】、【氏名又は名称】五十嵐 光永
審査官 【審査官】田付 徳雄
参考文献・文献 特開2012-032163(JP,A)
特開2011-060004(JP,A)
調査した分野 G06F 19/10 - 19/28
特許請求の範囲 【請求項1】
GPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置としてN末端側及びC末端側に連続する所定の残基数の所定の領域の各残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアの算出装置であって、
複数のGPIアンカー型タンパク質のアミノ酸配列情報を取得する配列取得部と、
前記配列取得部が取得したアミノ酸配列情報のGPIアンカー修飾部位の残基位置を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出する正解出現頻度算出部と、
前記配列取得部が取得したアミノ酸配列情報から、位置特異的スコアの算出に用いるGPIアンカー修飾部位以外のアミノ酸残基を抽出する不正解残基抽出部と、
前記不正解残基抽出部が抽出した複数のアミノ酸残基を用いて、当該アミノ酸残基を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出する不正解出現頻度算出部と、
アミノ酸残基の種類ごとに、前記正解出現頻度を前記不正解出現頻度で除算した値に基づいて位置特異的スコアを算出する位置特異的スコア算出部と
を備えることを特徴とする位置特異的スコアの算出装置。
【請求項2】
アミノ酸残基の疎水性値の平均化に用いる残基数である疎水性特性抽出必要数を用いて、連続する当該疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均である平均疎水性値を、前記配列取得部が取得したアミノ酸配列情報が示すアミノ酸残基のそれぞれに対して1残基ずつずらしながら算出する平均疎水性値算出部と、
前記配列取得部が取得したアミノ酸配列情報のC末端側の高疎水性領域におけるアミノ酸残基のうち、前記平均疎水性値が最も高いアミノ酸残基の残基位置である第1の残基位置を特定する第1の残基位置特定部と、
前記配列取得部が取得したアミノ酸配列情報のアミノ酸残基であって前記平均疎水性値が負数のアミノ酸残基のうち、最もC末端側に存在するアミノ酸残基の残基位置である第2の残基位置を特定する第2の残基位置特定部と、
前記配列取得部が取得したアミノ酸配列情報のアミノ酸残基であって前記平均疎水性値が前記第2の残基位置の平均疎水性値より低くかつ当該平均疎水性値がそれぞれ隣接するアミノ酸残基の平均疎水性値より低いアミノ酸残基のうち、最もC末端側に存在するアミノ酸残基の残基位置である第3の残基位置を特定する第3の残基位置特定部と、
前記第1の残基位置、前記第2の残基位置、及び前記第3の残基位置の平均値である平均残基位置を算出する平均残基位置算出部と、
を備え、
前記不正解残基抽出部は、前記平均残基位置算出部が算出した平均残基位置の近傍の所定の候補範囲内にあるアミノ酸残基を抽出する
ことを特徴とする請求項1に記載の位置特異的スコアの算出装置。
【請求項3】
前記候補範囲は、前記平均残基位置算出部が算出した平均残基位置とGPIアンカー修飾部位の残基位置との差の最小値から最大値までの範囲である
ことを特徴とする請求項2に記載の位置特異的スコアの算出装置。
【請求項4】
前記不正解残基抽出部は、残基位置が所定残基数以上C末端から離れているアミノ酸残基を抽出する
ことを特徴とする請求項1から請求項3の何れか1項に記載の位置特異的スコアの算出装置。
【請求項5】
前記所定残基数は、複数の既知のGPIアンカー型タンパク質のC末端からGPIアンカー修飾部位までの残基数の最小値である
ことを特徴とする請求項4に記載の位置特異的スコアの算出装置。
【請求項6】
前記不正解残基抽出部は、前記配列取得部が取得したアミノ酸配列情報のアミノ酸残基のうち、アラニン、システイン、アスパラギン酸、グリシン、アスパラギン、及びセリンを抽出する
ことを特徴とする請求項1から請求項5の何れか1項に記載の位置特異的スコアの算出装置。
【請求項7】
GPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置としてN末端側及びC末端側に連続する所定の残基数の所定の領域の各残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアの算出装置を用いた位置特異的スコアの算出方法であって、
前記算出装置の配列取得部は、複数のGPIアンカー型タンパク質のアミノ酸配列情報を取得し、
前記算出装置の正解出現頻度算出部は、前記配列取得部が取得したアミノ酸配列情報のGPIアンカー修飾部位の残基位置を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出し、
前記算出装置の不正解残基抽出部は、前記配列取得部が取得したアミノ酸配列情報から、位置特異的スコアの算出に用いるGPIアンカー修飾部位以外のアミノ酸残基を抽出し、
前記算出装置の不正解出現頻度算出部は、前記不正解残基抽出部が抽出した複数のアミノ酸残基を用いて、当該アミノ酸残基を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出し、
前記算出装置の位置特異的スコア算出部は、アミノ酸残基の種類ごとに、前記正解出現頻度を前記不正解出現頻度で除算した値に基づいて位置特異的スコアを算出する
ことを特徴とする位置特異的スコアの算出方法。
【請求項8】
コンピュータを、
複数のGPIアンカー型タンパク質のアミノ酸配列情報を取得する配列取得部、
前記配列取得部が取得したアミノ酸配列情報のGPIアンカー修飾部位の残基位置を基準位置とする所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出する正解出現頻度算出部、
前記配列取得部が取得したアミノ酸配列情報から、位置特異的スコアの算出に用いるGPIアンカー修飾部位以外のアミノ酸残基を抽出する不正解残基抽出部、
前記不正解残基抽出部が抽出したアミノ酸残基を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出する不正解出現頻度算出部、
アミノ酸残基の種類ごとに、前記正解出現頻度を前記不正解出現頻度で除算した値に基づいて位置特異的スコアを算出する位置特異的スコア算出部
として機能させるためのプログラム。
【請求項9】
検査対象タンパク質におけるGPIアンカー修飾部位の位置を特定するGPIアンカー修飾部位の特定装置であって、
請求項1から請求項6の何れか1項に記載の算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸残基のそれぞれについて、当該アミノ酸残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部と、
前記スコア数値列に基づいてGPIアンカー修飾部位を特定するGPIアンカー修飾部位特定部と
を備えることを特徴とするGPIアンカー修飾部位の特定装置。
【請求項10】
前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する分類部であって、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として1を出力し、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位でない残基位置を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として0を出力するように学習された分類部
を備え、
前記GPIアンカー修飾部位特定部は、前記分類部が出力した期待値に基づいてGPIアンカー修飾部位を特定する
ことを特徴とする請求項9に記載のGPIアンカー修飾部位の特定装置。
【請求項11】
前記GPIアンカー修飾部位特定部は、前記分類部が出力した期待値が最も高いアミノ酸残基がGPIアンカー修飾部位であると特定する
ことを特徴とする請求項10に記載のGPIアンカー修飾部位の特定装置。
【請求項12】
検査対象タンパク質におけるGPIアンカー修飾部位の位置を特定するGPIアンカー修飾部位の特定装置を用いたGPIアンカー修飾部位の特定方法であって、
前記特定装置のスコア数値列生成部は、請求項1から請求項6の何れか1項に記載の算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸残基のそれぞれについて、当該アミノ酸残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成し、
前記特定装置のGPIアンカー修飾部位特定部は、前記スコア数値列に基づいてGPIアンカー修飾部位を特定する
ことを特徴とするGPIアンカー修飾部位の特定方法。
【請求項13】
コンピュータを、
査対象タンパク質のアミノ酸配列情報を取得する配列取得部、
請求項1から請求項6の何れか1項に記載の算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸残基のそれぞれについて、当該アミノ酸残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部、
前記スコア数値列に基づいてGPIアンカー修飾部位を特定するGPIアンカー修飾部位特定部
として機能させるためのプログラム。
【請求項14】
検査対象タンパク質を構成するアミノ酸残基である検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位の判定装置であって、
請求項1から請求項6の何れか1項に記載の算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸配列情報のうち、前記検査対象残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部と、
前記スコア数値列に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位判定部と
を備えることを特徴とするGPIアンカー修飾部位の判定装置。
【請求項15】
前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する分類部であって、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として1を出力し、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位でない残基位置を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として0を出力するように学習された分類部
を備え、
前記GPIアンカー修飾部位判定部は、前記分類部が出力した期待値に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定する
ことを特徴とする請求項14に記載のGPIアンカー修飾部位の判定装置
【請求項16】
前記GPIアンカー修飾部位判定部は、前記分類部が出力した期待値が0.5以上である場合に、前記検査対象残基がGPIアンカー修飾部位であると判定する
ことを特徴とする請求項15に記載のGPIアンカー修飾部位の判定装置
【請求項17】
検査対象タンパク質を構成するアミノ酸残基である検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位の判定装置を用いたGPIアンカー修飾部位判定方法であって、
前記判定装置のスコア数値列生成部は、請求項1から請求項6の何れか1項に記載の算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸配列のうち、前記検査対象残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定して当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成し、
前記判定装置のGPIアンカー修飾部位判定部は、前記スコア数値列に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定する
ことを特徴とするGPIアンカー修飾部位の判定方法。
【請求項18】
コンピュータを、
請求項1から請求項6の何れか1項に記載の算出装置が算出した位置特異的スコアに基づいて、検査対象タンパク質のアミノ酸配列のうち、検査対象残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部、
前記スコア数値列に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位判定部
として機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、GPI(glycosylphosphatidylinositol)アンカー型タンパク質のGPIアンカー修飾部位を基準位置としてN末端側及びC末端側に連続する所定の残基数の所定の領域の各残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアの算出装置、算出方法及びプログラムに関する。また、本発明は、検査対象タンパク質からGPIアンカー修飾部位の位置を特定するGPIアンカー修飾部位特定装置、特定方法及びプログラムに関する。また、本発明は、検査対象タンパク質の検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位判定装置、判定方法及びプログラムに関する。
【背景技術】
【0002】
生体内の多くのタンパク質は、糖鎖、脂質、糖脂質等により翻訳後修飾を受けており、これらの修飾がタンパク質の機能や細胞内局在に影響することが知られている。これらの翻訳後修飾の中でも、脂質と糖鎖とからなる糖脂質であるGPIアンカーによる修飾は、非常に重要な意味を有するとされている。このことは、GPIアンカーが真核生物や古細菌において広く保存されていること、GPIアンカーを欠損した酵母や原虫は生存できず、GPIアンカーを欠損したヒトは造血幹細胞に異常を生じること等からも明らかである。
GPIにより修飾を受けるタンパク質は、GPIアンカー型タンパク質と呼ばれる。GPIアンカー型タンパク質は、そのアミノ酸配列のN末端に小胞体輸送のシグナルペプチドを有するため、小胞体内に輸送された後に翻訳を完了する。その後、GPIアンカー修飾部位(ωサイト)のC末端側に存在するプロペプチドが、トランスアミダーゼにより切断及び除去され、GPIアンカー型タンパク質は小胞体内で生合成されたGPIアンカーと結合する。GPIアンカーと結合したGPIアンカー型タンパク質は、ゴルジ体を経て細胞膜表面に輸送され、GPIアンカーにより細胞膜に繋ぎ止められる。
【0003】
GPIアンカー型タンパク質としては、CD14、CD16b等の受容体、5’-ヌクレオチダーゼ、アルカリフォスファターゼ等の酵素等の生体反応に極めて重要なタンパク質が多く発見されている。また、狂牛病関連のプリオンタンパク質や、癌関連のヒト癌胎児性抗原(CEA)等、重篤な疾患に関わるタンパク質も見出されている。しかしながら、現在までに真核生物で知られているGPIアンカー型タンパク質は100種類程度であり、未だ発見されていないGPIアンカー型タンパク質が多く存在すると考えられている。そこで、近年では、コンピュータを用いたバイオインフォマティクス手法により、アミノ酸配列からGPIアンカー型タンパク質を新たに見つける試みがなされている。
【0004】
例えば、特許文献1には、ωサイトを含むアミノ酸残基の部分配列について誤差逆伝播型ニューラルネットワークを使用してGPIアンカー型タンパク質を判別する発明が開示されている。特許文献1によれば、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接するアミノ酸残基をωサイトと推定している。
しかしながら、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接するアミノ酸残基の多くは、ωサイトであることが分かっているが、当該アミノ酸残基は、必ずしもωサイトであるとは限らない。
【0005】
また現在、既知のGPIアンカー型タンパク質においても、ωサイトの位置が未知のものが存在する。これらのGPIアンカー型タンパク質のωサイトの位置を正確に予測することで、GPIアンカー型タンパク質についての詳しい情報を明らかにすることができる。
そのため、近年、ωサイトの位置を特定する手法が研究されている(例えば、非特許文献1-5を参照)。
【先行技術文献】
【0006】

【特許文献1】特開2012-32163号公報
【0007】

【非特許文献1】Birgit Eisenhaberら、Sequence properties of GPI-anchored proteins near the ω-site:constraints for the polypeptide binding site of the putative transamidase、「Protein Engineering」、1998年
【非特許文献2】Birgit Eisenhaberら、Prediction of Potential GPI-modification Sites in Proprotein Sequences、「J Mol Biol」1999年9月
【非特許文献3】Niklaus Fankhauserら、Identification of GPI anchor attachment signals by a Kohonen self-organizing map、「BMC Bioinformatics」、2005年5月
【非特許文献4】Guylaine Poissonら、FragAnchor: A Large-Scale Predictor of Glycosylphosphatidylinositol Anchors in Eukaryote Protein Sequences by Qualitative Scoring、「Genomics Proteomics Bioinformatics」、2007年5月
【非特許文献5】Andrea Pierleoniら、PredGPI: a GPI-anchor predictor、「BMC Bioinformatics」、2008年9月
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した非特許文献1-5に挙げたωサイトの位置の予測方法においては、いずれもその選択性の評価がなされていない。また、感度の評価も58%~88%程度であり、より正確にωサイトの位置を予測することが望まれている。
本発明は、上記事情に鑑みてなされたものであって、高感度かつ高選択的に検査対象タンパク質のGPIアンカー修飾部位を判定するための位置特異的スコアの算出装置、算出方法及びプログラム、高感度かつ高選択的に検査対象タンパク質のGPIアンカー修飾部位を特定することが可能なGPIアンカー修飾部位特定装置、特定方法及びプログラム、並びに高感度かつ高選択的に検査対象残基がGPIアンカー修飾部位であるか否かを判定することが可能なGPIアンカー修飾部位判定装置、判定方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は上記の課題を解決するためになされたものであり、GPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置としてN末端側及びC末端側に連続する所定の残基数の所定の領域の各残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアの算出装置であって、複数のGPIアンカー型タンパク質のアミノ酸配列情報を取得する配列取得部と、前記配列取得部が取得したアミノ酸配列情報のGPIアンカー修飾部位の残基位置を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出する正解出現頻度算出部と、前記配列取得部が取得したアミノ酸配列情報から、位置特異的スコアの算出に用いるGPIアンカー修飾部位以外のアミノ酸残基を抽出する不正解残基抽出部と、前記不正解残基抽出部が抽出した複数のアミノ酸残基を用いて、当該アミノ酸残基を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出する不正解出現頻度算出部と、アミノ酸残基の種類ごとに、前記正解出現頻度を前記不正解出現頻度で除算した値に基づいて位置特異的スコアを算出する位置特異的スコア算出部とを備えることを特徴とする。
【0010】
また、本発明は、アミノ酸残基の疎水性値の平均化に用いる残基数である疎水性特性抽出必要数を用いて、連続する当該疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均である平均疎水性値を、前記配列取得部が取得したアミノ酸配列情報が示すアミノ酸残基のそれぞれに対して1残基ずつずらしながら算出する平均疎水性値算出部と、前記配列取得部が取得したアミノ酸配列情報のC末端側の高疎水性領域におけるアミノ酸残基のうち、前記平均疎水性値が最も高いアミノ酸残基の残基位置である第1の残基位置を特定する第1の残基位置特定部と、前記配列取得部が取得したアミノ酸配列情報のアミノ酸残基であって前記平均疎水性値が負数のアミノ酸残基のうち、最もC末端側に存在するアミノ酸残基の残基位置である第2の残基位置を特定する第2の残基位置特定部と、前記配列取得部が取得したアミノ酸配列情報のアミノ酸残基であって前記平均疎水性値が前記第2の残基位置の平均疎水性値より低くかつ当該平均疎水性値がそれぞれ隣接するアミノ酸残基の平均疎水性値より低いアミノ酸残基のうち、最もC末端側に存在するアミノ酸残基の残基位置である第3の残基位置を特定する第3の残基位置特定部と、前記第1の残基位置、前記第2の残基位置、及び前記第3の残基位置の平均値である平均残基位置を算出する平均残基位置算出部と、を備え、前記不正解残基抽出部は、前記平均残基位置算出部が算出した平均残基位置の近傍の所定の候補範囲内にあるアミノ酸残基を抽出することを特徴とする。
【0011】
また、本発明において前記候補範囲は、前記平均残基位置算出部が算出した平均残基位置とGPIアンカー修飾部位の残基位置との差の最小値から最大値までの範囲であることを特徴とする。
【0012】
また、本発明において前記不正解残基抽出部は、前記平均残基位置算出部が算出した平均残基位置の近傍の所定の候補範囲内にあり、かつ残基位置が所定残基数以上C末端から離れているアミノ酸残基を抽出することを特徴とする。
【0013】
また、本発明において前記所定残基数は、複数のGPIアンカー型タンパク質のC末端からGPIアンカー修飾部位までの残基数の最小値であることを特徴とする。
【0014】
また、本発明において前記不正解残基抽出部は、前記平均残基位置算出部が算出した平均残基位置の近傍の所定の候補範囲内にあるアミノ酸残基のうち、アラニン、システイン、アスパラギン酸、グリシン、アスパラギン、及びセリンを抽出することを特徴とする。
【0015】
また、本発明は、GPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置としてN末端側及びC末端側に連続する所定の残基数の所定の領域の各残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアの算出装置を用いた位置特異的スコアの算出方法であって、前記算出装置の配列取得部は、複数のGPIアンカー型タンパク質のアミノ酸配列情報を取得し、前記算出装置の正解出現頻度算出部は、前記配列取得部が取得したアミノ酸配列情報のGPIアンカー修飾部位の残基位置を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出し、前記算出装置の不正解残基抽出部は、前記配列取得部が取得したアミノ酸配列情報から、位置特異的スコアの算出に用いるGPIアンカー修飾部位以外のアミノ酸残基を抽出し、前記算出装置の不正解出現頻度算出部は、前記不正解残基抽出部が抽出した複数のアミノ酸残基を用いて、当該アミノ酸残基を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出し、前記算出装置の位置特異的スコア算出部は、アミノ酸残基の種類ごとに、前記正解出現頻度を前記不正解出現頻度で除算した値に基づいて位置特異的スコアを算出することを特徴とする。
【0016】
また、本発明は、コンピュータを、複数のGPIアンカー型タンパク質のアミノ酸配列情報を取得する配列取得部、前記配列取得部が取得したアミノ酸配列情報のGPIアンカー修飾部位の残基位置を基準位置とする所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出する正解出現頻度算出部、前記配列取得部が取得したアミノ酸配列情報から、位置特異的スコアの算出に用いるGPIアンカー修飾部位以外のアミノ酸残基を抽出する不正解残基抽出部、前記不正解残基抽出部が抽出したアミノ酸残基を基準位置とする前記所定の領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出する不正解出現頻度算出部、アミノ酸残基の種類ごとに、前記正解出現頻度を前記不正解出現頻度で除算した値に基づいて位置特異的スコアを算出する位置特異的スコア算出部として機能させるためのプログラムである。
【0017】
また、本発明は、検査対象タンパク質におけるGPIアンカー修飾部位の位置を特定するGPIアンカー修飾部位の特定装置であって、上記算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸残基のそれぞれについて、当該アミノ酸残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部と、前記スコア数値列に基づいてGPIアンカー修飾部位を特定するGPIアンカー修飾部位特定部とを備えることを特徴とする。
【0018】
また、本発明は、前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する分類部であって、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として1を出力し、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位でない残基位置を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として0を出力するように学習された分類部を備え、前記GPIアンカー修飾部位特定部は、前記分類部が出力した期待値に基づいてGPIアンカー修飾部位を特定することを特徴とする。
【0019】
また、本発明において前記GPIアンカー修飾部位特定部は、前記分類部が出力した期待値が最も高いアミノ酸残基がGPIアンカー修飾部位であると特定することを特徴とする。
【0020】
また、本発明は、検査対象タンパク質におけるGPIアンカー修飾部位の位置を特定するGPIアンカー修飾部位の特定装置を用いたGPIアンカー修飾部位の特定方法であって、前記特定装置のスコア数値列生成部は、上記算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸残基のそれぞれについて、当該アミノ酸残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成し、前記特定装置のGPIアンカー修飾部位特定部は、前記スコア数値列に基づいてGPIアンカー修飾部位を特定することを特徴とする。
【0021】
また、本発明は、コンピュータを、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部、上記算出装置が算出した位置特異的スコアに基づいて、検査対象タンパク質のアミノ酸残基のそれぞれについて、当該アミノ酸残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部、前記スコア数値列に基づいてGPIアンカー修飾部位を特定するGPIアンカー修飾部位特定部として機能させるためのプログラムである。
【0022】
また、本発明は、検査対象タンパク質を構成するアミノ酸残基である検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位の判定装置であって、上記算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸配列情報のうち、前記検査対象残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部と、前記スコア数値列に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位判定部とを備えることを特徴とする。
【0023】
また、本発明は、前記スコア数値列生成部が生成したスコア数値列を入力し、GPIアンカー型タンパク質らしさを示す0以上1以下の期待値を出力する分類部であって、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として1を出力し、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位でない残基位置を基準位置とした部分配列のスコア数値列を入力とした場合に、期待値として0を出力するように学習された分類部を備え、前記GPIアンカー修飾部位判定部は、前記分類部が出力した期待値に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定することを特徴とする。
【0024】
また、本発明において前記GPIアンカー修飾部位判定部は、前記分類部が出力した期待値が0.5以上である場合に、前記検査対象残基がGPIアンカー修飾部位であると判定することを特徴とする。
【0025】
また、本発明は、検査対象タンパク質を構成するアミノ酸残基である検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位判定装置を用いたGPIアンカー修飾部位判定方法であって、前記判定装置のスコア数値列生成部は、上記算出装置が算出した位置特異的スコアに基づいて、前記検査対象タンパク質のアミノ酸配列のうち、前記検査対象残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定して当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成し、前記判定装置のGPIアンカー修飾部位判定部は、前記スコア数値列に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定することを特徴とする。
【0026】
また、本発明は、コンピュータを、上記算出装置が算出した位置特異的スコアに基づいて、検査対象タンパク質のアミノ酸配列のうち、検査対象残基を基準位置とした前記所定の領域におけるアミノ酸残基の部分配列の各アミノ酸残基の位置特異的スコアを特定し、当該各アミノ酸残基の位置特異的スコアを示す数値列であるスコア数値列を生成するスコア数値列生成部、前記スコア数値列に基づいて前記検査対象残基がGPIアンカー修飾部位であるか否かを判定するGPIアンカー修飾部位判定部として機能させるためのプログラムである。
【発明の効果】
【0027】
本発明によれば、位置特異的スコアの算出装置は、GPIアンカー修飾部位の特定に特化したPSSM(Position Specific Scoring Matrix;位置特異的スコアリングマトリックス)を生成することができる。そして、本発明によるGPIアンカー修飾部位の特定装置は、当該PSSMを用いることにより、高感度かつ高選択的に検査対象タンパク質のGPIアンカー修飾部位を特定することができる。また、本発明によるGPIアンカー修飾部位判定装置は、当該PSSMを用いることにより、高感度かつ高選択的に検査対象残基がGPIアンカー修飾部位であるか否かを判定することできる。
【図面の簡単な説明】
【0028】
【図1】本発明の一実施形態による位置特異的スコア算出装置の構成を示す概略ブロック図である。
【図2】疎水性指標値記憶部が記憶する情報を示す図である。
【図3】本実施形態による位置特異的スコア算出装置の動作を示すフローチャートである。
【図4】平均疎水性値の算出方法を示す図である。
【図5】ωサイトの近傍に存在する特徴的なアミノ酸残基の位置を示す図である。
【図6】平均残基位置とωサイトとの残基位置差を示す図である。
【図7】位置特異的スコア算出装置が算出した位置特異的スコアを用いて生成したPSSMの一例を示す図である。
【図8】本発明の一実施形態によるωサイト判定装置の構成を示す概略ブロック図である。
【図9】本実施形態で用いるニューラルネットワークの構成を示す図である。
【図10】位置特異的スコアの割り当て方法を示す図である。
【図11】本発明の一実施形態によるωサイト判定装置の動作を示すフローチャートである。
【図12】本実施形態によるωサイト判定装置の判定精度を示す表である。
【図13】本発明の一実施形態によるωサイト特定装置の構成を示す概略ブロック図である。
【図14】本発明の一実施形態によるωサイト特定装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0029】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
《位置特異的スコア算出装置》
本実施形態に係る位置特異的スコア算出装置は、GPIアンカー修飾部位(以下、ωサイトという)の特定に特化した位置特異的スコアを算出する。ここで、位置特異的スコアとは、アミノ酸残基の部分配列の中心のアミノ酸残基がωサイトである可能性を示す値であり、当該値が大きいほど、部分配列の中心のアミノ酸残基がωサイトである可能性が高いことを示す。これにより、ωサイトの特定に特化したPSSMを生成することができる。PSSMとは、GPIアンカー型タンパク質のωサイトを中心とした所定の部分配列の各残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを格納する行列(Matrix)である。

【0030】
図1は、本発明の一実施形態による位置特異的スコア算出装置100の構成を示す概略ブロック図である。
位置特異的スコア算出装置100は、既知配列記憶部101、配列取得部102、疎水性指標値記憶部103、疎水性指標値特定部104、平均疎水性値算出部105、第1の残基位置特定部106、第2の残基位置特定部107、第3の残基位置特定部108、平均残基位置算出部109、不正解残基抽出部110、不正解出現頻度算出部111、正解出現頻度算出部112、位置特異的スコア算出部113を備える。

【0031】
既知配列記憶部101は、複数の既知のGPIアンカー型タンパク質のアミノ酸配列情報と、当該GPIアンカー型タンパク質のωサイトの残基位置を記憶する。
配列取得部102は、既知配列記憶部101からアミノ酸配列情報とωサイトの残基位置を読み出す。

【0032】
疎水性指標値記憶部103は、アミノ酸残基に関連付けて当該アミノ酸残基の疎水性指標値を記憶する。
疎水性指標値特定部104は、配列取得部102が取得したアミノ酸配列情報のアミノ酸残基それぞれの疎水性指標値を疎水性指標値記憶部103から特定し、アミノ酸残基ごとの疎水性指標値を示す連続する数値列を生成する。
平均疎水性値算出部105は、疎水性指標値特定部104が生成した数値列に基づいて、連続するアミノ酸残基の平均疎水性値を算出する。なお、アミノ酸残基の平均疎水性値とは、算出対象となるアミノ酸残基の前後に連続する所定数のアミノ酸残基の疎水性指標値の平均値のことである。

【0033】
第1の残基位置特定部106は、平均疎水性値算出部105が算出した各アミノ酸残基の平均疎水性値に基づいて、GPIアンカー型タンパク質のC末端側の高疎水性領域におけるアミノ酸残基のうち、平均疎水性値が最も高いアミノ酸残基の残基位置である第1の残基位置を特定する。GPIアンカー型タンパク質のC末端側の高疎水性領域とは、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域(N末端から30残基)を除くアミノ酸残基のそれぞれに対して平均疎水性値を算出した場合に、当該平均疎水性値が最大となるアミノ酸残基の部分配列の中央に位置するアミノ酸残基が含まれる領域である。なお、本実施形態におけるGPIアンカー型タンパク質のC末端側の高疎水性領域は、C末端から14残基以内の領域を示す。

【0034】
第2の残基位置特定部107は、平均疎水性値算出部105が算出した各アミノ酸残基の平均疎水性値に基づいて、平均疎水性値が負数のアミノ酸残基のうち最もC末端側に存在するアミノ酸残基の残基位置である第2の残基位置を特定する。

【0035】
第3の残基位置特定部108は、平均疎水性値算出部105が算出した各アミノ酸残基の平均疎水性値に基づいて、以下の条件を満たすアミノ酸残基のうち最もC末端側に存在するアミノ酸残基の残基位置である第3の残基位置を特定する。第3の残基位置の条件は、(1)平均疎水性値が第2の残基位置の平均疎水性値より低いこと、(2)平均疎水性値がN末端側およびC末端側にそれぞれ隣接する各アミノ酸残基の平均疎水性値より低いこと、である。

【0036】
平均残基位置算出部109は、前記第1の残基位置、前記第2の残基位置、及び前記第3の残基位置の平均値である平均残基位置を算出する。

【0037】
不正解残基抽出部110は、配列取得部102が取得したアミノ酸配列情報に含まれるアミノ酸残基のうち、以下の条件を満たすものを、位置特異的スコアの算出に用いるωサイト以外のアミノ酸残基である不正解残基として抽出する。不正解残基の条件は、(1)ωサイトでないこと、(2)平均残基位置を中心とした所定の候補範囲内に存在すること、(3)C末端から所定残基数以降に存在すること、(3)アラニン、システイン、アスパラギン酸、グリシン、アスパラギン、セリンのいずれかであること、である。

【0038】
不正解残基の条件の(2)の所定の候補範囲とは、既知の複数のGPIアンカー型タンパク質における平均残基位置とGPIアンカー修飾部位の残基位置との差の最小値から最大値までの範囲である。なお、本実施形態における候補範囲は、平均残基位置からN末端側に21残基、平均残基位置からC末端側に14残基の範囲である。また、不正解残基の条件の(3)の所定残基数とは、既知の複数のGPIアンカー型タンパク質のC末端からGPIアンカー修飾部位までの残基数の最小値である。なお、本実施形態における所定残基数は17残基である。

【0039】
不正解出現頻度算出部111は、不正解残基抽出部110が抽出した複数の不正解残基を用いて、当該不正解残基を中心とする所定領域内の位置に存在するアミノ酸残基の種類の出現頻度である不正解出現頻度を算出する。
正解出現頻度算出部112は、配列取得部102が取得した複数のアミノ酸配列情報を用いて、ωサイトを中心とする所定領域内の位置に存在するアミノ酸残基の種類の出現頻度である正解出現頻度を算出する。
位置特異的スコア算出部113は、正解出現頻度を不正解出現頻度で除算した値の対数をとることで、アミノ酸残基の種類ごと、中心残基からの位置ごとの位置特異的スコアを算出する。位置特異的スコア算出部113が算出した位置特異的スコアを行列形式にすることで、PSSMを生成することができる。

【0040】
図2は、疎水性指標値記憶部103が記憶する情報を示す図である。
疎水性指標値記憶部103は、図2に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の疎水性を示す指標値を記憶している。なお、本実施形態では、疎水性指標値としてKYTJ820101(Kyte J.,Doolittle R.,「Journal of Molecular Biology」、1982年、vol.157、no.1、pp.105-132)で示される疎水性指標値を用いている。図2において、アミノ酸残基の「A」はアラニンを示し、「R」はアルギニンを示し、「N」はアスパラギンを示し、「D」はアスパラギン酸を示し、「C」はシステインを示し、「Q」はグルタミンを示し、「E」はグルタミン酸を示し、「G」はグリシンを示し、「H」はヒスチジンを示し、「I」はイソロイシンを示し、「L」はロイシンを示し、「K」はリシンを示し、「M」はメチオニンを示し、「F」はフェニルアラニンを示し、「P」はプロリンを示し、「S」はセリンを示し、「T」はトレオニンを示し、「W」はトリプトファンを示し、「Y」はチロシンを示し、「V」はバリンを示す。

【0041】
ここで、既知配列記憶部101に記憶させるアミノ酸配列情報及びωサイトの残基位置について説明する。
本実施形態では、データセットを生成するためのデータバンクとしてSwiss Prot Release 201107を用いる。本データバンクのうち、ωサイトの位置が確定している実験的確証のあるGPIアンカー型タンパク質は20エントリである。しかしながら20エントリというデータ数は、データセットとして用いるには不足であるため、実験的確証のあるGPIアンカー型タンパク質のアミノ酸配列情報に加えて、実験的確証のあるGPIアンカー型タンパク質に類似する(By similarity)タンパク質のアミノ酸配列情報を用いる。実験的確証のあるGPIアンカー型タンパク質のアミノ酸配列情報とそれに類似するタンパク質のアミノ酸配列情報を合わせたエントリ数は、101エントリである。

【0042】
ここで、実験的確証のあるGPIアンカー型タンパク質に類似するタンパク質としてデータバンクに格納されているアミノ酸配列情報には、アラインメントがそろっていないものや、どのGPIアンカー型タンパク質に類似するかが不明のものが存在するため、これらをデータセットから除外する。具体的には、各エントリをクラスタリングしてクラスタごとにアラインメントをし、実験的確証のあるGPIアンカー型タンパク質のアミノ酸配列情報とωサイトの残基位置が揃っていないタンパク質のアミノ酸配列情報を、データセットから除外する。本実施形態では、配列類似性を40%に設定してクラスタリングを行った。このとき、ωサイトの残基位置が確定していないタンパク質については、実験的確証のあるGPIアンカー型タンパク質のωサイトと揃った残基位置を、ωサイトの残基位置としてアミノ酸配列情報に関連付ける。この時点で、データセットのエントリ数は85エントリである。

【0043】
次に、データバンクから当該85エントリに類似するアミノ酸配列情報を完全長で検索し、当該類似するアミノ酸配列情報を、データセットに加える。このとき、ωサイトの残基位置が確定していないタンパク質については、実験的確証のあるGPIアンカー型タンパク質のωサイトとアラインメントを取ることで、ωサイトの残基位置を特定し、アミノ酸配列情報に関連付ける。この時点で、データセットのエントリ数は122エントリである。
そして、当該122エントリのアミノ酸配列情報及びωサイトの残基位置を、既知のGPIアンカー型タンパク質のアミノ酸配列情報及びωサイトの残基位置として、既知配列記憶部101に記憶させる。

【0044】
次に、本実施形態による位置特異的スコア算出装置100の動作について説明する。
位置特異的スコア算出装置100は、ωサイトを中心としたアミノ酸残基の部分配列におけるアミノ酸残基の種類の出現頻度と、ωサイトでないアミノ酸残基を中心としたアミノ酸残基の部分配列におけるアミノ酸残基の種類の出現頻度とを算出し、その比の対数を位置特異的スコアとして算出する。これにより、位置特異的スコア算出装置100は、部分配列の中心のアミノ酸残基がωサイトである可能性を示す位置特異的スコアを算出することができる。

【0045】
ここで、タンパク質を構成するアミノ酸残基の数は、平均300残基程度であるため、ωサイトであるアミノ酸残基の数に対して、ωサイトでないアミノ酸残基の数はその300倍程度存在することになる。このうち、ωサイトになり得ないことが明らかなアミノ酸残基がほとんどであるため、ωサイトでないアミノ酸残基を全て用いて位置特異的スコアを算出した場合、その精度が低くなることが考えられる。そこで、本実施形態では、ωサイトになり得ないことが明らかなアミノ酸残基を除いて位置特異的スコアを算出することで、位置特異的スコアの精度を高めている。

【0046】
以下、位置特異的スコア算出装置100の具体的な動作について説明する。
図3は、本実施形態による位置特異的スコア算出装置100の動作を示すフローチャートである。
まず、位置特異的スコア算出装置100の配列取得部102は、既知配列記憶部101が記憶するアミノ酸配列情報とωサイトの残基位置の組み合わせを1つずつ取得し、当該組み合わせごとに、以下に示すステップS102~ステップS111の処理を実行する(ステップS101)。

【0047】
疎水性指標値特定部104は、疎水性指標値記憶部103を参照して、配列取得部102がステップS101で取得したアミノ酸配列情報の各アミノ酸残基の疎水性指標値を特定し、当該疎水性指標値を示す数値列を生成する(ステップS102)。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、疎水性指標値特定部104は、疎水性指標値記憶部103が記憶する図2に示す指標値より「1.9、3.8、3.8、-3.5、-1.6、-0.4、-4.5、-0.4、2.5、2.5……」という数値列を生成する。

【0048】
図4は、平均疎水性値の算出方法を示す図である。
次に、平均疎水性値算出部105は、疎水性指標値特定部104が生成した数値列に基づいて、連続するアミノ酸残基の平均疎水性値を算出する(ステップS103)。具体的には、平均疎水性値算出部105は、疎水性指標値特定部104が生成した数値列の連続する疎水性特性抽出必要数分の各疎水性指標値の平均である平均疎水性値を、図4に示すように、1残基ずつずらしながら算出する。なお、本実施形態における疎水性特性抽出必要数は、17残基である。

【0049】
ここで、疎水性特性抽出必要数の連続するアミノ酸残基の部分配列における中央のアミノ酸残基の位置がC末端からr残基目であるときの平均疎水性値は、式(1)を用いて算出できる。

【0050】
【数1】
JP0005991524B2_000002t.gif

【0051】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、疎水性特性抽出必要数を示す。また、H(i)は、疎水性特性抽出必要数の連続するアミノ酸残基の部分配列における中央のアミノ酸残基の位置がN末端からi残基目である場合のアミノ酸残基の疎水性指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置する部分配列の平均疎水性値は、N末端からr-n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの疎水性指標値の平均となる。なお、このとき、N末端からn残基以内のアミノ酸残基及びC末端からn残基以内のアミノ酸残基については、前後n残基の平均値を算出できないため、平均疎水性値として例えばNULL値を代入しておくと良い。

【0052】
図5は、ωサイトの近傍に存在する特徴的なアミノ酸残基の位置を示す図である。
ステップS103で、平均疎水性値算出部105が平均疎水性値を算出すると、位置特異的スコア算出装置100は、当該平均疎水性値を用いて、ωサイトの近傍に存在する特徴的なアミノ酸残基の位置を特定する。特徴的なアミノ酸残基とは、具体的には、C末端にある最大平均疎水性位置のアミノ酸残基(図5(A):第1の残基位置)、C末端から見て初めに平均疎水性値が負数となるアミノ酸残基(図5(B):第2の残基位置)、及び、第2の残基位置より平均疎水性値が低く、隣接する前後2残基の平均疎水性値よりも低いアミノ酸残基(図5(C):第3の残基位置)である。

【0053】
まず、第1の残基位置特定部106は、C末端から14残基以内のアミノ酸残基のうち、平均疎水性値が最も高いアミノ酸残基の残基位置を、第1の残基位置として特定する(ステップS104)。

【0054】
また、第2の残基位置特定部107は、平均疎水性値算出部105が算出した平均疎水性値が負数のアミノ酸残基を抽出する。次に、第2の残基位置特定部107は、抽出したアミノ酸残基のうち、最もC末端側に存在するもののアミノ酸残基の残基位置を、第2の残基位置として特定する(ステップS105)。

【0055】
また、第3の残基位置特定部108は、平均疎水性値が第2の残基位置の平均疎水性値より低いアミノ酸残基を抽出する。次に、第3の残基位置特定部108は、抽出したアミノ酸残基のうち、平均疎水性値が、N末端側及びC末端側にそれぞれ隣接するアミノ酸残基の平均疎水性値より低いものを抽出する。そして、第3の残基位置特定部108は、抽出したアミノ酸残基のうち、最もC末端側に存在するもののアミノ酸残基の残基位置を、第3の残基位置として特定する(ステップS106)。

【0056】
次に、平均残基位置算出部109は、第1の残基位置、第2の残基位置、及び第3の残基位置の平均値である平均残基位置を算出する(ステップS107)。
図6は、平均残基位置とωサイトとの残基位置差を示す図である。
平均残基位置は、上述したωサイトの近傍に存在する特徴的なアミノ酸残基の位置の平均値であるため、図6に示すように、ωサイトの近傍の残基位置となる。本実施形態においては、平均残基位置からC末端側に14残基、平均残基位置からN末端側に21残基の範囲内に、必ずωサイトが存在することが分かる。

【0057】
次に、不正解残基抽出部110は、ステップS101で配列取得部102が取得したアミノ酸配列から、平均残基位置算出部109が算出した平均残基位置からC末端側に14残基、平均残基位置からN末端側に21残基の範囲内のアミノ酸残基を抽出する(ステップS108)。

【0058】
次に、不正解残基抽出部110は、抽出したアミノ酸残基のうち、C末端側から17残基以上離れているものを抽出する(ステップS109)。これは、GPIアンカー型タンパク質のアタッチメントシグナルの最小残基数が17残基であり、これらの残基はωサイトになり得ないため、不正解残基から除外している。なお、アタッチメントシグナルの最小残基数は、複数の既知のGPIアンカー型タンパク質のC末端からGPIアンカー修飾部位までの残基数の最小値を算出することで求められる。

【0059】
次に、不正解残基抽出部110は、抽出したアミノ酸残基から、アラニン、システイン、アスパラギン酸、グリシン、アスパラギン、及びセリンを抽出する(ステップS110)。これは、ωサイトとなり得るアミノ酸残基がアラニン、システイン、アスパラギン酸、グリシン、アスパラギン、セリンの何れかのみであるからである。そして、不正解残基抽出部110は、抽出したアミノ酸残基から、ωサイトのアミノ酸残基を除外したアミノ酸残基を位置特異的スコアの算出に用いる不正解残基として、不正解出現頻度算出部111に出力する(ステップS111)。

【0060】
上述したステップS101~ステップS102の処理を、既知配列記憶部101が記憶するアミノ酸配列情報とωサイトの残基位置の組み合わせの全てについて実行すると、不正解残基として、1007エントリが抽出される。次に、不正解出現頻度算出部111は、不正解残基抽出部110から受け付けた複数の不正解残基のうち、冗長性が高いものを除去する(ステップS112)。冗長性が高いアミノ酸残基とは、例えば、当該アミノ酸残基を基準位置とする所定の範囲のアミノ酸残基の部分配列が同一または酷似しているもののことである。同様に、正解出現頻度算出部112は、配列取得部102が取得した各ωサイトのうち、冗長性が高いものを除去する(ステップS112)。なお、冗長性の除去は、CD-HIT(http://weizhong-lab.ucsd.edu/cd-hit/に開示されている。)を用いて80%以上の相同性(アミノ酸配列の同一性)を有する配列ごとにクラスタリングし、各クラスタから無作為に代表配列を決定して行った。これにより、位置特異的スコアの算出に用いる不正解残基の数は172エントリとなり、位置特異的スコアの算出に用いるωサイトの数は45エントリとなる。

【0061】
次に、不正解出現頻度算出部111は、冗長性の排除を行った複数の不正解残基を用いて、当該不正解残基を基準位置とする所定の範囲(基準位置のアミノ酸残基と基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とからなる範囲とすることが好ましい)に存在するアミノ酸残基から、式(2)を用いて不正解残基を基準位置とする所定範囲内の位置pに存在するアミノ酸残基の種類iの出現頻度である不正解出現頻度を算出する(ステップS113)。

【0062】
【数2】
JP0005991524B2_000003t.gif

【0063】
但し、nipは、種類iのアミノ酸残基が位置pに存在するタンパク質の個数を示す。これにより、データセットの全てのエントリにおいて位置pに種類iが存在しない場合にも、ゼロで除算を行うことを防ぐことができる。同様に、正解出現頻度算出部112は、冗長性の排除を行った複数のωサイトを用いて、当該ωサイトを基準位置とする所定の範囲におけるアミノ酸残基から、式(2)を用いてωサイトを基準位置とする所定範囲内の位置pに存在するアミノ酸残基の種類iの出現頻度である正解出現頻度を算出する(ステップS113)。

【0064】
そして、位置特異的スコア算出部113は、不正解出現頻度算出部111が算出した不正解出現頻度と正解出現頻度算出部112が算出した正解出現頻度とを用いて、式(3)を用いて位置特異的スコアを算出する(ステップS114)。

【0065】
【数3】
JP0005991524B2_000004t.gif

【0066】
但し、fipTωpは、位置pに存在するアミノ酸残基の種類iの正解出現頻度を示す。また、fipFωpは、位置pに存在するアミノ酸残基の種類iの不正解出現頻度を示す。

【0067】
このように、位置特異的スコア算出装置100は、ωサイトになり得ない残基位置のアミノ酸残基を除いた不正解残基を用いて位置特異的スコアを算出する。これにより、当該位置特異的スコアを用いてPSSMを生成することで、ωサイトの特定に特化したPSSMを生成することができる。

【0068】
図7は、位置特異的スコア算出装置100が算出した位置特異的スコアを用いて生成したPSSMの一例を示す図である。
図7に示すように、PSSMは、アミノ酸残基の位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを要素とする。図7では、ωサイトの残基位置を0とし、負数側をN末端側、正数側をC末端側としている。

【0069】
以下、上述した手順により算出された位置特異的スコアから生成したPSSMの使用方法について説明する。

【0070】
《ωサイト判定装置》
本実施形態によるωサイト判定装置は、検査対象となるタンパク質のアミノ酸配列情報とωサイトであるか否かの判定対象となる残基位置の入力を受け付け、当該残基位置がωサイトであるか否かを判定する。

【0071】
図8は、本発明の一実施形態によるωサイト判定装置200の構成を示す概略ブロック図である。
ωサイト判定装置200は、入力部201、PSSM記憶部202、スコア数値列生成部203、ニューラルネットワーク204(分類部)、ωサイト判定部205(GPIアンカー修飾部位判定部)を備える。

【0072】
入力部201は、検査対象となるタンパク質のアミノ酸配列情報とωサイトであるか否かの判定対象となる残基位置(検査対象残基位置)の入力を受け付ける。
PSSM記憶部202は、位置特異的スコア算出装置100が算出した位置特異的スコアを用いて生成されたPSSMを記憶する。
スコア数値列生成部203は、PSSM記憶部202が記憶するPSSMに基づいて、入力部201が受け付けた残基位置を基準位置とする所定の領域におけるスコア数値列を生成する。ここで生成するスコア数値列とは、入力部201が受け付けたアミノ酸配列情報の所定の領域のそれぞれのアミノ酸残基の位置特異的スコアを要素とする配列である。
ニューラルネットワーク204は、スコア数値列生成部203が生成したスコア数値列を入力し、ωサイトらしさを示す0以上1以下の期待値を出力する。
ωサイト判定部205は、入力部201が受け付けた検査対象残基位置がωサイトであるか否かを判定する。

【0073】
ここで、ニューラルネットワーク204の挙動について説明する。
図9は、本実施形態で用いるニューラルネットワークの構成を示す図である。
ニューラルネットワーク204は、入力層S、隠れ層S、出力層Sの3段の階層構造を有する。
入力層Sは、スコア数値列生成部203が生成するスコア数値列の要素数と同数のノードN-1~N-25(以下、ノードN-1~N-25を総称する場合は、ノードNと記載する)で構成される。
隠れ層Sは、入力層Sのノード数と同数のノードN-1~N-25(以下、ノードN-1~N-25を総称する場合は、ノードNと記載する)で構成される。
出力層Sは、1つのノードNで構成される。

【0074】
ノードNのそれぞれは、スコア数値列生成部203が生成するスコア数値列のうち、自身に対応づけられた要素の値を入力し、ノードNのそれぞれに出力する。ノードNは、ノードNのそれぞれが出力する値を入力し、当該入力した値を所定の記憶領域に記憶した伝達関数に代入し、得られた値をノードNに出力する。ノードNは、ノードNのそれぞれが出力する値を入力し、当該入力した値を所定の記憶領域に記憶した伝達関数に代入し、得られた値を期待値として出力する。
なお、ノードN、Nが用いる伝達関数とは、前段のノードから入力したそれぞれの値と入力元のノードに対応する結合加重との積を総和し、得られる値が所定の閾値を超えた場合にのみ値を発火(出力)する関数である。ここで、ノードNの伝達関数を式(4)に、ノードNの伝達関数を式(5)に示す。

【0075】
【数4】
JP0005991524B2_000005t.gif
【数5】
JP0005991524B2_000006t.gif

【0076】
但し、nは、ノードNの総数を示す値であり、本実施形態では25となる。また、wは、ノードN-iに対応する結合加重を示す。また、xは、ノードN-iから入力した値を示す。また、mは、ノードNの総数を示す値であり、本実施形態では25となる。また、wは、ノードN-jに対応する結合加重を示す。また、xは、ノードN-jから入力した値を示す。また、θは、発火のための閾値を示す。また、関数fは、0以上1以下の値を出力するシグモイド関数である。なお、シグモイド関数は、式(6)に示す関数である。

【0077】
【数6】
JP0005991524B2_000007t.gif

【0078】
また、ニューラルネットワーク204は、既知のωサイトを基準位置としたスコア数値列を入力とした場合に、期待値として1を出力し、既知のωサイトでないアミノ酸残基を基準位置としたスコア数値列を入力した場合に、期待値として0を出力するように学習されている。
ここで、ニューラルネットワーク204の学習方法を説明する。

【0079】
まず、位置特異的スコア算出装置100が出現頻度の算出に用いたアミノ酸残基の部分配列におけるアミノ酸残基のそれぞれに対して、PSSM記憶部202が記憶する位置特異的スコアを割り当て、スコア数値列を生成する。
図10は、位置特異的スコアの割り当て方法を示す図である。例えば、抽出した所定の範囲のアミノ酸残基が、図10に示すように「VLY……FSA……SLI」という配列を示す場合、図7に示すPSSMを参照して、「-0.40、1.61、0.92、……、0.09、0.78、1.25、……、-1.22、0.86、-0.45」という数値列を生成する。

【0080】
次に、生成したスコア数値列をニューラルネットワーク204の入力層Sの各ノードNに入力する。ノードNのそれぞれは、入力した値をノードNのそれぞれに出力する。ノードNは、ノードNのそれぞれが出力する値を伝達関数に代入し、得られた値をノードNに出力する。ノードNは、ノードNのそれぞれが出力する値を伝達関数に代入し、得られる値を期待値として出力する。

【0081】
他方、ニューラルネットワーク204のノードNは、教師データの入力を受け付ける。教師データとは、入力したデータに対して期待される出力値を示すデータのことである。本実施形態においては、既知のωサイトを基準位置としたスコア数値列を入力した場合、教師データは1であり、既知のωサイトでないアミノ酸残基を基準位置としたスコア数値列を入力した場合、教師データは0である。次に、ニューラルネットワーク204の各ノードは、教師データと出力した期待値との誤差を最小にするように、自身が用いる伝達関数の結合加重w、閾値θを変化させる。
この処理をPSSMの作成に用いたそれぞれのアミノ酸残基の部分配列に対して実行する。これにより、ニューラルネットワーク204は、既知のωサイトを基準位置としたスコア数値列を入力とした場合に、期待値として1を出力し、既知のωサイトでないアミノ酸残基を基準位置としたスコア数値列を入力した場合に、期待値として0を出力することとなる。

【0082】
次に、本実施形態によるωサイト判定装置200の動作について説明する。
図11は、本発明の一実施形態によるωサイト判定装置200の動作を示すフローチャートである。
まず、入力部201は、検査対象タンパク質のアミノ酸配列情報と検査対象残基位置の入力を受け付ける(ステップS201)。次に、スコア数値列生成部203は、入力部201が受け付けた検査対象残基位置を含む所定の領域における複数のアミノ酸残基を、入力部201が受け付けたアミノ酸配列情報から抽出する(ステップS202)。なお、本実施形態では、所定の領域として、基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とを用いる。

【0083】
次に、スコア数値列生成部203は、PSSM記憶部202が記憶するPSSMに基づいて、抽出した所定の範囲の各アミノ酸残基の位置特異的スコアを特定し、当該疎水性指標値を示す数値列を生成する(ステップS203)。次に、ニューラルネットワーク204は、当該スコア数値列を入力し、検査対象残基位置のωサイトらしさを示す0以上1以下の期待値を出力する(ステップS204)。

【0084】
ニューラルネットワーク204が期待値を出力すると、ωサイト判定部205は、出力した期待値が0.5以上であるか否かを判定する(ステップS205)。つまり、ωサイト判定部205は、ニューラルネットワーク204が出力した期待値が、ωサイトであることを示す「1」とωサイトでないことを示す「0」との何れに近いかを判定する。

【0085】
ωサイト判定部205は、ニューラルネットワーク204が出力した期待値が0.5以上であると判定した場合(ステップS205:YES)、ステップS201で入力部201が受け付けた検査対象残基位置が、ωサイトであると判定する(ステップS206)。他方、ωサイト判定部205は、ニューラルネットワーク204が出力した期待値が0.5未満であると判定した場合(ステップS205:NO)、ステップS201で入力部201が受け付けた検査対象残基位置が、ωサイトでないと判定する(ステップS207)。

【0086】
上述した動作により、ωサイト判定装置200は、高感度且つ高選択的に検査対象残基位置がωサイトであるか否かを判定することができる。
なお、GPIアンカー型タンパク質及び非GPIアンカー型タンパク質それぞれの判定精度を求める方法としては、n-fold cross validation法(n分割交差検定法)、bootstrap法、jackknife法、Self-consistency(自己無撞着)な手法などを挙げることができる。ここで、判定精度とは、判定の感度、選択性、及び成功率のことを言う。
以下に、4分割交差検定法について詳述する。

【0087】
本実施形態では、以下の処理により、4分割交差検定法による判定精度を算出した。
まず、上述した45エントリのTωpと172エントリのFωpの位置特異的アミノ酸出現頻度を用いて、PSSMを生成する。次に、生成したPSSMに基づくスコアをTωpとFωpのアミノ酸配列データに割り当てる。次に、スコアを割り当てたTωpとFωpのアミノ酸配列データを4分割し、そのうちの3つの部分データセットを用いてニューラルネットワーク204の学習を行う。次に、PSSMに基づいて、他の1つの部分データセットの各エントリのスコア数値列を生成する。次に、当該算出したスコアに基づいて、感度、選択性、成功率を算出する。そして、ニューラルネットワーク204を学習する部分データセットとスコアを算出する部分データセットとの全ての組み合わせに対して判定精度を算出し、それぞれの平均値をデータセット全体に対する判定精度として算出する。

【0088】
4分割交差検定法について、図12を用いて、さらに具体的に説明する。
図12は、本実施形態によるωサイト判定装置200の判定精度を示す表である。
図12では、ωサイト判定装置200が、ωサイトであると判定した検査対象残基位置の判定精度、及びωサイトでないと判定した検査対象残基位置の判定精度を示している。また、図12に示すωサイト及び非ωサイトそれぞれの判定精度を求めるにあたり、4分割交差検定法を100回実行した。

【0089】
図12に示すように、4分割交差検定法によるωサイトの判定精度は、冗長性94%の場合、4分割交差検定法を100回実行した平均の感度が92.99%、選択性が92.98%、成功率が0.93であった。なお、ここで冗長性の百分率(ここでは「94%」)は、基準位置のアミノ酸残基と基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とからなる範囲の全アミノ酸残基のうち、一致又は類似しているアミノ酸残基の割合を示す。また、4分割交差検定法を100回実行した場合における上位10回の成功率の平均の感度が94.83%、選択性が95.84%、成功率が0.95であった。また、4分割交差検定法を100回実行した場合における成功率が最高値のときの感度が94.08%、選択性が98.33%、成功率が0.96であった。

【0090】
また、図12に示すように、4分割交差検定法による非ωサイトの判定精度は、冗長性94%の場合、4分割交差検定法を100回実行した平均の感度が98.96%、選択性が98.99%、成功率が0.99であった。また、4分割交差検定法を100回実行した場合における上位10回の成功率の平均の感度が99.30%、選択性が99.21%、成功率が0.99であった。また、4分割交差検定法を100回実行した場合における成功率が最高値のときの感度が99.78%、選択性が99.11%、成功率が0.99であった。

【0091】
また、図12に示すように、4分割交差検定法によるωサイトの判定精度は、冗長性90%の場合、4分割交差検定法を100回実行した平均の感度が95.04%、選択性が95.99%、成功率が0.95であった。また、4分割交差検定法を100回実行した場合における上位10回の成功率の平均の感度が97.96%、選択性が98.71%、成功率が0.98であった。また、4分割交差検定法を100回実行した場合における成功率が最高値のときの感度が98.33%、選択性が100.00%、成功率が0.99であった。

【0092】
また、図12に示すように、4分割交差検定法による非ωサイトの判定精度は、冗長性90%の場合、4分割交差検定法を100回実行した平均の感度が99.27%、選択性が99.11%、成功率が0.99であった。また、4分割交差検定法を100回実行した場合における上位10回の成功率の平均の感度が99.75%、選択性が99.63%、成功率が1.00であった。また、4分割交差検定法を100回実行した場合における成功率が最高値のときの感度が100.00%、選択性が99.69%、成功率が1.00であった。

【0093】
また、図12に示すように、4分割交差検定法によるωサイトの判定精度は、冗長性80%の場合、4分割交差検定法を100回実行した平均の感度が89.45%、選択性が90.88%、成功率が0.90であった。また、4分割交差検定法を100回実行した場合における上位10回の成功率の平均の感度が95.64%、選択性が96.97%、成功率が0.96であった。また、4分割交差検定法を100回実行した場合における成功率が最高値のときの感度が100.00%、選択性が93.75%、成功率が0.97であった。

【0094】
また、図12に示すように、4分割交差検定法による非ωサイトの判定精度は、冗長性80%の場合、4分割交差検定法を100回実行した平均の感度が98.83%、選択性が98.57%、成功率が0.99であった。また、4分割交差検定法を100回実行した場合における上位10回の成功率の平均の感度が99.59%、選択性が99.38%、成功率が0.99であった。また、4分割交差検定法を100回実行した場合における成功率が最高値のときの感度が98.94%、選択性が100.00%、成功率が0.99であった。

【0095】
このように、本実施形態によるωサイト判定装置200によれば、非特許文献1~非特許文献5に係る方法(感度58%~88%)と比較して、高感度且つ高選択的に検査対象残基位置がωサイトであるか否かを判定することができる。

【0096】
《ωサイト特定装置》
本実施形態によるωサイト特定装置は、検査対象となるタンパク質のアミノ酸配列情報の入力を受け付け、当該タンパク質におけるωサイトの残基位置を特定する。

【0097】
図13は、本発明の一実施形態によるωサイト特定装置300の構成を示す概略ブロック図である。
ωサイト特定装置300は、入力部301、PSSM記憶部302、スコア数値列生成部303、ニューラルネットワーク304(分類部)、ωサイト特定部305(GPIアンカー修飾部位特定部)を備える。

【0098】
入力部301は、検査対象となるタンパク質のアミノ酸配列情報の入力を受け付ける。
PSSM記憶部302は、位置特異的スコア算出装置100が算出した位置特異的スコアを用いて生成されたPSSMを記憶する。
スコア数値列生成部303は、PSSM記憶部302が記憶するPSSMに基づいて、入力部301が受け付けたアミノ酸配列情報が示す各アミノ酸残基の残基位置を基準位置とする所定の領域におけるスコア数値列を生成する。ここで生成するスコア数値列とは、入力部301が受け付けたアミノ酸配列情報の所定の領域のそれぞれのアミノ酸残基の位置特異的スコアを要素とする配列である。
ニューラルネットワーク304は、スコア数値列生成部303が生成したスコア数値列を入力し、ωサイトらしさを示す0以上1以下の期待値を出力する。なお、ニューラルネットワーク304は、ニューラルネットワーク204と同様の学習がなされている。
ωサイト特定部305は、入力部301が受け付けたアミノ酸配列情報におけるωサイトの位置を特定する。

【0099】
次に、本実施形態によるωサイト特定装置300の動作について説明する。
図14は、本発明の一実施形態によるωサイト特定装置300の動作を示すフローチャートである。
まず、入力部301は、検査対象タンパク質のアミノ酸配列情報の入力を受け付ける(ステップS301)。次に、スコア数値列生成部303は、入力部301が受け付けたアミノ酸配列情報が示すアミノ酸残基を1つずつ選択し、当該アミノ酸残基ごとに、以下に示すステップS303~ステップS305の処理を実行する(ステップS302)。

【0100】
まず、スコア数値列生成部303は、ステップS302で選択したアミノ酸残基を含む所定の領域における複数のアミノ酸残基を、入力部301が受け付けたアミノ酸配列情報から抽出する(ステップS303)。なお、本実施形態では、所定の領域として、基準位置からN末端側に連続する12残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とを用いる。

【0101】
次に、スコア数値列生成部303は、PSSM記憶部302が記憶するPSSMに基づいて、抽出した所定の範囲の各アミノ酸残基の位置特異的スコアを特定し、当該疎水性指標値を示す数値列を生成する(ステップS304)。次に、ニューラルネットワーク304は、当該スコア数値列を入力し、検査対象残基位置のωサイトらしさを示す0以上1以下の期待値を出力する(ステップS305)。

【0102】
入力部301が受け付けたアミノ酸配列情報が示す全てのアミノ酸残基について、ニューラルネットワーク304が期待値を出力すると、ωサイト特定部305は、最も期待値が大きい値を示すアミノ酸残基を、ωサイトと特定する(ステップS306)。これにより、期待値が0.5以上のアミノ酸残基が複数出現した場合や、全ての期待値が0.5未満であった場合にも、ωサイトの位置を特定することができる。

【0103】
上述した動作により、ωサイト特定装置300は、検査対象タンパク質のωサイトの位置を精度良く特定することができる。

【0104】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、上述したωサイト判定装置200及びωサイト特定装置300は、それぞれニューラルネットワーク204、ニューラルネットワーク304により期待値を算出し、当該期待値に基づいてωサイトの判定・特定を行う場合について説明したが、これに限られない。例えば、ニューラルネットワーク204、ニューラルネットワーク304による期待値の算出に代えて、スコア数値列の平均値をスコアとして算出し、当該スコアを用いてωサイトの判定・特定を行っても良い。この場合、ωサイト判定部205は、スコアが所定の閾値以上である場合に、検査対象残基位置がωサイトであると判定する。また、ωサイト特定部305は、スコアが最も高いアミノ酸残基を、ωサイトと特定する。

【0105】
また、本実施形態では、タンパク質の完全長アミノ酸配列情報に基づいて位置特異的スコアの算出、ωサイトの判定及びωサイトの特定を行ったが、これに限られず、完全長塩基配列情報を用いても良い。ただし、この場合、常法によるイントロ配列の除去処理及びアミノ酸配列情報への翻訳処理を行ってから、各処理を行うこととなる。

【0106】
なお、上述の位置特異的スコア算出装置100、ωサイト判定装置200、及びωサイト特定装置300は、内部にコンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

【0107】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0108】
100…位置特異的スコア算出装置 101…既知配列記憶部 102…配列取得部 103…疎水性指標値記憶部 104…疎水性指標値特定部 105…平均疎水性値算出部 106…第1の残基位置特定部 107…第2の残基位置特定部 108…第3の残基位置特定部 109…平均残基位置算出部 110…不正解残基抽出部 111…不正解出現頻度算出部 112…正解出現頻度算出部 113…位置特異的スコア算出部 200…ωサイト判定装置 201…入力部 202…PSSM記憶部 203…スコア数値列生成部 204…ニューラルネットワーク 205…ωサイト判定部 300…ωサイト特定装置 301…入力部 302…PSSM記憶部 303…スコア数値列生成部 304…ニューラルネットワーク 305…ωサイト特定部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13