TOP > 国内特許検索 > 蛋白質の機能部位予測方法と機能部位予測装置 並びに蛋白質の機能改良方法 > 明細書

明細書 :蛋白質の機能部位予測方法と機能部位予測装置 並びに蛋白質の機能改良方法

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第3801714号 (P3801714)
公開番号 特開平10-222486 (P1998-222486A)
登録日 平成18年5月12日(2006.5.12)
発行日 平成18年7月26日(2006.7.26)
公開日 平成10年8月21日(1998.8.21)
発明の名称または考案の名称 蛋白質の機能部位予測方法と機能部位予測装置 並びに蛋白質の機能改良方法
国際特許分類 G06F  19/00        (2006.01)
C12N  15/09        (2006.01)
C12P  21/02        (2006.01)
C12Q   1/68        (2006.01)
FI G06F 19/00 600
C12N 15/00 ZNAA
C12P 21/02 C
C12Q 1/68 A
請求項の数または発明の数 4
全頁数 17
出願番号 特願平09-019249 (P1997-019249)
出願日 平成9年1月31日(1997.1.31)
審査請求日 平成15年2月21日(2003.2.21)
特許権者または実用新案権者 【識別番号】503360115
【氏名又は名称】独立行政法人科学技術振興機構
【識別番号】597014682
【氏名又は名称】土居 洋文
【識別番号】500520628
【氏名又は名称】セレスター・レキシコ・サイエンシズ株式会社
発明者または考案者 【氏名】土居 洋文
【氏名】平木 秀明
【氏名】金井 昭夫
個別代理人の代理人 【識別番号】100093230、【弁理士】、【氏名又は名称】西澤 利夫
審査官 【審査官】宮久保 博幸
参考文献・文献 Solovyev V V,A novel method of protein sequence classification based on oligopeptide frequency analysis and its application to search for functional sites and to domain localization,Computer Applications in the Biosciences,英国,1993年,Vol.9, No.1,p.17-24
Solovyev V V,Predicting internal exons by oligonucleotide composition and discriminant analysis of spliceable open reading frames,Nucleic Acids Research,英国,1994年,Vol.22, No.24,p.5156-5163
Doi H,Diverse incidences of individual oligopeptides (dipepdic to hexapeptidic) in proteins of human, bakers' yeast, and Escherichia coli origin registered in the Swiss-Prot data base,Proc. Natl. Acad. Sci. USA,米国,1995年 3月,Vol. 92,p.2879-2883
内山郁夫,タンパク質配列を特徴づけるペンタペプチドの自動抽出,スーパーコンピューターラボラトリー 平成5年度 研究成果報告書,日本,京都大学化学研究所,1994年 3月31日,p.125-128
平木秀明,アミノ酸の使われ方の非対称性に注目したゲノム情報工学,土居バイオアシンメトリプロジェクト研究終了報告書3 平成12年,日本,科学技術振興事業団創造科学技術推進事業部,2000年,p.68-88
調査した分野 G06F 19/00
G06F 17/30
PubMed
JSTPlus(JOIS)
特許請求の範囲 【請求項1】
ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質から、その生物種aの任意の蛋白質の機能部位を予測する方法であって、
(1) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のもの
よりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1の
ものが出現頻度2のものよりも多い;
を確定し、
(2) 機能部位予測対象の蛋白質のアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=Ajiで
Ajはこのオリゴペプチドのi番目の残基を示す)
の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi.....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)
の出現頻度とを生物種aの全蛋白質中で求め、
(3) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求め、
(4) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求め、
(5) Yjの関数値Zj;
Zj=f(Yj)(関数fは単調減少関数または単調増加関数)
を求め、このZjの値をアミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とし、
(6) 以下、上記ステップ(2)から(5)を順次繰り返し、アミノ酸配列(長さL)のn+1≦j≦L-nの位置にある全アミノ酸残基Ajについて各々のZj値を求める
ことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度をZj値の大きさを指標として予測すること特徴とする蛋白質の機能部位予測方法。
【請求項2】
請求項1記載の方法を自動的に行なう装置であって、少なくとも以下の(a)から(h)の装置、
(a) ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質のアミノ酸配列データ、および既存の蛋白質データベースを記憶する外部記憶装置、
(b) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算するCPUと、その計算結果を記憶する記憶装置とからなる計算/記憶装置、
(c) 装置(b)に出現頻度が記憶された各オリゴペプチドの中から、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のもの
よりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1の
ものが出現頻度2のものよりも多い;
を計算するCPUと、nを記憶する記憶装置とからなる計算/記憶装置、
(d) 機能部位予測対象の蛋白質のアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=Ajiで
Ajはこのオリゴペプチドのi番目の残基を示す)
の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)
の出現頻度とをこの生物種の全蛋白質中で求めるCPUと、その計算結果を記憶する記憶装置とからなる計算/記憶装置、
(e) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求めるCPUと、Yjiを記憶する記憶装置とからなる計算/記憶装置、
(f) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求めるCPUと、Yjを記憶する記憶装置とからなる計算/記憶装置、
(g) Yjの関数値Zj;
Zj=f(Yj)(関数fは単調減少関数または単調増加関数)
を求めるCPUと、Zjを記憶する記憶装置とからなる計算/記憶装置、
(h) アミノ酸配列(長さL)について、各アミノ酸残基のZj値(n+1≦j≦L-n)を分布図として表示するディスプレー装置
を備えていることを特徴とする蛋白質の機能部位予測装置。
【請求項3】
ゲノムデータまたはcDNA解析データが既知である生物種aの全蛋白質から、機能が既知である蛋白質Aの機能を改良する方法であって、
(1) 蛋白質Aと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行って、蛋白質Aを構成する各アミノ酸残基のうち、近縁の蛋白質とは異なるアミノ酸残基を特定し、
(2) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のもの
よりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1の
ものが出現頻度2のものよりも多い;
を確定し、
(3) 蛋白質Aのアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=Ajiで
Ajはこのオリゴペプチドのi番目の残基を示す)
の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)
の出現頻度とを生物種aの全蛋白質中で求め、
(4) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求め、
(5) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求め、
(6) Yjの関数値Zj;
Zj=f(Yj)(関数fは単調減少関数または単調増加関数)
を求め、このZjの値を蛋白質Aのアミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とし、
(7) ステップ(3)から(6)を順次繰り返し、アミノ酸配列(長さL)の(n+1≦j≦L-nの位置にある全アミノ酸残基について各々のZj値を求め、
(8) 蛋白質Aのアミノ酸配列(長さL)について、ステップ(1)で特定した蛋白質Aのアミノ酸残基から変異させるアミノ酸残基を1種以上選択し、選択したアミノ酸残基がそれぞれ、近縁蛋白質の対応するアミノ酸残基に変異した種々の変異型アミノ酸配列を作成し、これらの変異型アミノ酸配列における全ての変異アミノ酸残基についてステップ(3)から(6)を順次繰り返し、変異アミノ酸残基のZj値を求め、
(9) ステップ(8)で求めた変異アミノ酸残基のZj値が、ステップ(7)で求めた元のアミノ酸残基のZj値より大きいか小さい変異型アミノ酸配列を選択し、その際にステップ(6)における関数値Zjが単調減少関数fによって得られた場合には、元のアミノ酸残基のZj値より大きい変異型アミノ酸配列を選択し、関数値Zjが単調増加関数fによって得られた場合には、元のアミノ酸残基のZj値より小さい変異型アミノ酸配列を選択し、
(10)このアミノ酸配列をコードする蛋白質Aの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する
ことを特徴とする蛋白質の機能改良方法。
【請求項4】
ゲノムデータまたはcDNA解析データが未知である生物種bの蛋白質Bの機能を改良する方法であって、
(1) ゲノムデータまたはcDNA解析データが既知である生物種aの全蛋白質から、蛋白質Bと最も近縁の蛋白質Aを抽出してアラインメントを行い、また蛋白質Bと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行って、蛋白質Aを構成する各アミノ酸残基のうち、蛋白質Bと近縁の蛋白質とは異なるアミノ酸残基を特定し、
(2) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のもの
よりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1の
ものが出現頻度2のものよりも多い;
を確定し、
(3) 蛋白質Aのアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=Ajiで
Ajはこのオリゴペプチドのi番目の残基を示す)
の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)
の出現頻度とを生物種aの全蛋白質中で求め、
(4) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求め、
(5) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求め、
(6) Yjの関数値Zj;
Zj=f(Yj)(関数fは単調減少関数または単調増加関数)
を求め、このZjの値を蛋白質Aのアミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とし、
(7) ステップ(3)から(6)を順次繰り返し、アミノ酸配列(長さL)の(n+1≦j≦L-nの位置にある全アミノ酸残基について各々のZj値を求め、
(8) 蛋白質Aのアミノ酸配列(長さL)について、ステップ(1)で特定した蛋白質Aのアミノ酸残基から変異させるアミノ酸残基を1種以上選択し、選択したアミノ酸残基がそれぞれ、近縁蛋白質の対応するアミノ酸残基に変異した種々の変異型アミノ酸配列を作成し、これらの変異型アミノ酸配列における全ての変異アミノ酸残基についてステップ(3)から(6)を順次繰り返し、変異アミノ酸残基のZj値を求め、
(9) ステップ(8)で求めた変異アミノ酸残基のZj値が、ステップ(7)で求めた元のアミノ酸残基のZj値より大きいか小さい変異位置と変異アミノ酸残基を選択し、その際にステップ(6)における関数値Zjが単調減少関数fによって得られた場合には、元のアミノ酸残基のZj値より大きい変異型アミノ酸配列を選択し、関数値Zjが単調増加関数fによって得られた場合には、元のアミノ酸残基のZj値より小さい変異型アミノ酸配列を選択し、
(10)この位置でこの変異アミノ酸残基を実現する蛋白質Bの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する
ことを特徴とする蛋白質の機能改良方法。
発明の詳細な説明 【0001】
【発明の属する技術分野】
この発明は、蛋白質の機能部位を予測する方法と、この機能予測を行なうための装置、ならびに蛋白質の機能を改良する方法に関するものである。さらに詳しくは、この発明は、ゲノム解析やcDNA解析により得られた機能未知の蛋白質の機能部位の予測や、機能が既知である蛋白質であってもその蛋白質のもつ新規の機能と機能部位の予測およびの機能向上のための改変部位の予測に関するものである。
【0002】
【従来の技術とその課題】
病原微生物を含む種々の生物のゲノム解析やcDNA解析の進展にともない、機能未知の新規遺伝子やそれによってコードされる蛋白質の数が急速に増加している。たとえば、これまでにマイコプラズマ・ジェニタリウム[Mycoplasma genitalium] (Fraser et al., Science 270, 397-403, 1995)、ヘモフィラス・インフルエンザエ[Heamophilus influenzae](Fleischmann et. al., Science 269, 496-512, 1995)、メタノコッカス・ヤナシイ[Methonococcus jannashcii](Bult et. al., Science 273, 1058-1073, 1996) などの微生物の全ゲノムの核酸配列が解析され、遺伝子から予測される新規の蛋白質が数多く発見されている。またヒトやマウスではcDNA解析がゲノム解析と同時に進行しており新規の蛋白質が多く発見されている。
【0003】
このような状況において、機能未知の蛋白質の機能または機能部位を予測することが重要な課題となってきている。また、新規の蛋白質のみならず、機能が既知の蛋白質についても、新規の機能あるいは機能部位が発見されれれば、その蛋白質の産業上あるいは医療上の利用価値が判断可能となる。また、このような機能予測は、機能をさらに向上させた改変型蛋白質の作成をも可能とする。
【0004】
従来より、ゲノム解析やcDNA解析によって明らかにされた遺伝子がコードする蛋白質が新規であるか機能既知であるかは、Swiss-Prot等の蛋白質データベースを用いたホモロジー検索によって行なわれてきた。また機能部位を予測するには、同じ機能をもった種々の生物由来の蛋白質を蛋白質データベースから抽出してアライメントを行い、両者に共通して保存されている領域を機能部位として予測していた。
【0005】
しかしながら、ゲノム解析やcDNA解析から得られた蛋白質が全く新規の蛋白質であった場合、アライメント法は使えないという問題があった。また蛋白質データベース中の既知の蛋白質とホモロジーがあったとしても、近縁生物種の蛋白質とのホモロジーであった場合、保存領域がその蛋白質のアミノ酸配列のほとんどを占め、機能部位の予測が行えないという問題があった。さらに、機能が既知あるいは未知に関わらず、蛋白質の改変に関しては、アライメントによって機能部位の予測が行えたとしても、保存領域を変異させると一般的に機能が低下することが予想され、保存領域外のアミノ酸を変異させることにより機能向上を計らなければならない。すなわち、改変したい蛋白質において新規の機能部位を見い出す必要がり、新規の機能部位の発見やどのアミノ酸を変異させればよいかは従来のアライメント法では予測できないという問題があった。
【0006】
この発明は、以上のとおりの事情に鑑みてなされたものであって、ゲノム解析やcDNA解析から得られた機能未知の蛋白質について、その機能部位を予測するための新しい方法を提供することを目的としている。
また、この発明は、この機能予測を行なうための装置を提供することを目的としている。
【0007】
さらにこの発明は、機能未知または既知の蛋白質について、その新たな機能部位を予測し、その機能部位を変異させることによって改変型の蛋白質を作成する方法を提供することを目的としてもいる。
【0008】
【改題を解決するための手段】
この発明は、上記の課題を解決する第1の方法として、ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質から、その生物種aの任意の蛋白質の機能部位を予測する方法であって、
(1) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも多い;
を確定し、
(2) 機能部位予測対象の蛋白質のアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=AjiでAjはこのオリゴペプチドのi番目の残基を示す)
の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi.....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)の出現頻度とを生物種aの全蛋白質中で求め、
(3) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求め、
(4) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求め、
(5) Yjの関数値Zj;
Zj=f(Yj) (関数fは単調減少関数または単調増加関数)
を求め、このZjの値をアミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とし、
(6) 以下、上記ステップ(2) から(5) を順次繰り返し、アミノ酸配列(長さL)のn+1≦j≦L-nの位置にある全アミノ酸残基Ajについて各々のZj値を求める
ことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度をZj値の大きさを指標として予測すること特徴とする蛋白質の機能部位予測方法を提供する。
【0009】
またこの発明は、上記の方法を自動的に行なう装置であって、少なくとも以下の (a)から (h)の装置、
(a) ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質のアミノ酸配列データ、および既存の蛋白質データベースを記憶する外部記憶装置、
(b) この生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算するCPUと、その計算結果を記憶する記憶装置とからなる計算/記憶装置、
(c) 装置(b) に出現頻度が記憶された各オリゴペプチドの中から、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも多い;
を計算するCPUと、nを記憶する記憶装置とからなる計算/記憶装置、
(d) 機能部位予測対象の蛋白質のアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=AjiでAjはこのオリゴペプチドのi番目の残基を示す)の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)の出現頻度とをこの生物種の全蛋白質中で求めるCPUと、その計算結果を記憶する記憶装置とからなる計算/記憶装置、
(e) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求めるCPUと、Yjiを記憶する記憶装置とからなる計算/記憶装置、
(f) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求めるCPUと、Yjを記憶する記憶装置とからなる計算/記憶装置、
(g) Yjの関数値Zj;
Zj=f(Yj) (関数fは単調減少関数または単調増加関数)
を求めるCPUと、Zjを記憶する記憶装置とからなる計算/記憶装置、
(h) アミノ酸配列(長さL)について、各アミノ酸残基のZj値(n+1≦j≦L-n)を分布図として表示するディスプレー装置
を備えていることを特徴とする蛋白質の機能部位予測装置を提供する。
【0010】
さらにこの発明は、第2の方法として、ゲノムデータまたはcDNA解析データが既知である生物種aの全蛋白質から、機能が既知である蛋白質Aの機能を改良する方法であって、
(1) 蛋白質Aと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行い、
(2) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも多い;
を確定し、
(3) 蛋白質Aのアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=AjiでAjはこのオリゴペプチドのi番目の残基を示す)の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)の出現頻度とを生物種aの全蛋白質中で求め、
(4) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求め、
(5) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求め、
(6) Yjの関数値Zj;
Zj=f(Yj) (関数fは単調減少関数または単調増加関数)
を求め、このZjの値を蛋白質Aのアミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とし、
(7) ステップ(3) から(6) を順次繰り返し、アミノ酸配列(長さL)の(n+1≦j≦L-nの位置にある全アミノ酸残基について各々のZj値を求め、
(8) 蛋白質Aのアミノ酸配列(長さL)について、ステップ(1) で行なったアラインメントのデータをもとに変異させるアミノ酸残基を1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から (6)を順次繰り返し、変異アミノ酸残基のZj値を求め、
(9) ステップ (8)で求めた変異アミノ酸残基のZj値が、ステップ (7)で求めた元のアミノ酸残基のZj値より大きいか小さい変異型アミノ酸配列を選択し、(10)このアミノ酸配列をコードする蛋白質Aの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する
ことを特徴とする蛋白質の機能改良方法を提供する。
【0011】
さらにまたこの発明は、第3の方法として、ゲノムデータまたはcDNA解析データが未知である生物種bの蛋白質Bの機能を改良する方法であって、
(1) ゲノムデータまたはcDNA解析データが既知である生物種aの全蛋白質から、蛋白質Bと最も近縁の蛋白質Aを抽出してアラインメントを行ない、また蛋白質Bと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行い、
(2) 生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも多い;
を確定し、
(3) 蛋白質Aのアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=AjiでAjはこのオリゴペプチドのi番目の残基を示す)の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)の出現頻度とを生物種aの全蛋白質中で求め、
(4) AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求め、
(5) Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求め、
(6) Yjの関数値Zj;
Zj=f(Yj) (関数fは単調減少関数または単調増加関数)
を求め、このZjの値を蛋白質Aのアミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とし、
(7) ステップ(3) から(6) を順次繰り返し、アミノ酸配列(長さL)の(n+1≦j≦L-nの位置にある全アミノ酸残基について各々のZj値を求め、
(8) 蛋白質Aのアミノ酸配列(長さL)について、ステップ(1) で行なったアラインメントのデータをもとに変異させるアミノ酸残基を1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から (6)を順次繰り返し、変異アミノ酸残基のZj値を求め、
(9) ステップ (8)で求めた変異アミノ酸残基のZj値が、ステップ (7)で求めた元のアミノ酸残基のZj値より大きいか小さい変異位置と変異アミノ酸残基を選択し、
(10)この位置でこの変異アミノ酸残基を実現する蛋白質Bの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する
ことを特徴とする蛋白質の機能改良方法をも提供する。
【0012】
すなわち、この発明の第1方法である蛋白質機能部位予測方法は、以下のとおりの考えに立脚してなされたものである。すなわち、蛋白質は20種類のアミノ酸残基の配列によって構成されているが、その並びはランダムではない。従って、任意の生物種において、アミノ酸配列の部分配列である特定のオリゴペプチドがゲノムでコードされる全蛋白質中に出現する頻度は均一ではなく、種々の蛋白質に高頻度で出現するオリゴペプチドや、まれにしか出現しないオリゴペプチドが存在する。このうち種々の蛋白質に共通して高頻度に出現するオリゴペプチドは、個々の蛋白質の独自性、すなわち機能を決める能力がなく、一方、低頻度で出現するオリゴペプチドが個々の蛋白質の独自性や機能を決定していると考えることができる。
【0013】
つまり、蛋白質の機能部位は低頻度で出現するオリゴペプチドで構成されていると考えられる。また、オリゴペプチドの長さが長くなるほどまれに出現するオリゴペプチドが多くなる。すなわち、この発明の方法におけるステップ(3) において示されている長さ(n+1)のオリゴペプチドは、多くのものが低頻度で出現する最短のオリゴペプチドであり、このオリゴペプチドに含まれる任意の位置のアミノ酸残基Ajについて算出された関数値Zj値が、その位置にあるアミノ酸残基Ajの出現指数(すなわち、その機能代表値)となる。
【0014】
以下、この発明の方法および装置について、発明の実施の形態をさらに詳しく説明する。
【0015】
【発明の実施の形態】
この発明の第1の方法である蛋白質機能部位予測方法は、ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質から、その生物種aの任意の蛋白質の機能部位を予測する方法であって、以下のステップ (1)から (7)を構成要件としている。
ステップ(1):
生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、オリゴペプチドの長さnを確定する。
【0016】
このとき、長さnは以下の基準を満たす最小の数として決定される。
「長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも多くなる」
たとえば、図1は、メタノコッカス・ヤナシイ[Methanococcus jannaschii](Bult et. al., Science 273, 1058-1073, 1996) のゲノムデータをもとに、この微生物のゲノムがコードする全蛋白質中での長さ3のオリゴペプチド、長さ4のオリゴペプチド、長さ5のオリゴペプチドの出現頻度を求め、それぞれの長さについてある回数出現するオリゴペプチドの頻度分布をとったものである。この図1に示した3種類のオリゴペプチドの場合、このステップ(1) における最初のnは3となる。
ステップ(2):
機能部位予測対象の蛋白質のアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=AjiでAjはこのオリゴペプチドのi番目の残基を示す)の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)の出現頻度とを生物種aの全蛋白質中で求める。
【0017】
このようなAjオリゴペプチドとXiオリゴペプチドは、例えば図2のように例示することができる。この図2の上段{1}は、メタノコッカス・ヤナシイ[Methanococcus jannaschii](Bult et. al., Science 273, 1058-1073, 1996) のα型DNA合成酵素をコードしていると考えられる遺伝子MJ0885によって予想されるアミノ酸配列について、N末(アミノ端末)から20番目のアミノ酸残基までの部分配列をシングルレター・コードで表記したもので、中段{2}は、5番目のアミノ酸残基Met(M)を含む長さ4のAjオリゴペプチドの例を示し、さらにその下{3}~{6}に5番目のアミノ酸残基Mを含むXiオリゴペプチドの例を示している。
ステップ(3):
AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求める。
ステップ(4):
Yjiの平均値Yjを以下のとおりに求める。
【0018】
Yj=ΣYji/n+1(1≦i≦n+1)
ステップ(5):
Yjの単調減少関数値または単調増加関数値Zjを以下のとおりに求める。
Zj=f(Yj)
そしてこのZjの値を、アミノ酸配列(長さL)のj番目のアミノ酸残基の機能代表値とする。
ステップ(6):
以下、上記ステップ(2) から(5) を順次繰り返し、アミノ酸配列(長さL)のn+1≦j≦L-nの位置にある全アミノ酸残基について各々のZj値を求めことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度をZj値の大きさを指標として予測する。すなわち、各々のアミノ酸残基の出現頻度はYjの関数値Zjとして表されるため、Zjが単調減少関数値の場合には、このZj値が大きいほどそのアミノ酸残基の出現頻度が小さく、従って、機能発現に対して大きな責任を有すると考えられる。また、Zjが単調増加関数の場合には、Zj値が小さいアミノ酸残基ほど機能に対する責任が大きいと考えられる。
【0019】
なお、各アミノ酸残基のZj値は、例えば、X軸にアミノ酸配列を、Y軸にZj値をプロットしたような分布図として表示することによって、一目で機能部位を確認することができ、この発明を実施する形態としては好ましい。
次に、この発明の第2方法である蛋白質機能改良方法について説明する。この発明の第2の方法は、ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質から、機能が既知である蛋白質Aの機能を改良する方法であって、以下のステップ (1)から(10)を構成要件とするものである。
ステップ(1):
蛋白質Aと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行う。
ステップ(2) ~(7):
生物種aの全蛋白質のアミノ酸配列について、上記第1の方法におけるステップ(1) ~(6) を行なう。
ステップ(8):
蛋白質Aのアミノ酸配列について、ステップ(1) で行なったアラインメントのデータをもとに変異させるアミノ酸残基を1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から (6)を順次繰り返し、変異アミノ酸残基のZj値を求める。
ステップ(9):
ステップ (8)で求めた変異アミノ酸残基のZj値が、ステップ (7)で求めた元のアミノ酸残基のZj値より大きいか小さい変異型アミノ酸配列を選択する。
ステップ(10):
ステップ(9) で選択したアミノ酸配列をコードする蛋白質Aの改変型遺伝子を公知の方法に従って作成し、この遺伝子を適当な宿主-ベクター系で発現させて改良型蛋白質Aを作成する。
【0020】
さらにこの発明の第3の方法は、ゲノムデータまたはcDNA解析データが未知である生物種bの蛋白質Bの機能を改良する方法であって、以下のステップ(1) ~(10)を構成要件としている。
ステップ(1):
ゲノムデータまたはcDNA解析データが既知である生物種aの予想される全蛋白質から、蛋白質Bと最も近縁の蛋白質Aを抽出してアラインメントを行ない、また蛋白質Bと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行なう。
ステップ(2) ~ (8):
生物種aの全蛋白質のアミノ酸配列について、上記の第2の方法のステップ (2) から(8) を行う。
ステップ(9):
ステップ(8) で求めた変異アミノ酸残基のZj値が、ステップ(7) で求めた元のアミノ酸残基のZj値より大きいか小さい変異位置と変異アミノ酸残基を選択する。
ステップ(10)
ステップ(9) で選択した位置とそのアミノ酸残基を実現する蛋白質Bの改変型遺伝子を公知の方法に従って作成し、この遺伝子を適当な宿主-ベクター系で発現させて改良型蛋白質Bを作成する。
【0021】
以上のとおりの、この発明の第2および第3発明である機能改良方法は、第1発明の機能部位予測方法を組み込むことにより、蛋白質の未知機能部位を新たに見出し、この部位を変異させることを特徴とするものである。
最後に、この発明の機能部位予測装置について説明する。すなわち、この発明の装置は、例えば図3に構成例を示したように、少なくとも以下の (a)から (h)の装置を備えている。
外部記憶装置(a):
ゲノムデータまたはcDNA解析データが既知である生物種aの全蛋白質のアミノ酸配列データ、および既存の蛋白質データベースを記憶する装置。
計算/記憶装置(b):
生物種aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算するCPUと、その計算結果を記憶する記憶装置とからなる装置。
計算/記憶装置(c):
装置(b) に出現頻度が記憶された各オリゴペプチドの中から、最初に以下の基準に合致するオリゴペプチドの長さn;
長さnのオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも少なく、長さ(n+1)のオリゴペプチドのうち、出現頻度1のものが出現頻度2のものよりも多い;
を計算するCPUと、nを記憶する記憶装置とからな装置。
計算/記憶装置(d):
機能部位予測対象の蛋白質のアミノ酸配列(長さL)のN末端からj番目アミノ酸残基をAj(n+1≦j≦L-n)とし、この蛋白質のアミノ酸配列の部分配列でj番目のアミノ酸残基Ajを含む長さ(n+1)のAjオリゴペプチド;
j1j2.....Aji..ajnj(n+1)(1≦i≦n+1;Aj=AjiでAjはこのオリゴペプチドのi番目の残基を示す)の出現頻度と、長さ(n+1)のXiオリゴペプチド;
j1j2.....Xi ....ajnj(n+1)(Xiは任意のアミノ酸残基を示す)の出現頻度とを全蛋白質中で求めるCPUと、その計算結果を記憶する記憶装置とからなる装置。
計算/記憶装置(e):
AjオリゴペプチドとXiオリゴペプチドの出現頻度の比Yjiを求めるCPUと、Yjiを記憶する記憶装置とからなる装置。
計算/記憶装置(f):
Yjiの平均値Yj;
Yj=ΣYji/n+1(1≦i≦n+1)
を求めるCPUと、Yjを記憶する記憶装置とからなる装置。
計算/記憶装置(g):
Yjの関数値Zj;
Zj=f(Yj) (fは単調減少関数または単調増加関数)
を求めるCPUと、Zjを記憶する記憶装置とからなる装置。
ディスプレー装置(h):
アミノ酸配列(長さL)について、各アミノ酸残基のZj値を分布図として表示する装置。
【0022】
なお、これらの装置(a) ~(h) 以外にも、この発明の装置は、図3にも例示したようなキーバード(i) および制御装置(j) 等を備えるようにしてもよい。
以下、実施例を示してこの発明のさらに詳細かつ具体的に説明するが、この発明は以下の例によって限定されるものではない。
【0023】
【実施例】
実施例1
メタノコッカス・ヤナシイ[Methanococcus jannaschii](Bult et. al., Science 273, 1058-1073,(1996) のゲノムデータをもとに、α型DNA合成酵素をコードしていると考えられるこの微生物の遺伝子MJ0885によって予想されるDNA合成酵素のアミノ酸配列(N末からC末)の各アミノ酸残基について、この発明の方法でZj= -logYj を算出した(f= -log)。図4は、この結果を分布図としてプロットしたものである。
【0024】
さらに、α型DNA合成酵素の機能部位として知られているモチーフ部分のうち、モチーフA(motif A)およびモチーフC(motif C)を抜粋し、それぞれのアミノ酸残基のZj値を図5にプロットした。この図5と次の図6から、機能に責任のあるアミノ酸残基のZj= -logYj の値は他のアミノ酸残基のそれに比較して大きいことが分かる。
【0025】
図6は、MJ0885でコードされるα型DNA合成酵素のアミノ酸配列についての、Zj= -logYj の値の頻度分布図である。この図から、この分布図においてZj= -logYj の値が4.8以上のアミノ酸残基が、蛋白質の機能に責任のあるアミノ酸残基である可能性が高いことが確認された。
実施例2
ピロコッカス・フリオサス[Pyrococcus furiosus] 由来のα型DNA合成酵素Pfu(DDBJアクセッション番号D12983) の性質を、ピロコッカス・エスピー[Pyrococcus sp.]由来のα型DNA合成酵素KOD(DDBJアクセッション番号D29671) のアミノ酸配列およびメタノコッカス・ヤナシイ[Methanococcus jannaschii](Bult et. al., Science 273, 1058-1073,(1996) のゲノムデータおよびMJ0885でコードされるα型DNA合成酵素(MJ)のアミノ酸配列をもとに、実施例1の図5に基づいて改良した。
【0026】
図7はPfu、KOD、MJの各々のモチーフCのアミノ酸配列のアライメント図であり、 531から 544までの領域ではPfuとMJには差はない。
図8は、Pfu、KODおよびMJのモチーフCのアミノ酸配列について、メタノコッカス・ヤナシイ[Methanococcus jannaschii]のゲノムデータをもとに、この発明の方法で機能部位を予測した結果である。この結果から、Ile540Ser、Leu545Phe、Tyr546Phe、Ile568Thrの変異があると、これらのアミノ酸残基のZj= -logYj の値が大きくなることがわかる。さらにAsp541やAla547でもZj= -logYj の値が大きくなっている。すなち、これらの変異をメタノコッカス・ヤナシイ[Methanococcus jannaschii]のα型DNA合成酵素MJについて行うと、全蛋白質の中でこの配列はより特殊となり、何らかの機能が向上することが期待される。
実施例3
実施例2において、DNA合成酵素MJについて予想された機能改良のためのアミノ酸残基の変異を、PfuDNA合成酵素に適用して、改良型PfuDNA合成酵素を作成した。
【0027】
すなわち、PfuDNA合成酵素は、遺伝子の塩基配列およびアミノ酸配列が既知であるため、その遺伝子の両端にそれぞれ相補的なオリゴヌクレオチドを合成し、これらをPCRプライマーとし、細菌のゲノムDNAを鋳型とするPCR法によりPfuDNA合成酵素の遺伝子を調製した。この遺伝子をベクターにクローニングし、公知の変異遺伝子作成方法(Strategies, 9, p3-4, 1996)によって変異させた。変異部位は、上記のアミノ酸残基に加え、Zj= -logYj の値がが同程度の変異Phe533Tyrとした。なお、Ile548Thrの変異はPfuDNA合成酵素では既にThrであるため、導入しなかった。そして、このようにしてクローニングした変異遺伝子を大腸菌で発現させ、培地中から発現産物を回収し、精製することによって改良型PfuDNA合成酵素を作成した。
【0028】
図9は、この改良型PfuDNA合成酵素によるプライマー伸長反応の結果を示した電気泳動図である。従来の野性型PfuDNA合成酵素を用いた場合には、伸長鎖の合成停止による不完全なDNA鎖の存在を示すバンドが少なくとも10個観察されるのに対し、改良型PfuDNA合成酵素によるDNA合成ではこれらのバンドは消失した。以上の結果は、この発明の方法によって、蛋白質(PfuDNA合成酵素)が野性型とは明らかに異なった機能を新たに獲得したことを明確に示している。
【0029】
【発明の効果】
以上詳しく説明したとおり、この発明によって、ゲノム解析やcDNA解析から得られた機能未知の蛋白質について、その機能部位を予測するが可能となる。また、機能未知または既知の蛋白質について、その新たな機能部位を予測し、その機能部位を変異させることによって改変型の蛋白質を作成することも可能となる。
【図面の簡単な説明】
【図1】長さ3のオリゴペプチド、長さ4のオリゴペプチド、長さ5のオリゴペプチドの各々の出現頻度を求め、それぞれの長さについてある回数出現するオリゴペプチドの頻度分布である。
【図2】長さ20のアミノ酸配列、この配列の5番目のアミノ酸残基Metを含む長さ4のAjオリゴペプチド、およびXiオリゴペプチドの例である。
【図3】この発明の装置を例示した構成図である。
【図4】 MJ0885でコードされるα型DNA合成酵素をコードする全アミノ酸配列について、この発明の方法により算出したZj= -logYj の値をプロットした分布図である。
【図5】図4に分布図を示したアミノ酸配列の部分配列(モチーフAおよびモチーフC)について、Zj= -logYj の値をプロットした分布図である。
【図6】 MJ0885でコードされるα型DNA合成酵素のアミノ酸配列から算出したZj= -logYj の値の頻度分布図である。
【図7】α型DNA合成酵素Pfu、KOD、MJの各々のモチーフCのアミノ酸配列のアライメント図である。
【図8】メタノコッカス・ヤナシイ(Methanococcus jannaschii)のゲノムデータをもとに、α型DNA合成酵素Pfu、KODおよびMJの各々のモチーフCにおけるZj= -logYj の値をプロットした分布図である。530~550はPfuにおけるアミノ酸残基の位置である。
【図9】野性型および改良型PfuDNA合成酵素によるプライマー伸長反応の結果を示す電気泳動図である。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8