METHOD OF CLASSIFYING PROTEIN/COMPOUND PAIRS
外国特許コード | F080001981 |
---|---|
整理番号 | F080001981 |
掲載日 | 2008年11月27日 |
出願国 | 世界知的所有権機関(WIPO) |
国際出願番号 | 2007JP071236 |
国際公開番号 | WO 2008/053924 |
国際出願日 | 平成19年10月31日(2007.10.31) |
国際公開日 | 平成20年5月8日(2008.5.8) |
優先権データ |
|
発明の名称 (英語) | METHOD OF CLASSIFYING PROTEIN/COMPOUND PAIRS |
発明の概要(英語) | It is intended to provide a method of constructing a pattern recognizer, wherein comprehensively applicable protein data and compound data are employed, with the use of generally usable and easily available data. It is also intended to provide an estimation method of estimating the interaction of a pair the interaction of which is unknown by using the above method of constructing a pattern recognizer. In a first pair having a first interaction and a second pair having a second interaction, more specifically speaking, at least one factor selected from four factors (i.e., the peak position in mass spectral data obtained for each compound, the peak position and intensity, the interval between two peaks, and the interval between two peaks and the intensity corresponding thereto) is vectorized by using data relating to interactions (binding, etc.) between proteins and compounds as indication. Next, the amino acid sequence of each protein is vectorized and a vector involving the element of the above vector derived from each protein and the element of the above vector derived from each compound is formed. On this vector, learning is made with the use of a support vector machine (SVM). Thus, a pattern recognizer capable of distinguishing the class to which the first pair belongs from the class to which the second pair belongs is constructed. |
|
|
|
|
国際特許分類(IPC) |
|
指定国 | AE AG AL AM AT AU AZ BA BB BE BF BG BH BJ BR BW BY BZ CA CF CG CH CI CM CN CO CR CU CY CZ DE DK DM DO DZ EC EE EG ES FI FR GA GB GD GE GH GM GN GQ GR GT GW HN HR HU ID IE IL IN IS IT JP KE KG KM KN KP KR KZ LA LC LK LR LS LT LU LV LY MA MC MD ME MG MK ML MN MR MT MW MX MY MZ NA NE NG NI NL NO NZ OM PG PH PL PT RO RS RU SC SD SE SG SI SK SL SM SN SV SY SZ TD TG TJ TM TN TR TT TZ UA UG US UZ VC VN ZA ZM ZW |
日本語項目の表示
発明の名称 | タンパク質-化合物間相互作用予測方法 |
---|---|
発明の概要 | 汎用性が高く、入手しやすいデータを利用し、網羅的に適用可能なタンパク質のデータと化合物のデータを用いたパターン認識器構成方法を提供すること、さらに、そのパターン認識器構成方法を利用して、相互作用が未知のペアに対し、その相互作用を予測する予測方法を提供することを本発明の目的とする。具体的には、タンパク質と化合物の結合などの相互作用に関するデータを指標に、第1の相互作用をする第1のペア及び第2の相互作用をする第2のペアに対し、各化合物について得られたマススペクトルデータのピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれた少なくとも1つの因子をベクトル化し、各タンパク質のアミノ酸配列をベクトル化し、各タンパク質に由来して作成された前記ベクトルの要素と、該タンパク質とペアである前記化合物に由来して作成された前記ベクトルの要素を含むベクトルを作成し、このベクトルに対しサポートベクターマシン(SVM)を適用して学習させ、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器を構成する。 |
特許請求の範囲 |
【請求項1】第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa1~ax(xは1以上の整数)とする工程と、各タンパク質をベクトル化し、ベクトルb1~by(yは1以上の整数)とする工程と、少なくとも各化合物に由来して作成された前記ベクトルa1~axのうちの1つと該化合物とペアである前記タンパク質に由来して作成された当該ベクトルbk(kは1~yのいずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。 【請求項2】前記マススペクトルデータの少なくとも1つの因子が、ピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれることを特徴とする請求項1に記載のパターン認識器構成方法。 【請求項3】前記ベクトルb1~byは、前記タンパク質における所定のアミノ酸配列の出現頻度を要素とするベクトルであることを特徴とする請求項1または2に記載のパターン認識器構成方法。 【請求項4】各化合物に由来して作成された前記ベクトルの1つは、下記式(1)でベクトル化されるベクトルF(c)であることを特徴とする請求項1~3のいずれかに記載のパターン認識器構成方法。式(1):式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合であり、I(m)は当該ペアの化合物に対して観測されるピークのm/z値におけるピークの強度を表す。 【請求項5】各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルF’(c)であることを特徴とする請求項1~3のいずれか1項に記載のパターン認識器構成方法。式(2):式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合を表す。 【請求項6】各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルであることを特徴とする請求項1~3のいずれか1項に記載のパターン認識器構成方法。式(3):式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は当該ペアの化合物に対して観察されるm/z値i及びjにおける2つのピークのm/z値の差j-iの集合であり、ここで、式(4):式中、M(c)は、当該ペアの化合物で観測されるピークのm/z値の集合であり、ここで、式(5):式中、Ii,Ijは、m/z値i及びjにおける2つのピークの強度であり、tはギャップを考慮する強度の閾値であり、wはm/z値i及びjにおける2つのピークのm/z値の差j-iの閾値である。 【請求項7】各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルであることを特徴とする請求項1~3のいずれか1項に記載のパターン認識器構成方法。式(6):式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は第3のペアの化合物に対して観察される2つのピークのm/z値の差の集合である。 【請求項8】各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルを結合させて、ベクトル(al,bk)または(ap,aq,bk)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする請求項1~7に記載のパターン認識器構成方法。(式中、l、p、qは1~xのいずれか、kは1~yのいずれかである。) 【請求項9】各化合物の物理化学的特性値、化学式、構造式、3次元立体構造の4つの因子から選ばれた少なくとも1つの因子をベクトル化してベクトルDとし、該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルと、前記ベクトルDを結合させて、ベクトル(al,D,bk)または(ap,aq,D,bk)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする請求項1~7のいずれか1項に記載のパターン認識器構成方法。(式中、l、p、qは1~xのいずれか、kは1~yのいずれかである) 【請求項10】サポートベクターマシンの識別関数が、下式(7)のように表現されることを特徴とする請求項1~9のいずれか1項に記載のパターン認識器構成方法。式(7): 【請求項11】前記式(7)Kに下式(8)Kconc.を適用することを特徴とする請求項10に記載のパターン認識器構成方法。式(8): 【請求項12】前記式(7)Kに下式(9)Kcombiを適用することを特徴とする請求項10に記載のパターン認識器構成方法。式(9): 【請求項13】サポートベクターマシンが、linearカーネル、polynomialカーネル、RBF(Radial Basis Function)カーネル、またはsigmoidカーネルを利用することを特徴とする請求項1~12のいずれか1項に記載のパターン認識器構成方法。 【請求項14】前記相互作用が、タンパク質と化合物の物理的結合であって、第1の相互作用は、タンパク質と化合物が結合することであり、第2の相互作用は、タンパク質と化合物が結合しないことであり、タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする請求項1~13のいずれかに記載のパターン認識器構成方法。 【請求項15】前記相互作用が、タンパク質と化合物の機能的結合であって、第1の相互作用は、アゴニストとして化合物がタンパク質と結合することであり、第2の相互作用は、アンタゴニストとして化合物がタンパク質と結合することであり、化合物がタンパク質に対しアゴニストとして結合するか、アンタゴニストとして結合するか、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする請求項1~13のいずれかに記載のパターン認識器構成方法。 【請求項16】タンパク質と化合物の相互作用を予測する予測方法であって、第1の相互作用をするタンパク質と化合物の第1のペア、第2の相互作用をするタンパク質と化合物の第2のペア、前記予測するべきタンパク質と化合物の第3のペアに対し、請求項1~15のいずれかに記載のパターン認識器構成方法により、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器を構成する工程と、第3のペアを用いて作成されたベクトルBに対して前記パターン認識器を適用して、第3のペアが、前記2つのクラスのどちらのクラスに入るかを識別する工程と、を含むことを特徴とする予測方法。 【請求項17】化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニングするスクリーニング方法であって、前記化合物ライブラリーに含まれる各化合物に対して請求項16に記載の予測方法を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。 【請求項18】タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリーニングするスクリーニング方法であって、前記タンパク質ライブラリーに含まれる各タンパク質に対して請求項16に記載の予測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。 【請求項19】第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa1~ax(xは1以上の整数)とする工程と、各化合物に由来して作成された前記ベクトルa1~axを用いて、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。 |
明細書 | 【発明の詳細な説明】【技術分野】【0001】本発明は、タンパク質と化合物の相互作用を予測する予測方法に関する。【背景技術】【0002】従来、タンパク質-化合物間相互作用予測として、docking解析など タンパク質と化合物の立体構造をモデリングし、結合エネルギーを計算する手法が中心的に研究されてきており、いくつもの市販ソフトが開発された(H.J.Bohm. The computer program LUDI: A new method for the de novo design of enzyme inhibitors. J.Comp.Aided.Mol.Des., Vol.6, pp.61-78, 1992; Y.Z.Chen and C.Y.Ung. Prediction of potential toxicity and side effect protein targets of a small molecule by a ligand-protein inverse docking approach. J.Mol.Graph Mod., Vol.20, pp.199-218, 2001; Y.Z.Chen and D.G.Zhi. Ligand-protein inverse docking and its potential use in computer search of putative protein targets of a small molecule. Proteins, Vol.43, pp.217-226, 2001; Y.Z.Chen and C.Y.Ung. Computer automated prediction of putative therapeutic and toxicity protein targets of bioactive compounds from chinese medical plants. Am.J.Chin.Med., Vol.30, pp.139-154, 2002; Y.Z.Chen, Z.R.Li, and C.Y.Ung. Computational method for drug target search and application in drug discovery. J.Theor.Comp.Chem., Vol.1, pp.213-224, 2002; R.L.Desjarlais, R.P.Sheridan an G.L.Seibel, J.S.Dixon, I.D.Kuntz, and R.Venkataraghavan. Using shape complementarity as an initial screen in designing ligands for a receptor-binding site of known three-dimensional structure. J.Med.Chem., Vol.31, pp.722-729, 1988; T.E.Ferrin, G.S.Couch, C.C.Huang, E.F.Pellersen, and R.Langridge. An affordable approach to interactive desk-top molecular modeling. J.Mol.Graphics, Vol.9; J.Goodford. A computational procedure for determining energetically favorable binding sites on biologically important macromolecules. J.Med.Chem., Vol.28, pp.849-857, 1985; G.Jones, P.WIllett, R.C.Glen, A.R.Leach, and R.Taylor. Development and calidation of a genetic algorithm for flexible dicking. J.Mol.Biol., Vol.267, pp. 727-748, 1997; A.R.Leach and I.D.Kuntz. Conformational analysis of flexible ligands in macromolecular receptors sites. J.Comput.Chem., Vol.13, pp.730-748, 1992; A.Miranker and M.Karplus. Functionality maps of binding sites: A multicopy simultaneous search method. Proteins, Vol.11, pp.29-34, 1991; A.Miranker and M.Karplus. An automated method for dynamic ligand design. Proteins, Vol.23, pp.472-490, 1995; M.Y.Mizutani, N.Tomioka, and A.Itai. Rational automatic search method for stable docking models of protein and ligand. J.Mol.Biol., Vol.243, pp.310-326, 1994; C.M.Oshiro, I.D.Kuntz,and J.S.Dixon. Flexible ligand docking using a genetic algorithm. J.Comp.Aided Mol.Des., Vol.9, pp.113-130, 1995; C.M.Oshiro and I.D.Kuntz. Characterization of receptors with a new negative image: Use in molecular docking and lead optimization. Proteins, Vol.30, pp.321-336, 1998; S.H.Rostein, M.A.Murcko, and A.GenStar. A method for de novo drug design. J.Comp.Aided Mol.Des., Vol.7, pp.23-43, 1993; B.K.Shoichet, D.L.Bodian, and I.D.Kuntz. Molecular docking using shape descriptors. J.Comput.Chem., Vol.13, pp.380-397, 1992; M.Zacharias, B.A.Luty, M.E.Davis, and J.A.McCammon. Combined conformational search and finite-difference poisson-boltazmann approach for flexible docking. J.Mol.Biol., Vol.238, pp.455-465,1994)。これらの手法は結合エネルギーという明確な根拠をもつ点で信頼性は高い。【発明の開示】【発明が解決しようとする課題】【0003】しかしながら 立体構造を前提とする点は、この手法の短所であり、限界である。なぜなら、立体構造のデータの蓄積は進んでいるが、依然として構造未知のタンパク質は多いからである。例えば、PDB (H.M.Berman, J.Westbrook, Z.Feng, G.Gillil and, T.N.Bhat, H.Weissig, I.N.Shindyalov, and P.E.Bourne. The protein data bank, Nucleic Acids Res., Vol.28, pp.235-242, 2000. http://www.rcsb.org/pdb/.)されているタンパク質数は全生物合計で、14243個(blastで95%以上配列相同性があるものは同一のものとみなした場合)に過ぎない。そして、技術の進歩にかかわらず、未だに十分な構造解析を行えないタンパク質も多い。また、構造未知の場合には、タンパク質の立体構造予測手法や化合物の立体構造予測手法により構造推定を行うことは可能であるが、これらの予測手法も依然完全とはいえない。【0004】そこで本発明は、タンパク質と化合物の相互作用が未知のペアに対し、その相互作用を予測する汎用的な予測方法を提供することを目的としてなされた。【課題を解決するための手段】【0005】本発明者らは、上記課題を解決するため、利用すべきデータの同定、及びそのデータの処理方法に関して鋭意努力し、以下の結果を得た。まず、タンパク質及び化合物に関し、汎用性が高く、入手しやすいデータを検討した。タンパク質に関し、現時点で最も入手が容易であり、さらに今後、新たなタンパク質が発見された時にも最初に得られるデータはアミノ酸配列である。一方、化合物については、現時点で最も充実したデータは化学式及び構造式である。しかし、新たな化合物が発見された場合に、その構造式は様々な手法で推定されなければならず、その同定は必ずしも容易ではない。将来的に、新たな化合物が発見される可能性が最も高いのは 網羅的な代謝物解析を行った場合であるが、現在提案されている網羅的代謝物解析手法は、GC/MS(O.Fiehn, J.Kopka, P.Dormann, T.Altmann, R.Trethewey, and L.Willmitzer. Metabolite profiling for plant functional genomics.Nature Biotechnology, Vol.18, pp.1157-1161, 2000.; N.Glassbrook, C.Beecher, and J.Ryals. Metabolite profiling on the right path. Nature Biotechnology, Vol.18, pp.1142-1143, 2000.)やCE/MS(P. Schmitt-Kopplin and M.Frommberger. Capillary electrophoresis -mass spectrometry: 15 years of developments and applications. Electrophoresis, Vol.24, pp.3837-3867, 2003.; A.-C.Servais, J.Crommen, and M.Fillet. Capillary electrophoresis-mass spectrometry, an attractive tool for drug bioanalysis and biomarker discovery. Electrophoresis, Vol.27, pp.2616-2629, 2006.)などの質量分析(MS: mass spectrometry)を利用したものであるため、化合物のマススペクトルデータは、未知化合物について最も入手しやすいデータとなることが考えられる。現時点においてさえ、既に約160000化合物のマススペクトルデータを集めたデータベースが存在する(http://www.nist.gov/)。【0006】そこで、本発明者らは、これらのデータを用いた統計学処理方法を検討した。すなわち、タンパク質と化合物の相互作用として、タンパク質・化合物間の結合、及びタンパク質・化合物間のアゴニスティック/アンタゴニスティックな機能的相互作用を例とし、入手可能なタンパク質のアミノ酸配列や化合物のマススペクトルデータについて、アミノ酸配列の所定の配列の出現頻度、及びマススペクトルデータのピークの位置や強度をベクトル化し、サポートベクターマシン(SVM)(V.Vapnik. Statistical Learning Theory. Wiley, New York, 1998.)を適用し、相互作用について学習させてパターン認識器を作成したところ、この分類が、結合や機能的相互作用についての分類と、高度に相関があることを見出した。こうして、本発明者らは、その相互作用が未知の、タンパク質と化合物のペアに対し、その相互作用を予測する予測方法の完成に至った。【0007】そこで、本明細書には、少なくとも以下の19項の発明が含まれる。〔1〕第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa1~ax(xは1以上の整数)とする工程と、各タンパク質をベクトル化し、ベクトルb1~by(yは1以上の整数)とする工程と、少なくとも各化合物に由来して作成された前記ベクトルa1~axのうちの1つと該化合物とペアである前記タンパク質に由来して作成された当該ベクトルbk(kは1~yのいずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。【0008】〔2〕前記マススペクトルデータの少なくとも1つの因子が、ピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれることを特徴とする〔1〕に記載のパターン認識器構成方法。【0009】〔3〕前記ベクトルb1~byは、前記タンパク質における所定のアミノ酸配列の出現頻度を要素とするベクトルであることを特徴とする〔1〕または〔2〕に記載のパターン認識器構成方法。【0010】〔4〕各化合物に由来して作成された前記ベクトルの1つは、下記式(1)でベクトル化されるベクトルF(c)であることを特徴とする〔1〕~〔3〕のいずれかに記載のパターン認識器構成方法。式(1):式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合であり、I(m)は当該ペアの化合物に対して観測されるピークのm/z値におけるピークの強度を表す。【0011】〔5〕各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルF’(c)であることを特徴とする〔1〕~〔3〕のいずれか1項に記載のパターン認識器構成方法。式(2):式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合を表す。【0012】〔6〕各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルであることを特徴とする〔1〕~〔3〕のいずれか1項に記載のパターン認識器構成方法。式(3):式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は当該ペアの化合物に対して観察されるm/z値i及びjにおける2つのピークのm/z値の差j-iの集合であり、ここで、式(4)式中、M(c)は、当該ペアの化合物で観測されるピークのm/z値の集合であり、ここで、式(5):式中、Ii,Ijは、m/z値i及びjにおける2つのピークの強度であり、tはギャップを考慮する強度の閾値であり、wはm/z値i及びjにおける2つのピークのm/z値の差j-iの閾値である。【0013】〔7〕各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルであることを特徴とする〔1〕~〔3〕のいずれか1項に記載のパターン認識器構成方法。式(6):式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は第3のペアの化合物に対して観察される2つのピークのm/z値の差の集合である。【0014】〔8〕各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルを結合させて、ベクトル(al,bk)または(ap,aq,bk)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする〔1〕~〔7〕に記載のパターン認識器構成方法。(式中、l、p、qは1~xのいずれか、kは1~yのいずれかである。)【0015】〔9〕各化合物の物理化学的特性値、化学式、構造式、3次元立体構造の4つの因子から選ばれた少なくとも1つの因子をベクトル化してベクトルDとし、該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルと、前記ベクトルDを結合させて、ベクトル(al,D,bk)または(ap,aq,D,bk)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする〔1〕~〔7〕のいずれか1項に記載のパターン認識器構成方法。(式中、l、p、qは1~xのいずれか、kは1~yのいずれかである)【0016】〔10〕サポートベクターマシンの識別関数が、下式(7)のように表現されることを特徴とする〔1〕~〔9〕のいずれか1項に記載のパターン認識器構成方法。式(7):【0017】〔11〕前記式(7)Kに下式(8)Kconc.を適用することを特徴とする〔10〕に記載のパターン認識器構成方法。式(8):【0018】〔12〕前記式(7)Kに下式(9)Kcombiを適用することを特徴とする〔10〕に記載のパターン認識器構成方法。式(9):【0019】〔13〕サポートベクターマシンが、linearカーネル、polynomialカーネル、RBF(Radial Basis Function)カーネル、またはsigmoidカーネルを利用することを特徴とする〔1〕~〔12〕のいずれか1項に記載のパターン認識器構成方法。【0020】〔14〕前記相互作用が、タンパク質と化合物の物理的結合であって、第1の相互作用は、タンパク質と化合物が結合することであり、第2の相互作用は、タンパク質と化合物が結合しないことであり、タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする〔1〕~〔13〕のいずれかに記載のパターン認識器構成方法。【0021】〔15〕前記相互作用が、タンパク質と化合物の機能的結合であって、第1の相互作用は、アゴニストとして化合物がタンパク質と結合することであり、第2の相互作用は、アンタゴニストとして化合物がタンパク質と結合することであり、化合物がタンパク質に対しアゴニストとして結合するか、アンタゴニストとして結合するか、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする〔1〕~〔13〕のいずれかに記載のパターン認識器構成方法。【0022】〔16〕タンパク質と化合物の相互作用を予測する予測方法であって、第1の相互作用をするタンパク質と化合物の第1のペア、第2の相互作用をするタンパク質と化合物の第2のペア、前記予測するべきタンパク質と化合物の第3のペアに対し、〔1〕~〔15〕のいずれかに記載のパターン認識器構成方法により、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器を構成する工程と、第3のペアを用いて作成されたベクトルBに対して前記パターン認識器を適用して、第3のペアが、前記2つのクラスのどちらのクラスに入るかを識別する工程と、を含むことを特徴とする予測方法。【0023】〔17〕化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニングするスクリーニング方法であって、前記化合物ライブラリーに含まれる各化合物に対して〔16〕に記載の予測方法を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。【0024】〔18〕タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリーニングするスクリーニング方法であって、前記タンパク質ライブラリーに含まれる各タンパク質に対して〔16〕に記載の予測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。【0025】〔19〕第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa1~ax(xは1以上の整数)とする工程と、各化合物に由来して作成された前記ベクトルa1~axを用いて、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。【0026】==関連文献とのクロスリファレンス==なお、本出願は、2006年10月31日出願の日本国出願番号特願2006-297111を基礎とする優先権の利益を主張し、これを引用することにより本明細書に含める。【図面の簡単な説明】【0027】【図1】Venkatarajanらによって選択された237個のアミノ酸の物理化学的特性のリストである。【図2】Venkatarajanらが20種類のアミノ酸を表現した5次元ベクトルのリストである。【図3】本発明にかかる一つの実施形態において、400種類のdipeptideに対し、クラスタリングして得られた89種類のクラスターのリストである。【図4】本発明にかかる一つの実施形態において、4200種類のtripeptideに対し、クラスタリングして得られた199種類のクラスターのリストである。【図5】ヒトARファミリーに属するタンパク質同士におけるアミノ酸配列の相同性を記載した表である。【図6】(a)はヒトARファミリータンパク質の機能的分類を示した表である。(b)はヒトARファミリータンパク質に結合する化合物の、ARタンパク質に対する結合様式を示した図である。【図7】本発明にかかる一つの実施例において、SVMの実行に際し、異なるKernel関数を用いた場合のパターン認識器の識別力を示した表である。【図8】本発明にかかる一つの実施例において、タンパク質のベクトル化に対し、異なるベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。【図9】本発明にかかる一つの実施例において、化合物のベクトル化に対し、異なるベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。【図10】本発明にかかる一つの実施例において、タンパク質由来のベクトルと化合物由来のベクトルの結合に際し、異なる結合表現を用いた場合のパターン認識器の識別力を示した表である。【図11】本発明にかかる一つの実施例において、タンパク質由来の情報を考慮に入れた場合(A)と入れない場合(B)のパターン認識器の識別力を示した表である。【図12】DrugBank Approved Drug Target Protein Sequencesに記載された薬剤-ターゲットタンパク質ペアの中から、NIST05にマススペクトルデータが存在する化合物とタンパク質のペア980組の特徴を示した表である。【図13】本発明にかかる一つの実施例において、DrugBank Approved Drug Target Protein Sequencesに記載のデータを使用した場合のパターン認識器の識別力を示した表である。【図14】本発明にかかる一つの実施例において、gapベクトルに関し、異なる強度計算方法を用いた場合のパターン認識器の識別力を示した表である。【図15】本発明にかかる一つの実施例において、negativeなサンプル数を増やした場合のパターン認識器の識別力を示した表である。【図16】本発明にかかる一つの実施例において、DrugBank Approved Drug Target Protein Sequencesに記載された薬剤-ターゲットタンパク質ペアの中から、レセプターとリガンドの関係にあるペアを用いた場合のパターン認識器の識別力を示した表である。【図17】本発明にかかる一つの実施例において、PCAによって特徴選択した場合のパターン認識器の識別力を示した表である。【発明を実施するための最良の形態】【0028】以下、本発明の実施の形態において、タンパク質と化合物の相互作用を予測する予測方法について、実施例を挙げながら具体的かつ詳細に説明するが、本発明はこれらの実施の形態あるいは実施例に限定されるものではない。なお、本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示又は説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは、当業者にとって明らかである。【0029】==タンパク質のベクトル化==まず、y個のタンパク質について、各タンパク質をベクトル化し、ベクトルb1~by(yは1以上の整数)とする手法を述べる。ベクトル化するのは、タンパク質全体のアミノ酸配列を用いてもよく、また、結合部位など、部分配列を用いてもよいが、タンパク質のベクトル化方法は特に限定されず、例えば、タンパク質の各アミノ酸残基の電荷、疎水性、表面張力、立体構造などを利用してベクトル化しても構わない(J.R.Bock and D.A.Gough. Predicting protein-protein interactinos from primary structure. Bioinformatics, Vol.17, No.5, pp.455-460, 2001.; C.Yanover and T.Hertz. Predicting protein-peptide binding affinity by learning peptide-peptide distance functions. In RECOMB 2005, pp.456-471, 2005.)。ここでは、一例として、各タンパク質における所定のアミノ酸配列の特徴の出現頻度を要素とするベクトルC(p)を、以下のように作成する方法を述べる。式(10):式中、Cはベクトル化の対象となる全タンパク質において一度でも出現する特徴cの集合である。また、fp(c)は、タンパク質pにおける特徴cの出現回数を表す。利用するアミノ酸配列の特徴として、アミノ酸n個(nは自然数)の配列の全組み合わせの出現頻度としてもよく、また、各部分配列を、物理化学的特性によって分類し、各グループの出現頻度としてもよい。利用するアミノ酸配列のアミノ酸数は、特に限定されないが、ベクトルの要素数から、アミノ酸2個または3個の部分配列を利用するのが好ましい。【0030】以下、代表的なアミノ酸配列の選び方、及びベクトルaの作成方法について述べるが、アミノ酸配列の特徴は、これらに限定されない。【0031】(1)dipeptide(アミノ酸2個の配列)の利用ここでは、ベクトルCとして、アミノ酸2個の配列の全組み合わせの出現頻度(M.Bhasin and G.P.S.Raghava. GPCR pred: and SVM-based method for prediction of families and subfamilies of g-protein coupled receptors. Nucleic Acids Res., Vol.32, pp.383-389, 2004.)を要素とするベクトルCodを作成する。自然界に存在するアミノ酸は20種類なので、このベクトルは、202=400の要素を有することになる。【0032】(2)tripeptide(アミノ酸3個の配列)の利用ベクトルCとして、アミノ酸3個の配列の全組み合わせの出現頻度を要素とするベクトルCotを作成してもよい。自然界に存在するアミノ酸は20種類なので、このベクトルは、203=8000の要素を有する、8000次元のベクトルになる。また、Martinらによって行われたように(S.Martin, D.Roe, and J.-L.Faulon. Predicting protein-protein interactions using signature products. Bioinformatics, Vol.21, No.2, pp.218-226, 2005.)、アミノ酸3個の配列において両端のアミノ酸の区別をせずに、その配列の組み合わせの出現頻度を要素とするベクトルを作成してもよい。この場合、(8000-400)/2+400=4200の要素を有する、4200次元のベクトルになる。【0033】(3)diclustの利用ベクトルCとして、アミノ酸2個の配列の組み合わせを、物理化学的特性値によってグループ分けし、各グループの出現頻度を要素とするベクトルCldを作成してもよい。例えば、Venkatarajanらは、237個の20アミノ酸の物理化学的特性値(図1)から、以下のように5次元ベクトルを求めた(M.S.Venkatarajan and W.Braun. New quantitative descriptors of amino acids based on multidimensional scaling of a large number of physical-chemical properties. Journal of Molecular Modeling, Vol.7, pp.445-453, 2001.)。最終的に、Venkatarajanらは、この上位5つの固有値と固有ベクトルを利用してアミノ酸iを次のような5次元ベクトルα(i)で表現した。なお、この5つの固有値と各アミノ酸の固有ベクトルを図2に示す。式(16):この5次元ベクトルを利用して、アミノ酸i、及び、アミノ酸jからなるdipeptide(i,j)を表現する物理化学特性ベクトルαd(i,j)を次式で定義する。式(17):合計400種類のdipeptideに対応するαd(i,j)に対して、variational Bayesian mixture modellingによるクラスタリングを行い、合計89種類のクラスターを得る。この各クラスターを式(10)においてCを構成する特徴cとして扱う。下記の実施例では、variational Bayesian mixture modellingには、統計解析ソフトR(http://www.r-project.org/)のvabayelMixパッケージ(A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, and C.Caldas. A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.3025-3033, 2005.)を利用した。なお、この89種類のクラスターは、詳細には400種類のdipeptideに対応する400個の5次元ベクトルに対して2段階のクラスタリングを行うことで得られる。第一段階のクラスタリングで400個のベクトルを25個のクラスターに分け、それぞれのクラスターにおいて、それに属するベクトルに対して第二段階のクラスタリングを行い、25個のクラスターから合計89個のクラスターを得ることができる。89個のクラスターに含まれるdipeptideについては図3に示す。【0034】(4)triclustの利用ベクトルCとして、アミノ酸3個の配列の組み合わせを、物理化学的特性値によってグループ分けし、各グループの出現頻度を要素とするベクトルCltを作成してもよい。例えば、(2)で記載したようなアミノ酸3個の配列αs(a01, a11, a12)を、(3)で記載したアミノ酸iを表現する5次元ベクトルα(i)を利用して、次のように定義する。式(18):合計4200種類のtripeptideに対応するαs(a01, a11, a12)に対して、variational Bayesian mixture modellingによるクラスタリングを行い、合計199種類のクラスターを得る。この各クラスターを式(10)においてCを構成する特徴cとして扱う。下記の実施例では、variational Bayesian mixture modellingには、統計解析ソフトR(http://www.r-project.org/)のvabayelMixパッケージ(A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, and C.Caldas. A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.3025-3033, 2005.)を利用した。なお、この199種類のクラスターは、詳細には4200種類のtripeptideに対応する4200個の5次元ベクトルに対して2段階のクラスタリングを行うことで得られる。第一段階のクラスタリングで4200個のベクトルを34個のクラスターに分け、それぞれのクラスターにおいて、それに属するベクトルに対して第二段階のクラスタリングを行い、34個のクラスターから合計199個のクラスターを得ることができる。199個のクラスターに含まれるtripeptideについては図4に示す。【0035】==化合物のベクトル化==化合物のベクトル化は、当該化合物のマススペクトルを利用して行う。つまり、マススペクトルデータの少なくとも1つの因子(ここではx個とする)をベクトル化し、それぞれベクトルa1~ax(xは1以上の整数)とすればよいが、ここで、どの因子を選ぶかは限定されない。例えば、一つのマススペクトルデータにおいて、観察されるピークの位置と強度の情報を数値化してfragmentベクトル(F)を、ピークとピークの間隔及び強度の情報を数値化してgapベクトル(G)を作成することができる。【0036】(1)fragmentベクトルの作成例えば、化合物cのマススペクトルに対するベクトルF(c)は、観察されるピークの位置と強度の両方を考慮した場合、次式で表現される。式(19):また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトルF’(c)は次式で表現される。式(20):これらの式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該化合物に対して観測されるピークのm/z値の集合であり、I(m)は当該化合物に対して観測されるピークのm/z値におけるピークの強度を表す。【0037】(2)gap ベクトルの作成例えば、m/z値i及びj(j>i)において、それぞれ強度Ii、Ijを持つ2つのマススペクトルのピークの間隔に対応する強度gi(j-i)を次のように定義する。式(21):式中、tはギャップを考慮する強度の閾値であり、wは2つのピークのm/z値の差の閾値である。tはノイズの存在、wは主に放射性同位体の存在を考慮した閾値である。なお、gi(j-i)は脱離のゴール地点iを定めた場合の値であり、同一化合物中に同じm/z値、つまりj-iを持つものが多数存在する場合があるので、一つの化合物c全体での間隔mに対応する強度を次のように定める。式(22):式中、M(c)は化合物cで観測されるm/z値の集合である。最終的に、式(21)における閾値t、wを定めた時の化合物cのマススペクトルに対するgapベクトルは次式で表現される。式(23):また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトルG’(c)は次式で表現される。式(24):これらの式中、Mgは、ベクトル化の対象となる全化合物のマススペクトルにおいて、一度でも観察される間隔の集合であり、Mg(c)は化合物cで観測される間隔の集合である。なお、gi(j-i)の計算に、式(21)以外に、以下の式(25)を用いてもよいが、最終的に識別力の精度(accuracy)が高くなるため、式(21)を用いるのが好ましい。式(25):【0038】(3)従来のベクトル化方法Zernovらは、SVMによる薬剤と非薬剤の識別,農薬と非農薬の識別において、物理化学的特性値を利用して化合物をベクトル化した(V.V.Zernov, K.V.Balakin, A.A.Ivaschenko, N.P.Savchuk, and I.V.Pletnev. Drug discovery using support vector machines. the case studies of drug-likeness,agrochemical-likeness, and enzyme inhibition predictions. J.Chem.Inf.Comput.Sci., Vol.43, pp.2048-2056, 2003.)。また、Swamidassらは、化合物の変異誘導性,毒性識別において化合物をベクトル化するにあたり、[1]化学式から導き出されるSMILES文字列を利用する方法、[2]化合物の構造式からpath抽出を行う方法、[3]化合物の3次元立体構造から、各原子間の距離を計算する方法を開発した(S.J.Swamidass, J.Chen, J.Bruand, P.Phung, L.Ralaivola, and P.Baldi. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti-cancer actibity. Bioinformatics, Vol.21, No.Supple 1, pp.359-368, 2005.)。【0039】==タンパク質・化合物ペアの結合表現==上記のように作成した、化合物のマススペクトルデータに由来するベクトルa1~axのうちの少なくとも1つを用いて作成した化合物に対するベクトルaとタンパク質のアミノ酸配列に由来するベクトルbk(kは1~yのいずれかの整数)を用いて作成したタンパク質に対するベクトルbを結合するが、結合方法は限定されない。【0040】(1)連結表現例えば、最も単純な結合方法として、これらのベクトルを連結すればよく(J.R.Bock and D.A.Gough. Predicting protein-protein interactions from primary structure. Bioinformatics, Vol.17, No.5, pp.455-460, 2001.; S.M.Gomez, W.S.Noble, and A.Rzhetsky. Learning to predict protein-protein interactions. Bioinformatics, Vol.19, pp.1875-1881, 2003.)、以下のように表現される。式(26):ここで、上記のように、例えば、a=(F,G)や(F)等で表現され、b=(Clt(b))や(Cot(b))等で表現される。この場合、SVMの識別関数は、以下の式で表現される。式(27):特に、Kernel関数にRBF Kernelを利用する場合は、この式において、以下の計算をしていることになる。式(28):【0041】(2)組み合わせ表現(1)の連結表現では、基本的に化合物・化合物間やタンパク質・タンパク質間の関係性に注目し、その関係性の積の形で相互作用の特徴を見出そうとしている。しかしながら、相互作用する化合物とタンパク質に特有なタンパク質・化合物間の関係性が存在する可能性がある。その関係性を評価するため、組合せ表現では式(28)の代わりに次のような計算を行う。式(29):この式において、Kaa、Kbb、Kabに、異なるKernel関数を用いてもよい。また、異なるパラメーターを利用することが可能であり、パラメーター等の調節により、それぞれの関係性に対して任意の重み付けをすることもできる。この計算では、a1’とb2’の内積を求める必要があるが、aとbのベクトル長が異なる場合は計算に不都合が生じるため、aとbに処理を加え、a1’とb2’は同じベクトル長を持つようにする。これはまた、連結表現においては潜在的に存在したベクトル長の違いに起因する重みを排除する効果も有する。具体的には、式(29)において、化合物a=(F,G)、タンパク質bで表現した場合、組み合わせ表現ではタンパク質・化合物ペアB1=(a1, b1)=(F1,G1,C1)とB2=(a2, b2)=(F2,G2,C2)に対し、以下のようなKernel関数の計算を行う。式(30):本手法では、Kij(x、y)として、以下の4つのKernel関数のいずれかを用いる。式(31):ここで、ベクトル長を一定にするために、化合物に由来するベクトル、またはタンパク質に由来するベクトル、のいずれのベクトルの次元数に合わせてもよいが、化合物に由来するベクトルは、化合物のマススペクトルデータセットやパラメーターに依存して次元数が変動するのに対し、タンパク質に由来するベクトルの次元数は、データセットに依存しないため、タンパク質に由来するベクトルの次元数を用いるのが好ましい。その場合、化合物に由来するベクトルから、利用するベクトルの次元数と同じ数の要素を抽出し、同じ次元数を持つベクトルを作成する必要がある。この要素の選択方法は特に限定されず、ランダムに選択しても構わないが、例えば、化合物に由来するベクトルの要素の中から、タンパク質と化合物のペアの分類のために、最も重要だと考えられる特徴を選択してもよい。例えば、式(30)において、KFG(F1,G1)などを式(31)で計算する場合、各ベクトルの特徴の順序によって計算結果が異なってくるため、以下のような基準によって特徴の順序を決定してもよく、特徴数を減らさなければいけないような場合には、並べた順序の上位から数えて、必要な数の特徴を選択してもよい。まず、化合物に対するfragmentベクトルF、タンパク質に関するベクトルCに関しては、特徴iに対して、次のように定義されるMSEの降順を特徴の順序とする。式(32):一方、gapベクトルGに関しては、以下のように定義する。式(33):また、g(i)は、化合物cにおいて、m/z値jのピークとm/z値i+jのピークの間に計算される間隔に対応する強度であり(式(21)参照)、M(c)は、化合物cで観測されるm/z値の集合である。特徴の順序を決定する場合、式(32)及び式(33)のように、化合物やタンパク質において、登場回数が多く、かつ,変動が大きな特徴を特徴の序列上位に配置するのが好ましい。このような特徴が最も識別のための表現力があると考えられるからである。ベクトルの次元数を減らすために特徴を抽出する際も、異なるベクトル間で表現力に富む特徴同士の関係性をみることにより、識別のためにより表現力のある異種ベクトル間の関係性を抽出することが好ましい。【0042】(3)化合物またはタンパク質を、他の方法でベクトル化して作成したベクトルの利用なお、化合物に由来するベクトルとタンパク質に由来するベクトルを結合させる際は、結合させるベクトルに、その化合物のマススペクトルデータに由来するベクトルが含まれていればよく、他の実施の形態として、この化合物由来のベクトルを、アミノ酸配列以外の情報を利用してベクトル化したタンパク質由来のベクトルと結合させてもよく、また、物理化学的特性値、化学式、構造式、3次元立体構造などの情報を利用してベクトル化した化合物由来のベクトルなどを含め、複数の種類のベクトルと結合させてもよい。その場合の結合方法は、上述の方法を利用してもよいが、特に限定されない。【0043】==SVMへの適用==SVMに関しては、一般に入手できるプログラムを用いればよく、例えば、ウェブ上で利用可能なLIBSVMを用いてもよい(C.-C.Chang and C.-J.Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.)。LIBSVMでは、C-support vector classification (C-SVC)、v- support vector classification (v- SVC)、one-class SVM、ν-support vector classification (ν-SVC)などの演算が可能である。以下の実施例では、C-support vector classification (C-SVC)を利用する。LIBSVMでは、入力データの各次元毎にスケーリングの利用を推奨している。具体的には、サンプルiのj次元目の値xijのスケーリングを受けた値s(xij)は次のように表される。式(34):ここで、l、hは、それぞれユーザーが定義する最小値と最大値である。以下の実施例では、特に言及しない限り、スケーリングを入力データに適用した。また、LIBSVMでは、SVMを確率推定に拡張している。本発明においても、「薬物群x大規模配列群」といった大規模な結合予測を行う場合には、この確率推定を行ってもよい。これは、大規模予測により相互作用候補が多数出現した場合に、その優先順位をつけるうえで、確率推定値が有効な指標となりうるからである。【0044】==パターン認識器構成方法==以上のようにして、異なる相互作用(第1の相互作用及び第2の相互作用)をする2クラスの、タンパク質と化合物のペア(第1のペアと第2のペア)に対して、各化合物について得られたマススペクトルデータのピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれた少なくとも1つの因子をベクトル化し、各タンパク質のアミノ酸配列をベクトル化し、それぞれのベクトルを結合してSVMを適用して学習させることにより、各クラスを識別するパターン認識器を構成することができる。【0045】このパターン認識器は、化合物のマススペクトルデータ及びタンパク質のアミノ酸データに基づいて作成されたにもかかわらず、どのような相互作用を有するかによって学習させることにより、その相互作用のクラス分けと高度に一致させることができる。なお、ここで対象とする相互作用は、タンパク質と化合物の間に生じる相互作用であれば特に限定されず、物理的に結合するかどうかに関する構造的結合や、結合したときにどのような作用を及ぼす結合であるかに関する機能的結合などを含んでもよい。また、結合しない態様など、ある特定の相互作用をしない場合も、相互作用の一形態とする。【0046】また、学習に用いる、第1の相互作用をする第1のペア及び第2の相互作用をする第2のペアについて、第1の相互作用と第2の相互作用は、互いに関連性の無い相互作用でも構わないが、第2の相互作用は、第1の相互作用をしない作用であることが好ましい。実際上は、相互作用を調べた結果として第1の相互作用をすることが明らかになっていないペアを、近似的に第1の相互作用をしないペアとして利用することができるため、本明細書では、相互作用を調べた結果として第1の相互作用をすることが明らかになっていないペアも第2の相互作用をするペアに含まれるものとする。【0047】==タンパク質-化合物間相互作用予測方法==従って、相互作用が未知の第3のペアについて、化合物およびタンパク質を上記と同様にベクトル化し、上記パターン認識器を適用することにより、第3のペアが2つのクラスのうち、どちらのクラスに属するかを明らかにすることができ、第3のペアが第1の相互作用と第2の相互作用のうちどちらの相互作用をするかについて明らかにすることができる。【実施例】【0048】(実施例1)AR(adrenergic receptor)と化合物の結合本実施例では、9種類の類似した構造を有するヒトARファミリータンパク質(図5)と、ARDB(adrenergic receptor database)(http://ardb.bjmu.edu.cn/.)にアゴニストあるいはアンタゴニストとして記載され、NIST05(NIST/EPA/NIH mass spectral library)(http://www.nist.gov/.)にマススペクトルデータが記載された48化合物(図6)を用い、本発明の分類方法によって、各タンパク質と化合物のペアを分類し、その相互作用との相関を調べた。各化合物のARに対する結合様式を図6bに示した。以下、結合するかどうかに関しては、各化合物に対し、ターゲットとして記載されているタンパク質とのペアはpositiveと記し(142ペア)、それ以外のタンパク質とのペアは、ターゲットでは無いとして、negativeと記す(290ペア)。【0049】(1)異なるKernel関数を用いた場合の識別力ARと化合物のペアに対し、その結合を連結表現のベクトル(F,G,Clt)で表し、異なるKernel関数を利用した場合の識別力を、10-fold cross validationにおけるsensitivity (sens.)、precision (prec.)、accuracy (acc.)を評価基準として評価した。具体的には、まず、サンプルをn等分してnグループのデータセットを作成した。次に、そのうちの1つをテストセットとし、残りのn-1グループをトレーニングデータとして学習させたモデルでテストセットの評価を行った。これをn回行い、作成したnグループ全てを1回ずつテストセットとして評価を行った。 そして、sens.、prec.、acc.を次式(35)で定義し、それぞれの評価を行なった。なお、gap intensityの計算方法には、式(21)を用いた。式(35):ここで、各ペアの実際の測定結果をoi、予測手法による予測結果をpi、各ペアにはpositive 1、negative -1という2クラスが存在するとしたとき、TPはtrue positive(pi=oi=1)の個数、FPはfalse positive(pi=1、oi=-1)の個数、TNはtrue negativepi=oi=-1)の個数、FNはfalse negative(pi=-1、oi=1)の個数を表している。得られた結果を図7に示した。この表において、Kernel関数を用いない、つまり高次元への写像を与えないlinearは、全ての評価基準でKernel関数を用いる場合より識別力が劣っていた。この結果より、タンパク質-化合物相互作用予測問題は非線形SVMによって識別可能な問題ということがわかる。また、Kernel関数の中で、全ての評価基準でRBF Kernelが最も識別力が優秀であった。【0050】(2)タンパク質に対し異なるベクトル化手法を用いた場合の識別力タンパク質を異なるベクトル化手法でベクトル化し、結合を連結表現で表した場合の識別力を図8に示した。なお、識別力の評価には、(1)と同様の方法を用いた。表に示すように、Clt、triclustが、次元数削減とともに、最も精度が高かった。この結果から、部分文字列と物理化学特性を結びつける手法の有効性が示されたといえる。また、同じ発想に基づくCld、diclustを用いた場合、精度が低下した。これは、89次元では識別上重要な特徴の混合が起こり、その識別能を失うためだと考えられる。Cod、Cotに注目すると、Codを用いた方が精度が高かった。一方、配列の表現力自体は、4200次元を有するCodの方が、400次元からなるCodより高かった。CodとCotの精度の差は、表現の複雑さと精度が直結しないことを示している。また、Cld(89次元)、Cot(4200次元)を用いた場合の精度が、Clt(199次元)やCod(400次元)の精度に及ばないことは、適正な次元数の存在を示唆する。【0051】(3)化合物に対し異なるベクトル化手法を用いた場合の識別力本実施例では、fragmentベクトルFとgapベクトルGの2つのベクトルの効果を比較するために、タンパク質のベクトル化手法をCltで固定し、化合物のベクトル化手法に図9で示したF及びGを用いた場合の識別力を算出した。なお、識別力の評価には、(1)と同様の方法を用いた。表に示すように、FまたはGを単独で利用したときの精度は、2つを併用したときの精度にどちらも及ばなかった。従って、fragmentベクトルFとgapベクトルGの両方を考慮に入れることがより好ましい。各ベクトルの役割としてはFの方がGより高い精度及びsens.を有することから、化合物の特徴をよく表し、識別のベースとなるのはFと考えられた。一方、FよりGの方がprec.が高く、さらに、Gより(F,G)の方がprec.が高いことから、Gはprec.を高める上で補助的な役割を有すると考えられた。また、表に示すように、マススペクトルデータのピーク強度を用いてベクトル化を行なった方が、ほとんどの場合において、ピーク強度を用いないでベクトル化したときより精度が高くなった(図9)。特に、FではなくF’を用いた場合に、精度の低下が著しくなった。従って、化合物の特徴を表現するに当たり、強度も用いることが好ましい。【0052】(4)異なる結合表現を用いた場合の識別力結合表現を、単なる連結表現を用いた場合と、組み合わせ表現を用いた場合とにおいて、それぞれ識別力を計算した。また、ベクトルを結合させる際、以下のように他の方法によって作成した化合物由来のベクターを含めて結合させることにより得られたパターン認識器の識別力も比較の対象とした。まず、pathを利用してdepthに関する閾値l、hを定めたときの化合物cに対する2Dベクトルを次式で定義した。式(36):一方、pathの出現回数を考慮せず、pathの存在のみに着目した2Dベクトルを以下のように定義した。式(37):なお、いずれの場合も、識別力の評価には(1)と同様の方法を用いた。結果を図10に示す。表に示すように、本実施例では、組み合わせ表現を用いた場合のほうが、連結表現を用いた場合より精度が向上した。また、2DベクトルDを同時に用いた場合、精度は向上した。【0053】(実施例2)AR(adrenergic receptor)と化合物の機能的相互作用本実施例では、化合物がARに対し、アゴニストとして結合するか、アンタゴニストとして結合するか、に関して、化合物の分類を行った。ここでは、図6で示したデータを用い、タンパク質の情報Cltを考慮しない場合(図6a)と考慮した場合(図6b)について比較を行った。なお、アンタゴニストとして結合する場合をpositive、アゴニストとして結合する場合をnegativeと記載する。ARタンパク質の種類として、α1にはA,B,Dの3種類、α2にはA,B,Cの3種類が存在するため、positiveは、考慮しない場合(図6a)は26ペア、考慮した場合(図6b)は、69ペア、negativeは、考慮しない場合(図6a)は22ペア、考慮した場合(図6b)は、73存在することになる。各場合の分類結果を図11に示した。なお、ここで作成されたパターン認識器の識別力は、実施例1(1)と同様の方法で評価した。タンパク質の情報を考慮すると、いずれのベクトルを利用した場合(図11A)でも、非常に高い精度が得られた。そして、いずれの場合でも、タンパク質の情報を考慮に入れない場合(図11B)と比較し、より精度が向上した。【0054】(実施例3)DrugBank(D.S.Wishart, C.Knox, A.C.Guo, S.Shrivastava, M.Hassanali, P.Stothard, Z.Chang, and J.Woolsey. DrugBank;a comprehensive resource for in silico drug discvover and exploration. Nucleic Acids Res., Vol.34 (Database issue), pp. D668-D672, 2006.)に記載のデータを利用した場合本実施例では、DrugBank Approved Drug Target Protein Sequencesに記載された薬剤-ターゲットタンパク質ペアの中から、NIST05にマススペクトルデータが存在する化合物とタンパク質のペア980組(図12)を例として、本発明の分類方法を検証した。ここでは、結合することが記載されているペアをpositiveなサンプルとし、結合することが記載されていないペアをランダムに選び、negativeなサンプルとした。なお、ここで作成されたパターン認識器の識別力は、実施例1(1)と同様の方法で評価した。その結果を図13に示す。表で示されるように、本実施例で用いたサンプルによっても、非常に高い精度で、薬剤-ターゲットタンパク質ペアが分類された。本条件下でも、タンパク質ベクトル化手法として、CltまたはCodを用いた場合に、より精度が高くなる傾向があるが、実施例1と異なり、Codを用いた場合の方が精度が向上した。また、実施例1と同様に、各ベクトルの結合方法は、組み合わせ表現を用いる方が精度が向上した。また、Gについて、異なる強度計算方法を用いて識別力を評価した。図14に示すように、この条件下では、3、5、6の計算式を用いた場合に、精度が向上した。さらに、negativeなサンプル数が、最終精度にどのような影響を与えるかを検討したところ(図15)、negativeなサンプル数が増加すると、prec.はあまり変化しないが、sens.は低下し、acc.は向上する。このように、いずれの条件においても、高い精度で識別力を有するパターン認識器が得られたが、利用するデータセットによって、最適となる条件は少しずつ異なる。【0055】(実施例4)DrugBankに記載のデータのうち、レセプターを用いた場合本実施例では、DrugBankに記載のデータのうち、タンパク質-化合物のペアがレセプターとリガンドの関係にあるペア(図12参照)を選択して分類し、識別力を評価した。図16に示すように、単なる結合という相互作用に対する精度を評価した実施例3より、いずれの条件を用いても、より高い精度が得られた。従って、タンパク質-化合物相互作用に関し、特定の様式ごとにパターン認識器を学習させるのがより好ましい。【0056】(実施例5)PCAによる特徴選択の効果本実施例では、fragment ベクトルF、gap ベクトルG、タンパク質ベクトルCに対し、行列QF、QG、QCを考えた。例えば、行列QFは以下のようである(QG、QCも同様。以下、Fについての例を示す。)。式(38):(QCの場合は、扱うデータセットに登場する全てのタンパク質からなる集合である。)この行列Qに対し、主成分分析を行い、主成分得点行列Sを得た。なお、主成分分析は、統計解析ソフトRprcompを用いて行なった。そして、化合物cについて、n個の特徴を抽出したfragment vector Fn(c)を次のように定義した。式(39):なお、ここでは、上記スケーリングは行なわなかった。このようなPCAを実施例1のARに関するデータ、及び実施例3のDrugBankに記載のデータに適用することより、特徴選択、順序決定をした場合の識別力を図17に示す。表に示されるように、適当な特徴選択を行なっても、タンパク質-化合物相互作用予測は可能であり、条件によっては、識別力を示す各要素が向上していた。【0057】(実施例6)タンパク質が結合する化合物の予測本実施例では、DrugBank datasetを用いて学習させたSVMモデルをパターン認識器とし、DrugBank dataset中の519化合物を対象として、Cytochrome P450 2E1 (UniProt P05181)及びMonoamine Oxidase A (UniProt ID: P1397)に結合するタンパク質を行なったところ、それぞれ、実際の結合化合物に対して精度92.29%及び94.61%となり、化合物ライブラリーの中から、結合化合物を検出することができた。【産業上の利用可能性】【0058】本発明によって、タンパク質と化合物のペアの分類方法であって、汎用性が高く、入手しやすいデータを利用し、網羅的に適用可能な方法、さらに、その分類方法を利用して、相互作用が未知のペアに対し、その相互作用を予測する予測方法を提供できる。 |
※
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記問合せ先にご相談下さい。
『 METHOD OF CLASSIFYING PROTEIN/COMPOUND PAIRS 』に関するお問合せ
- 学校法人慶應義塾 研究連携推進本部
- URL: https://wwwdc01.adst.keio.ac.jp/kj/rcp/contact/index.html
-
E-mail:
- Address: 〒108-8345 東京都港区三田二丁目15番45号
- TEL: 03-5427-1439
- FAX: 03-5440-0558