TOP > 国内特許検索 > 承認予測装置、承認予測方法、および、プログラム > 明細書

明細書 :承認予測装置、承認予測方法、および、プログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5990862号 (P5990862)
公開番号 特開2014-071836 (P2014-071836A)
登録日 平成28年8月26日(2016.8.26)
発行日 平成28年9月14日(2016.9.14)
公開日 平成26年4月21日(2014.4.21)
発明の名称または考案の名称 承認予測装置、承認予測方法、および、プログラム
国際特許分類 C40B  30/02        (2006.01)
G06F  17/18        (2006.01)
G06F  17/30        (2006.01)
G06F  19/16        (2011.01)
FI C40B 30/02
G06F 17/18 Z
G06F 17/30 170F
G06F 19/16
請求項の数または発明の数 8
全頁数 27
出願番号 特願2012-219730 (P2012-219730)
出願日 平成24年10月1日(2012.10.1)
審査請求日 平成27年9月30日(2015.9.30)
特許権者または実用新案権者 【識別番号】503360115
【氏名又は名称】国立研究開発法人科学技術振興機構
発明者または考案者 【氏名】ダ シルヴァ ロペス ティアゴ ジョゼ
【氏名】北野 宏明
【氏名】河岡 義裕
個別代理人の代理人 【識別番号】100089118、【弁理士】、【氏名又は名称】酒井 宏明
審査官 【審査官】渡邉 加寿磨
参考文献・文献 特開2008-176389(JP,A)
特開2010-165230(JP,A)
特開2006-146380(JP,A)
国際公開第2005/069188(WO,A1)
Monica Campillos et al,Drug Target Identification Using Side-Effect Similarity,Science,2008年 7月,Vol.321
Michael J. Keiser et al,Prediciting new molecular targets for known drugs,Nature,2009年11月,Vol.462
Eugen Lounkine et al,Large-scale prediction and testing of drug activity on side-effect targets,Nature,2012年 6月21日,Vol.486
調査した分野 G06F 19/10 - 19/28
C40B 30/02
G06F 17/18
G06F 17/30
G06Q 10/00 - 99/00
特許請求の範囲 【請求項1】
出力部と記憶部と制御部とを少なくとも備えた承認予測装置であって、
上記記憶部は、
タンパク質同士の類似性に基づき構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、
薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、
上記タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワークに関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段と、
を備え、
上記制御部は、
上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出手段と、
上記相互作用ネットワーク情報記憶手段に記憶された上記相互作用ネットワーク情報に基づき、上記タンパク質間相互作用ネットワークを構成する上記タンパク質の上記次数中心性、上記媒介値中心性、上記距離の中心性、および、上記バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出手段と、
上記薬剤標的記憶手段に記憶された上記各薬剤の上記承認属性と、上記類似性中心性尺度算出手段により算出された上記類似性中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、上記相互作用中心性尺度算出手段により算出された上記相互作用中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が上記非承認の上記薬剤に分類される確率である拒否スコアを算出する拒否スコア算出手段と、
上記拒否スコア算出手段により算出された上記拒否スコアを上記出力部を介して出力させる拒否スコア出力手段と、
を備えたことを特徴とする承認予測装置。
【請求項2】
出力部と記憶部と制御部とを少なくとも備えた承認予測装置であって、
上記記憶部は、
類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、
薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、
を備え、
上記制御部は、
上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出手段と、
上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象の上記タンパク質が、上記承認された上記薬剤、または、上記非承認の上記薬剤の上記標的の範囲に含まれるか否かの判定結果を、上記類似性中心性尺度算出手段により算出された当該検証対象のタンパク質の上記類似性中心性尺度を用いて取得する承認判定手段と、
上記承認判定手段により取得された上記判定結果を上記出力部を介して出力させる判定結果出力手段と、
を備えたことを特徴とする承認予測装置。
【請求項3】
請求項1または2に記載の承認予測装置において、
上記記憶部は、
上記タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段、
を更に備え、
上記制御部は、
上記タンパク質配列情報記憶手段に記憶された上記配列情報に基づき、シグネチャベースアルゴリズムを用いて上記タンパク質同士の上記類似性が相互に検出された場合、当該相互に上記類似性が検出された上記タンパク質同士で構成される上記タンパク質類似性ネットワークを作成し、当該タンパク質類似性ネットワークに関する上記類似性ネットワーク情報を上記類似性ネットワーク情報記憶手段に格納する類似性ネットワーク情報格納手段、
を更に備えたことを特徴とする承認予測装置。
【請求項4】
請求項2に記載の承認予測装置において、
上記承認判定手段は、
上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、上記類似性中心性尺度算出手段により算出された上記検証対象のタンパク質の上記類似性中心性尺度に含まれる上記次数中心性が高く、上記距離の中心性が低く、上記バートの制約値が非常に低い場合、上記検証対象の上記タンパク質が、上記非承認の上記薬剤の上記標的の範囲に含まれるという判定結果を生成することを特徴とする承認予測装置。
【請求項5】
出力部と記憶部と制御部とを少なくとも備えた承認予測装置において実行される承認予測方法であって、
上記記憶部は、
タンパク質同士の類似性に基づき構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、
薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、
上記タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワークに関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段と、
を備え、
上記制御部において実行される、
上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、
上記相互作用ネットワーク情報記憶手段に記憶された上記相互作用ネットワーク情報に基づき、上記タンパク質間相互作用ネットワークを構成する上記タンパク質の上記次数中心性、上記媒介値中心性、上記距離の中心性、および、上記バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出ステップと、
上記薬剤標的記憶手段に記憶された上記各薬剤の上記承認属性と、上記類似性中心性尺度算出ステップにて算出された上記類似性中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、上記相互作用中心性尺度算出ステップにて算出された上記相互作用中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が上記非承認の上記薬剤に分類される確率である拒否スコアを算出する拒否スコア算出ステップと、
上記拒否スコア算出ステップにて算出された上記拒否スコアを上記出力部を介して出力させる拒否スコア出力ステップと、
を含むことを特徴とする承認予測方法。
【請求項6】
出力部と記憶部と制御部とを少なくとも備えた承認予測装置において実行される承認予測方法であって、
上記記憶部は、
類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、
薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、
を備え、
上記制御部において実行される、
上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、
上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象の上記タンパク質が、上記承認された上記薬剤、または、上記非承認の上記薬剤の上記標的の範囲に含まれるか否かの判定結果を、上記類似性中心性尺度算出ステップにて算出された当該検証対象のタンパク質の上記類似性中心性尺度を用いて取得する承認判定ステップと、
上記承認判定ステップにて取得された上記判定結果を上記出力部を介して出力させる判定結果出力ステップと、
を含むことを特徴とする承認予測方法。
【請求項7】
出力部と記憶部と制御部とを少なくとも備えた承認予測装置に実行させるためのプログラムであって、
上記記憶部は、
タンパク質同士の類似性に基づき構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、
薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、
上記タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワークに関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段と、
を備え、
上記制御部において、
上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、
上記相互作用ネットワーク情報記憶手段に記憶された上記相互作用ネットワーク情報に基づき、上記タンパク質間相互作用ネットワークを構成する上記タンパク質の上記次数中心性、上記媒介値中心性、上記距離の中心性、および、上記バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出ステップと、
上記薬剤標的記憶手段に記憶された上記各薬剤の上記承認属性と、上記類似性中心性尺度算出ステップにて算出された上記類似性中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、上記相互作用中心性尺度算出ステップにて算出された上記相互作用中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が上記非承認の上記薬剤に分類される確率である拒否スコアを算出する拒否スコア算出ステップと、
上記拒否スコア算出ステップにて算出された上記拒否スコアを上記出力部を介して出力させる拒否スコア出力ステップと、
を実行させるためのプログラム。
【請求項8】
出力部と記憶部と制御部とを少なくとも備えた承認予測装置に実行させるためのプログラムであって、
上記記憶部は、
類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、
薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、
を備え、
上記制御部において、
上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、
上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象の上記タンパク質が、上記承認された上記薬剤、または、上記非承認の上記薬剤の上記標的の範囲に含まれるか否かの判定結果を、上記類似性中心性尺度算出ステップにて算出された当該検証対象のタンパク質の上記類似性中心性尺度を用いて取得する承認判定ステップと、
上記承認判定ステップにて取得された上記判定結果を上記出力部を介して出力させる判定結果出力ステップと、
を実行させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、承認予測装置、承認予測方法、および、プログラムに関する。
【背景技術】
【0002】
従来から、既存の化合物のオフターゲットまたは副作用の予測を行う技術が開示されている。
【0003】
非特許文献1に記載のタンパク質機能識別においては、リガンドの類似性に基づいてタンパク質のグループ化による薬物のオフターゲットを検出する技術が開示されており、以前に文献で報告されていない受容体と拮抗する点において、メタドン、エメチンおよびロペラミドのような薬剤の間に予期しない関係を発見している。
【0004】
また、非特許文献2に記載の薬剤標的識別においては、出発点として市販医薬品によって引き起こされる副作用を用いて、オフターゲット効果を検討し、副作用に応じて薬をグループ化することにより適応や構造を持つ薬剤をグループ化し、以前に知られていなかった薬剤の追加標的タンパク質を決定する技術が開示されている。
【0005】
また、非特許文献3に記載の既知薬剤の新規分子ターゲット予測においては、リガンドの類似性に基づいてタンパク質をグループ化し、オフターゲット効果を調べることで、既知の薬剤のうち、報告されている標的以外の標的を発見する技術が開示されている。
【0006】
また、非特許文献4に記載の薬剤標的相互作用ネットワーク予測においては、タンパク質配列および薬剤標的に関する情報を結びつけて、薬理学的空間(pharmacological space)と呼ぶリソースを新たに作成し、このリソースを使用して、既知の薬物の追加標的を明らかにし、薬剤標的を酵素、イオンチャネル、Gタンパク質結合受容体、および、核内受容体の4つのクラスに分類する技術が開示されている。
【0007】
また、非特許文献5に記載の薬剤活性大規模予測においては、市販薬の副作用の予測および説明に使用される薬剤ターゲット副作用ネットワークを作成し、医薬品と特定のタンパク質との意図しない相互作用の様々な関連性から、以前には説明することができなかった副作用を見いだす技術が開示されている。
【0008】
また、非特許文献6に記載の薬剤誘導肝臓損傷予測システムは、肝臓の損傷を引き起こす可能性が高い化合物を同定するための予測システムであり、予測対象を肝臓に限定し、ある種の化合物が肝臓への損傷を起こしやすくしているという特性を科学文献の調査に基づいて予測する技術が開示されている。ここで、薬剤誘導肝臓損傷予測システムにおいては、肝臓への有害な影響を引き起こす可能性があるいくつかのタンパク質および経路を予測している。
【先行技術文献】
【0009】

【非特許文献1】Keiser MJ, Roth BL, Armbruster BN, Ernsberger P, Irwin JJ, Shoichet BK. (2007) Relating protein pharmacology by ligand chemistry, Nature Biotechnology, 25, 197-206.
【非特許文献2】Campillos M, Kuhn M, Gavin AC, Jensen LJ, Bork P. (2008) Drug Target Identification Using Side-Effect Similarity, Science, 321, 263-266.
【非特許文献3】Keiser MJ, Setola V, Irwin JJ, Laggner C, Abbas AI, Hufeisen SJ, Jensen NH, Kuijer MB, Matos RC, Tran TB, Whaley R, Glennon RA, Hert J, Thomas KL, Edwards DD, Shoichet BK, Roth BL. (2009) Predicting new molecular targets for known drugs, Nature, 462, 175-181.
【非特許文献4】Yamanishi Y, Araki M, Gutteridge A, Honda W, Kanehisa M. (2008) Prediction of drug-target interaction networks from the integration of chemical and genomic spaces, Bioinformatics, 24, i232-i240.
【非特許文献5】Lounkine E, Keiser MJ, Whitebread S, Mikhailov D, Hamon J, Jenkins JL, Lavan P, Weber E, Doak AK, Cote S, Shoichet BK, Urban L. (2012) Large-scale prediction and testing of drug activity on side-effect targets, Nature, 486, 361-367.
【非特許文献6】Liu Z, Shi Q, Ding D, Kelly R, Fang H, et al. (2011) Translating Clinical Findings into Knowledge in Drug Safety Evaluation - Drug Induced Liver Injury Prediction System (DILIps). PLoS Comput Biol 7(12): e1002310.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、非特許文献1乃至6に記載の従来の薬剤標的予測技術においては、標的タンパク質の特性に基づいて医薬品の承認の可能性を定量化することができないという問題点を有していた。
【0011】
本発明は、上記問題点に鑑みてなされたもので、医薬品の承認または拒否の可能性を定量化することができる承認予測装置、承認予測方法、および、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
このような目的を達成するため、本発明の承認予測装置は、出力部と記憶部と制御部とを少なくとも備えた承認予測装置であって、上記記憶部は、タンパク質同士の類似性に基づき構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、上記タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワークに関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段と、を備え、上記制御部は、上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出手段と、上記相互作用ネットワーク情報記憶手段に記憶された上記相互作用ネットワーク情報に基づき、上記タンパク質間相互作用ネットワークを構成する上記タンパク質の上記次数中心性、上記媒介値中心性、上記距離の中心性、および、上記バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出手段と、上記薬剤標的記憶手段に記憶された上記各薬剤の上記承認属性と、上記類似性中心性尺度算出手段により算出された上記類似性中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、上記相互作用中心性尺度算出手段により算出された上記相互作用中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が上記非承認の上記薬剤に分類される確率である拒否スコアを算出する拒否スコア算出手段と、上記拒否スコア算出手段により算出された上記拒否スコアを上記出力部を介して出力させる拒否スコア出力手段と、を備えたことを特徴とする。
【0013】
また、本発明の承認予測装置は、出力部と記憶部と制御部とを少なくとも備えた承認予測装置であって、上記記憶部は、類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、を備え、上記制御部は、上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出手段と、上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象の上記タンパク質が、上記承認された上記薬剤、または、上記非承認の上記薬剤の上記標的の範囲に含まれるか否かの判定結果を、上記類似性中心性尺度算出手段により算出された当該検証対象のタンパク質の上記類似性中心性尺度を用いて取得する承認判定手段と、上記承認判定手段により取得された上記判定結果を上記出力部を介して出力させる判定結果出力手段と、を備えたことを特徴とする。
【0014】
また、本発明の承認予測装置は、上記記載の承認予測装置において、上記記憶部は、上記タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段、を更に備え、上記制御部は、上記タンパク質配列情報記憶手段に記憶された上記配列情報に基づき、シグネチャベースアルゴリズムを用いて上記タンパク質同士の上記類似性が相互に検出された場合、当該相互に上記類似性が検出された上記タンパク質同士で構成される上記タンパク質類似性ネットワークを作成し、当該タンパク質類似性ネットワークに関する上記類似性ネットワーク情報を上記類似性ネットワーク情報記憶手段に格納する類似性ネットワーク情報格納手段、を更に備えたことを特徴とする。
【0015】
また、本発明の承認予測装置は、上記記載の承認予測装置において、上記承認判定手段は、上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、上記類似性中心性尺度算出手段により算出された上記検証対象のタンパク質の上記類似性中心性尺度に含まれる上記次数中心性が高く、上記距離の中心性が低く、上記バートの制約値が非常に低い場合、上記検証対象の上記タンパク質が、上記非承認の上記薬剤の上記標的の範囲に含まれるという判定結果を生成することを特徴とする。
【0016】
また、本発明の承認予測方法は、出力部と記憶部と制御部とを少なくとも備えた承認予測装置において実行される承認予測方法であって、上記記憶部は、タンパク質同士の類似性に基づき構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、上記タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワークに関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段と、を備え、上記制御部において実行される、上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、上記相互作用ネットワーク情報記憶手段に記憶された上記相互作用ネットワーク情報に基づき、上記タンパク質間相互作用ネットワークを構成する上記タンパク質の上記次数中心性、上記媒介値中心性、上記距離の中心性、および、上記バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出ステップと、上記薬剤標的記憶手段に記憶された上記各薬剤の上記承認属性と、上記類似性中心性尺度算出ステップにて算出された上記類似性中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、上記相互作用中心性尺度算出ステップにて算出された上記相互作用中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が上記非承認の上記薬剤に分類される確率である拒否スコアを算出する拒否スコア算出ステップと、上記拒否スコア算出ステップにて算出された上記拒否スコアを上記出力部を介して出力させる拒否スコア出力ステップと、を含むことを特徴とする。
【0017】
また、本発明の承認予測方法は、出力部と記憶部と制御部とを少なくとも備えた承認予測装置において実行される承認予測方法であって、上記記憶部は、類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、を備え、上記制御部において実行される、上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象の上記タンパク質が、上記承認された上記薬剤、または、上記非承認の上記薬剤の上記標的の範囲に含まれるか否かの判定結果を、上記類似性中心性尺度算出ステップにて算出された当該検証対象のタンパク質の上記類似性中心性尺度を用いて取得する承認判定ステップと、上記承認判定ステップにて取得された上記判定結果を上記出力部を介して出力させる判定結果出力ステップと、を含むことを特徴とする。
【0018】
また、本発明のプログラムは、出力部と記憶部と制御部とを少なくとも備えた承認予測装置に実行させるためのプログラムであって、上記記憶部は、タンパク質同士の類似性に基づき構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、上記タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワークに関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段と、を備え、上記制御部において、上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、上記相互作用ネットワーク情報記憶手段に記憶された上記相互作用ネットワーク情報に基づき、上記タンパク質間相互作用ネットワークを構成する上記タンパク質の上記次数中心性、上記媒介値中心性、上記距離の中心性、および、上記バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出ステップと、上記薬剤標的記憶手段に記憶された上記各薬剤の上記承認属性と、上記類似性中心性尺度算出ステップにて算出された上記類似性中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、上記相互作用中心性尺度算出ステップにて算出された上記相互作用中心性尺度の上記各薬剤の上記標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が上記非承認の上記薬剤に分類される確率である拒否スコアを算出する拒否スコア算出ステップと、上記拒否スコア算出ステップにて算出された上記拒否スコアを上記出力部を介して出力させる拒否スコア出力ステップと、を実行させることを特徴とする。
【0019】
また、本発明のプログラムは、出力部と記憶部と制御部とを少なくとも備えた承認予測装置に実行させるためのプログラムであって、上記記憶部は、類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワークに関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段と、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となる上記タンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段と、を備え、上記制御部において、上記類似性ネットワーク情報記憶手段に記憶された上記類似性ネットワーク情報に基づき、上記タンパク質類似性ネットワークを構成する上記タンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出ステップと、上記タンパク質類似性ネットワークを構成する、上記薬剤標的記憶手段に記憶された上記タンパク質情報に基づく上記タンパク質を上記標的とする上記薬剤の上記承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象の上記タンパク質が、上記承認された上記薬剤、または、上記非承認の上記薬剤の上記標的の範囲に含まれるか否かの判定結果を、上記類似性中心性尺度算出ステップにて算出された当該検証対象のタンパク質の上記類似性中心性尺度を用いて取得する承認判定ステップと、上記承認判定ステップにて取得された上記判定結果を上記出力部を介して出力させる判定結果出力ステップと、を実行させることを特徴とする。
【発明の効果】
【0020】
また、この発明によれば、タンパク質類似性ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出し、タンパク質間相互作用ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である相互作用中心性尺度を算出し、各薬剤の承認属性と、算出された類似性中心性尺度の各薬剤の標的毎の合計値および平均値と、算出された相互作用中心性尺度の各薬剤の標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が非承認の薬剤に分類される確率である拒否スコアを算出し、算出された拒否スコアを出力部を介して出力させるので、1つの化合物の標的として全タンパク質の特性を考慮することで、複数標的化合物の承認・非承認の予測に利用することができるという効果を奏する。また、この発明によれば、機械学習の分類を用いた、候補化合物が望ましくない副作用を引き起こす可能性を示すスコアリングを行うことで、医薬品開発の初期段階で使用され、承認される高い可能性を有する化合物の優先順位を決定する手助けになるという効果を奏する。
【0021】
この発明によれば、タンパク質類似性ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出し、タンパク質類似性ネットワークを構成する、タンパク質を標的とする薬剤の承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象のタンパク質が、承認された薬剤、または、非承認の薬剤の標的の範囲に含まれるか否かの判定結果を、算出された当該検証対象のタンパク質の類似性中心性尺度を用いて取得し、取得された判定結果を出力部を介して出力させるので、個々のタンパク質の特性を特定し、有害な影響を与える可能性がないかを判断することができるという効果を奏する。また、この発明によれば、siRNA治療、または、シングル標的化合物(aka magic bullets)等の単独標的の評価、または、単一の特定のタンパク質の活性を調節する技術に利用することができるという効果を奏する。
【0022】
また、この発明によれば、シグネチャベースアルゴリズムを用いてタンパク質同士の類似性が相互に検出された場合、当該相互に類似性が検出されたタンパク質同士で構成されるタンパク質類似性ネットワークを作成し、当該タンパク質類似性ネットワークに関する類似性ネットワーク情報を格納するので、従来公表されているネットワークデータよりも高い類似性を有するネットワークデータを提供することができるという効果を奏する。
【0023】
また、この発明によれば、タンパク質類似性ネットワークを構成する、タンパク質を標的とする薬剤の承認属性に基づき、算出された検証対象のタンパク質の類似性中心性尺度に含まれる次数中心性が高く、距離の中心性が低く、バートの制約値が非常に低い場合、検証対象のタンパク質が、非承認の薬剤の標的の範囲に含まれるという判定結果を生成するので、非特異的な結合をしやすく、副作用を起こしやすいタンパク質を的確に特定することができるという効果を奏する。
【図面の簡単な説明】
【0024】
【図1】図1は、本実施の形態の基本原理を示すフローチャートである。
【図2】図2は、本実施の形態の基本原理を示すフローチャートである。
【図3】図3は、本実施の形態における承認予測装置の構成の一例を示すブロック図である。
【図4】図4は、本実施の形態の承認予測装置の処理の一例を示すフローチャートである。
【図5】図5は、本実施の形態における配列情報の一例を示す図である。
【図6】図6は、本実施の形態における類似性ネットワーク情報の一例を示す図である。
【図7】図7は、本実施の形態におけるバートの制約の一例を示す図である。
【図8】図8は、本実施の形態におけるタンパク質の中心性尺度の一例を示す図である。
【図9】図9は、本実施の形態における薬剤標的データベースに記憶される情報の一例を示す図である。
【図10】図10は、本実施の形態における承認または非承認の薬剤の標的の中心性尺度の一例を示す図である。
【図11】図11は、本実施の形態における相互作用ネットワーク情報の一例を示す図である。
【図12】図12は、本実施の形態における分類器の性能改善の一例を示す図である。
【図13】図13は、本実施の形態における分類器の分類精度の一例を示す図である。
【図14】図14は、本実施の形態における分類器の一例を示す図である。
【図15】図15は、本実施形態における出力情報の一例を示す図である。
【発明を実施するための形態】
【0025】
以下に、本発明にかかる承認予測装置、承認予測方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

【0026】
[本発明の実施の形態の概要]
以下、本発明の実施の形態の概要について図1および図2を参照して説明し、その後、本実施の形態の構成および処理等について詳細に説明する。

【0027】
[概要(その1)]
まず、図1を参照して、本発明の実施の形態の概要の一例について説明する。図1は、本実施の形態の基本原理を示すフローチャートである。本実施の形態は、概略的に、以下の基本的特徴を有する。

【0028】
すなわち、本実施の形態の承認予測装置の制御部は、図1に示すように、タンパク質類似性ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する(ステップSA-1)。

【0029】
そして、承認予測装置の制御部は、タンパク質類似性ネットワークを構成する、タンパク質を標的とする薬剤の承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象のタンパク質が、承認された薬剤、または、非承認の薬剤の標的の範囲に含まれるか否かの判定結果を、ステップSA-1にて算出された当該検証対象のタンパク質の類似性中心性尺度を用いて取得する(ステップSA-2)。

【0030】
そして、承認予測装置の制御部は、ステップSA-2にて取得された判定結果を出力部を介して出力させ(ステップSA-3)、処理を終了する。

【0031】
以上で、概要(その1)の説明を終える。

【0032】
[概要(その2)]
また、図2を参照して、本発明の実施の形態の概要の一例について説明する。図2は、本実施の形態の基本原理を示すフローチャートである。

【0033】
本実施の形態の承認予測装置の制御部は、図2に示すように、タンパク質類似性ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である類似性中心性尺度を算出する(ステップSB-1)。

【0034】
そして、承認予測装置の制御部は、タンパク質間相互作用ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する(ステップSB-2)。

【0035】
そして、承認予測装置の制御部は、各薬剤の承認属性と、ステップSB-1にて算出された類似性中心性尺度の各薬剤の標的毎の合計値および平均値と、ステップSB-2にて算出された相互作用中心性尺度の各薬剤の標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が非承認の薬剤に分類される確率である拒否スコアを算出する(ステップSB-3)。

【0036】
そして、承認予測装置の制御部は、ステップSB-3にて算出された拒否スコアを出力部を介して出力させ(ステップSB-4)、処理を終了する。

【0037】
以上で、本実施の形態の概要の説明を終える。

【0038】
[承認予測装置100の構成]
次に、本実施の形態における承認予測装置100の構成の詳細について、図3を参照して以下に説明する。図3は、本実施の形態における承認予測装置100の構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。ここで、本実施の形態における承認予測装置100においては、各構成が一筐体内に全て備えられ、単独で処理を行うもの(スタンドアローン型)を、承認予測装置100として説明するが、当該実施例に限らず、各構成が分離した筐体内に備えられ、ネットワーク300等を介して接続されて一つの概念としての装置を構成するもの(例えば、クラウドコンピューティング等)であってもよい。

【0039】
図3において、外部システム200は、ネットワーク300を介して、承認予測装置100と相互に接続され、タンパク質配列情報、薬剤情報、薬剤標的情報、および/もしくは、タンパク質間相互作用情報等に関する外部データベース、ならびに/または、ユーザインターフェース等を実行するウェブサイトを提供する機能等を有していてもよい。

【0040】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成していてもよい。また、外部システム200のハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成していてもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現されてもよい。

【0041】
また、ネットワーク300は、承認予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。

【0042】
また、承認予測装置100は、概略的に、制御部102と通信制御インターフェース部104と記憶部106と入出力制御インターフェース部108とを備える。ここで、承認予測装置100は、更に、表示部112を少なくとも含む出力部、および、入力部114を備えていてもよい。また、出力部は、更に、音声出力部、および、印刷出力部等を含んでいてもよい。ここで、制御部102は、承認予測装置100の全体を統括的に制御するCPU等である。また、通信制御インターフェース部104は、通信回線等に接続されるルータ等の通信装置(図示せず)に接続されるインターフェースであり、入出力制御インターフェース部108は、出力部、および、入力部114に接続されるインターフェースである。また、記憶部106は、各種のデータベースやテーブルなどを格納する装置である。これら承認予測装置100の各部は任意の通信路を介して通信可能に接続されている。更に、この承認予測装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。

【0043】
記憶部106に格納される各種のデータベースやテーブル(タンパク質配列情報データベース106a、類似性ネットワーク情報データベース106b、薬剤標的データベース106c、および、相互作用ネットワーク情報データベース106d)は、固定ディスク装置等のストレージ手段である。例えば、記憶部106は、各種処理に用いる各種のプログラム、テーブル、ファイル、データベース、および、ウェブページ等を格納する。

【0044】
これら記憶部106の各構成要素のうち、タンパク質配列情報データベース106aは、タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段である。ここで、アミノ酸配列は、ヒトタンパク質のアミノ酸配列であってもよい。また、配列情報は、FASTA形式であってもよい。これら配列情報は、タンパク質配列情報データベース106aに予め記憶されており、承認予測装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワーク300を介して最新のデータを外部システム200(例えば、NCBI、または、UNIPROT等)からダウンロードしてタンパク質配列情報データベース106aに記憶された配列情報をアップデートしてもよい。

【0045】
また、類似性ネットワーク情報データベース106bは、類似性を有するタンパク質同士で構成されたタンパク質類似性ネットワーク(PSIN)に関する類似性ネットワーク情報を記憶する類似性ネットワーク情報記憶手段である。

【0046】
また、薬剤標的データベース106cは、薬剤の承認、または、非承認に関する承認属性を含む薬剤情報と、当該薬剤の標的となるタンパク質に関するタンパク質情報と、を対応付けて記憶する薬剤標的記憶手段である。ここで、非承認の薬剤とは、本実施の形態において、薬剤承認において撤回(Withdraw)、または、却下(Illicit)された薬剤を、問題がある薬剤として1つのグループと見なした薬剤であってもよい。すなわち、問題がある薬剤とは、有害な影響を与えるため市場から撤廃しなければならない薬剤、または、社会的に許されない違法な薬剤(例えば、覚せい剤または幻覚剤等)であって、承認される薬剤と区別する必要のある薬剤であってもよい。これら薬剤承認に関する薬剤情報およびタンパク質情報は、薬剤標的データベース106cに予め記憶されており、承認予測装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワーク300を介して最新のデータを外部システム200(例えば、Drugbank(http://www.drugbank.ca/)等)からダウンロードして薬剤標的データベース106cに記憶された薬剤承認に関する薬剤情報およびタンパク質情報をアップデートしてもよい。

【0047】
また、相互作用ネットワーク情報データベース106dは、タンパク質間の相互作用に基づき構成されたタンパク質間相互作用ネットワーク(PPI)に関する相互作用ネットワーク情報を記憶する相互作用ネットワーク情報記憶手段である。これら相互作用ネットワーク情報は、相互作用ネットワーク情報データベース106dに予め記憶されており、承認予測装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワーク300を介して最新のデータを外部システム200(例えば、HIPPIE(http://cbdm.mdc-berlin.de/tools/hippie/)等)からダウンロードして相互作用ネットワーク情報データベース106dに記憶された相互作用ネットワーク情報をアップデートしてもよい。

【0048】
また、通信制御インターフェース部104は、承認予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、外部システム200、および、他の端末等と通信回線を介してデータを通信する機能を有する。

【0049】
また、入出力制御インターフェース部108は、出力部(表示部112)、および、入力部114の制御を行う。

【0050】
ここで、表示部112としては、アプリケーション等の表示画面を表示する表示手段(例えば、液晶または有機EL等から構成されるディスプレイ、モニタ、または、タッチパネル等)であってもよい。また、入力部114は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス、キーボード、または、マイク等であってもよい。また、音声出力部としては、例えば、スピーカ等であってもよい。また、印刷出力部としては、例えば、プリンタ等であってもよい。

【0051】
また、図3において、制御部102は、OS(Operating System)等の制御プログラムや、各種の処理手順等を規定したプログラム、および、所要データを格納するための内部メモリを有する。そして、制御部102は、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、類似性ネットワーク情報格納部102a、類似性中心性尺度算出部102b、承認判定部102c、判定結果出力部102d、相互作用中心性尺度算出部102e、拒否スコア算出部102f、および、拒否スコア出力部102gを備える。

【0052】
このうち、類似性ネットワーク情報格納部102aは、タンパク質配列情報データベース106aに記憶された配列情報に基づき、シグネチャベースアルゴリズムを用いてタンパク質同士の類似性が相互に検出された場合、当該相互に類似性が検出されたタンパク質同士で構成されるタンパク質類似性ネットワーク(PSIN)を作成し、当該タンパク質類似性ネットワークに関する類似性ネットワーク情報を類似性ネットワーク情報データベース106bに格納する類似性ネットワーク情報格納手段である。

【0053】
また、類似性中心性尺度算出部102bは、類似性ネットワーク情報データベース106bに記憶された類似性ネットワーク情報に基づき、タンパク質類似性ネットワークを構成するタンパク質の次数中心性(Degree)、媒介値中心性(Betweenness)、距離の中心性(Closeness Centrality)、および、バートの制約値(Burt’s constraint)を含む中心性尺度である類似性中心性尺度を算出する類似性中心性尺度算出手段である。ここで、次数中心性は、ネットワーク内で他のノードとどの程度(いくつ)直接つながっているのかを示す指標である。また、媒介値中心性は、ネットワーク内の他のノードと接続するために通過しなければならない最短経路の数を数えることによって、タンパク質のネットワークの中心性を測るものである。また、距離の中心性は、ネットワーク内の他の全てのノードに到達するために必要なステップ数を測定したものである。また、バートの制約値は、グループ内の個人の位置関係と利点を勉強する社会学的文脈で提案された指標である。

【0054】
また、承認判定部102cは、タンパク質類似性ネットワークを構成する、薬剤標的データベース106cに記憶されたタンパク質情報に基づくタンパク質を標的とする薬剤の承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象のタンパク質が、承認された薬剤、または、非承認の薬剤の標的の範囲に含まれるか否かの判定結果を、類似性中心性尺度算出部102bにより算出された当該検証対象のタンパク質の類似性中心性尺度を用いて取得する承認判定手段である。ここで、承認判定部102cは、タンパク質類似性ネットワークを構成する、薬剤標的データベース106cに記憶されたタンパク質情報に基づくタンパク質を標的とする薬剤の承認属性に基づき、類似性中心性尺度算出部102bにより算出された検証対象のタンパク質の類似性中心性尺度に含まれる次数中心性が高く、距離の中心性が低く、バートの制約値が非常に低い場合、検証対象のタンパク質が、非承認の薬剤の標的の範囲に含まれるという判定結果を生成してもよい。また、検証対象のタンパク質は、ユーザにより入力部114を介して入力されたタンパク質情報に基づくものであってもよい。

【0055】
また、判定結果出力部102dは、承認判定部102cにより取得された判定結果を出力部を介して出力させる判定結果出力手段である。ここで、判定結果出力部102dは、判定結果を表示部112に表示させてもよい。また、判定結果出力部102dは、判定結果を印刷出力部を介して出力させてもよい。

【0056】
また、相互作用中心性尺度算出部102eは、相互作用ネットワーク情報データベース106dに記憶された相互作用ネットワーク情報に基づき、タンパク質間相互作用ネットワークを構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を含む中心性尺度である相互作用中心性尺度を算出する相互作用中心性尺度算出手段である。

【0057】
また、拒否スコア算出部102fは、薬剤標的データベース106cに記憶された各薬剤の承認属性と、類似性中心性尺度算出部102bにより算出された類似性中心性尺度の各薬剤の標的毎の合計値および平均値と、相互作用中心性尺度算出部102eにより算出された相互作用中心性尺度の各薬剤の標的毎の合計値および平均値と、を訓練データとする分類器を用いて、検証対象の化合物が非承認の薬剤に分類される確率である拒否スコアを算出する拒否スコア算出手段である。ここで、検証対象の化合物(薬剤)は、ユーザにより入力部114を介して入力された化合物情報に基づくものであってもよい。

【0058】
また、拒否スコア出力部102gは、拒否スコア算出部102fにより算出された拒否スコアを出力部を介して出力させる拒否スコア出力手段である。ここで、拒否スコア出力部102gは、拒否スコアを表示部112に表示させてもよい。また、拒否スコア出力部102gは、拒否スコアを印刷出力部を介して出力させてもよい。

【0059】
以上で、本実施の形態における承認予測装置100の構成の一例の説明を終える。

【0060】
[承認予測装置100の処理]
次に、このように構成された本実施の形態における承認予測装置100の処理の詳細について、以下に図4乃至図15を参照して詳細に説明する。図4は、本実施の形態における承認予測装置100の処理の一例を示すフローチャートである。

【0061】
図4に示すように、類似性ネットワーク情報格納部102aは、ヒトタンパク質データベース(タンパク質配列情報データベース)106aに記憶された配列情報に基づき、タンパク質のホモログ間の類似点を探索するタンパク質シグネチャベースアルゴリズムを用いてタンパク質同士の類似性が相互に検出された場合、当該相互に類似性が検出されたタンパク質同士で構成されるタンパク質類似性ネットワーク(PSIN)を作成し、当該タンパク質類似性ネットワークに関する類似性ネットワーク情報を類似性ネットワーク情報データベース106bに格納する(ステップSC-1)。ここで、類似したタンパク質を見つけるために、NCBIヒトタンパク質データベースから22000のヒトタンパク質の各々を照会し、比較するPSI-BLASTツール(Schaffer, et al., 2001)を使用した場合、従来の研究(Atkinson, et al., 2009; Camoglu, et al., 2006; Rattei, et al., 2010; Valavanis, et al., 2010; Weston, et al., 2004; Zhang and Grigorov, 2006)とは異なり、相互関連性(すなわち、タンパク質Aを照会してタンパク質Bが類似していることが同定される場合に、その逆のタンパク質Bを照会してタンパク質Aを類似として同定されるということ)を示さないという結果を得た。そこで、この結果を受けて、類似性ネットワーク情報格納部102aは、グラフ理論表現を用いた新しいタンパク質類似性ネットワーク(PSIN)を作成した。ここで、当該タンパク質類似性ネットワーク(PSIN)では、ノードがタンパク質を表しており、タンパク質の配列が高い類似性を有し、且つ、双方向のヒット(すなわち、タンパク質Aがタンパク質Bに類似することが同定される場合、その逆のタンパク質Bがタンパク質Aに類似することが同定されること)が確認されたときにのみ、2つのノードがエッジで接続されている。これにより、類似性ネットワーク情報格納部102aは、19,721ノードおよび776,598エッジを含むタンパク質類似性ネットワーク(PSIN)を作成した。

【0062】
ここで、図5を参照して、本実施の形態における配列情報の一例について説明する。図5は、本実施の形態における配列情報の一例を示す図である。

【0063】
図5に示すように、タンパク質配列情報データベース106aに記憶された配列情報は、P63261、および、P49281等のヒトタンパク質のFASTA形式のタンパク質配列情報であってもよい。

【0064】
また、図6を参照して、本実施の形態における類似性ネットワーク情報の一例について説明する。図6は、本実施の形態における類似性ネットワーク情報の一例を示す図である。

【0065】
図6に示すように、本実施の形態における類似性ネットワーク情報には、タンパク質の名称、当該タンパク質と類似するタンパク質(Neighbours)の名称、配列スコア、および、2つのタンパク質が類似する領域の配列情報を含んでいてもよい。図6においては、Q3MI94とQ9Y473との類似性に関する類似性ネットワーク情報、および、Q9P2V4とQ8N0V4との類似性に関する類似性ネットワーク情報を一例として示している。

【0066】
図4に戻り、類似性中心性尺度算出部102bは、類似性ネットワーク情報データベース106bに記憶された類似性ネットワーク情報に基づき、中心性基準を算出するアルゴリズムを用いて、タンパク質類似性ネットワーク(PSIN)を構成するタンパク質の次数中心性(Degree)、媒介値中心性(Betweenness)、距離の中心性(Closeness Centrality)、および、バートの制約値(Burt’s constraint)を算出する(ステップSC-2)。

【0067】
ここで、本実施形態におけるPSINを構成するタンパク質の中心性尺度について説明する。まず、類似性中心性尺度算出部102bは、PSIN内のノードとどの程度直接つながっているのかを示す指標である次数中心性として、1(最もつながりの少ないもの)から441(最もつながりの多いもの)の範囲で算出している。

【0068】
また、類似性中心性尺度算出部102bは、ノードiとノードjとの間の最短経路の数であるsij、および、ノードvを通過する最短経路の割合であるsij(v)からなる以下の数式(1)を用いて、媒介値中心性B(v)を算出している。
【数1】
JP0005990862B2_000002t.gif

【0069】
また、類似性中心性尺度算出部102bは、ノードvとノードiとの間のステップで表す距離であるd(v,i)からなる以下の数式(2)を用いて、距離の中心性C(v)を算出している。
【数2】
JP0005990862B2_000003t.gif

【0070】
また、類似性中心性尺度算出部102bは、ノードjとノードiとの関係の比例強度、および、ノードjとノードqとの関係の比例強度の積であるpiqqjからなる以下の数式(3)を用いて、バートの制約値C(i)を算出している。
【数3】
JP0005990862B2_000004t.gif

【0071】
ここで、図7を参照して、本実施の形態におけるバートの制約値について説明する。図7は、本実施の形態におけるバートの制約の一例を示す図である。

【0072】
バートの制約値は、グループ内の個人の位置関係と利点とを学習する社会学的文脈で提案された手法であり、図7においてノードが個人であるとすると、図7左図において、すべてのノードには代替接続があるので、他人との交渉および取引をすることができる。一方、図7右図のように、構造的な穴(Structural hole)が存在する場合、ノード2とノード3との間では互いの存在を認識できないため、ノード1が交渉に有利な位置にあることになる。これを、本実施の形態においては、タンパク質であるノードの類似のコンテキストに適用することで、小さなバートの制約値を持つタンパク質(ノード)は、一般的に異なるタンパク質ファミリーの間に位置する複数のドメインを有するものとなり、大きなバートの制約値を持つタンパク質(ノード)は、わずかな隣接タンパク質と配列類似性と示すものとなる。

【0073】
また、図8を参照して、本実施の形態におけるタンパク質の中心性尺度の一例を説明する。図8は、本実施の形態におけるタンパク質の中心性尺度の一例を示す図である。

【0074】
図8に示すように、類似性中心性尺度算出部102bは、PSINを構成するタンパク質(P14784、P14854、P14859、P14867、P14868、P14902、および、P14920)の中心性尺度として、次数中心性(Degree)、媒介値中心性(Betweenness)、距離の中心性(Closeness Centrality)、および、バートの制約値(Burt’s constraint)を算出し、当該中心性尺度のリストを出力してもよい。

【0075】
図4に戻り、承認判定部102cは、タンパク質類似性ネットワークを構成する、薬剤標的データベース106cに記憶されたタンパク質情報に基づくタンパク質を標的とする薬剤の承認属性に基づき、当該タンパク質類似性ネットワークを構成する検証対象のタンパク質が、承認された薬剤、または、非承認の薬剤の標的の範囲に含まれるか否かの判定結果(標的タンパク質の安全性)を、ステップSC-2にて類似性中心性尺度算出部102bにより算出された当該検証対象のタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を用いて取得する(ステップSC-3)。すなわち、承認判定部102cは、タンパク質類似性ネットワークを構成するタンパク質の中心性尺度、および、薬剤標的データベース106cに記憶されたリストを必要とし、薬剤標的の承認、または、非承認(撤回(Withdraw)、および、却下(Illicit))と仮定できる値の範囲を決定してもよい。ここで、当該ステップにおいては、個々のタンパク質だけを考慮し、化合物の標的可能なタンパク質全セットは考慮しない。また、個々の薬剤ターゲットの特性を先に決定するのは、単一標的の化合物(魔法の弾丸(magic bullet))、または、siRNAベースの治療法等が単一標的のみを阻害するように設計されているため、標的の治療抑制が安全であるという前提で、標的の選択がなされる必要があるからである。

【0076】
また、承認判定部102cは、タンパク質類似性ネットワークを構成する、薬剤標的データベース106cに記憶されたタンパク質情報に基づくタンパク質を標的とする薬剤の承認属性に基づき、ステップSC-2にて類似性中心性尺度算出部102bにより算出された検証対象のタンパク質の類似性中心性尺度に含まれる次数中心性が高く、距離の中心性が低く、バートの制約値が非常に低い場合、検証対象のタンパク質が、非承認の薬剤の標的の範囲に含まれるという判定結果を生成してもよい。

【0077】
ここで、図9を参照して、本実施の形態における薬剤標的データベース106cに記憶される情報の一例について説明する。図9は、本実施の形態における薬剤標的データベース106cに記憶される情報の一例を示す図である。

【0078】
図9に示すように、本実施の形態における薬剤標的データベース106cに記憶される情報には、薬剤名称(Drug)、当該薬剤の標的となるタンパク質の名称(Targets)、および、(日本の厚生労働省、または、米国のFDA等による)当該薬剤の承認、または、非承認に関する承認属性(Status)が含まれていてもよい。

【0079】
ここで、図10を参照して、本実施の形態における承認または非承認の薬剤の標的の中心性尺度の一例について説明する。図10は、本実施の形態における承認または非承認の薬剤の標的の中心性尺度の一例を示す図である。

【0080】
図10に示すように、非承認(問題のある)薬剤の標的タンパク質は、承認薬剤の標的タンパク質よりも、高い次数中心性(Degree)、非常に低いバートの制約値(Burt’s constraint)、および、負の対数スケールにおいて低い距離の中心性(Closeness Centrality)を示していてもよい。図10に示すように、承認薬剤の標的では、他の多くのタンパク質と構造共有度が低いが(low-degree)、非承認の標的では、複数のタンパク質間での構造共有が高いことから、非承認薬物の標的は、非特異的な結合および副作用を起こしやすいという特徴を持っていることがわかる。

【0081】
図4に戻り、判定結果出力部102dは、承認判定部102cにより取得された標的タンパク質の安全性を表示部112に表示させる(ステップSC-4)。ここで、判定結果出力部102dは、判定結果を印刷出力部を介して出力させてもよい。また、判定結果出力部102dは、ユーザが興味のあるタンパク質が、安全な薬剤標的の範囲内にあるか危険な薬剤標的の範囲内にあるかどうかを確認のために照会可能なリストを出力してもよい。

【0082】
一方、相互作用中心性尺度算出部102eは、相互作用ネットワーク情報データベース106dに記憶された相互作用ネットワーク情報に基づき、タンパク質間相互作用ネットワーク(PPI)を構成するタンパク質の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値を算出する(ステップSC-5)。

【0083】
ここで、図11を参照して、本実施の形態における相互作用ネットワーク情報の一例について説明する。図11は、本実施の形態における相互作用ネットワーク情報の一例を示す図である。

【0084】
図11に示すように、本実施の形態における相互作用ネットワーク情報は、物理的に相互作用するタンパク質同士を組としたタンパク質リストを含んでいてもよい。

【0085】
図4に戻り、拒否スコア算出部102fは、薬剤標的データベース106cに記憶された各薬剤の承認属性と、ステップSC-2にて類似性中心性尺度算出部102bにより算出された次数中心性、媒介値中心性、距離の中心性、および、バートの制約値の各薬剤の標的毎の合計値および平均値と、ステップSC-5にて相互作用中心性尺度算出部102eにより算出された次数中心性、媒介値中心性、距離の中心性、および、バートの制約値の各薬剤の標的毎の合計値および平均値と、を訓練データとする機械学習の分類器を用いて、検証対象の化合物が非承認の薬剤に分類される確率である拒否スコアを算出する(ステップSC-6)。ここで、薬剤標的データベース106cでは、ほとんどの既存の薬剤(化合物)は、一度に複数のタンパク質に結合してその活性を阻害する、すなわち、複数の薬剤標的が報告されているため、各化合物について標的となるすべてのタンパク質の中心性尺度を考慮する必要がある。そこで、拒否スコア算出部102fは、タンパク質類似性ネットワーク(PSIN)、および、タンパク質相互作用ネットワーク(PPI)を使用して、各薬剤について標的毎の次数中心性、媒介値中心性、距離の中心性、および、バートの制約値の合計および平均を算出し、PSINから8属性、PPIから8属性、および、化合物(承認または非承認)のクラスを示す1属性を分類器に入力する最終データセットとして用いている。ここで、機械学習の分類器は、WEKA等の既存のパッケージ(Wishart,2006)などの機械学習の分類器のセットであってもよい。

【0086】
なお、本実施の形態においては、トレーニング、および、予測ステップのガイドとして、機械学習の分類と薬剤分類(承認、または、非承認)を用いて、最終データセットを10倍クロス検証法を使用して処理した。さらに、本実施の形態においては、いくつかの異なる分類アルゴリズムを使用してこの手順を実行し、前処理技術の使用、および、同じデータセットに対しタンパク質類似性ネットワーク(PSIN)からの中心性尺度と、タンパク質相互作用ネットワーク(PPI)からの中心性尺度の使用の2つのケースで予測のパフォーマンスが強化されていることを確認した。

【0087】
ここで、本実施の形態における前処理は、下記の三つのステップで行ってもよい。最初に、合成したデータセットの他のインスタンスの手段およびモードで欠損値を充填し、第二に、より小さいクラスのインスタンスの数を拡大し、最後に、データセットをサンプリングしてもよい。本実施の形態におけるデータセットにおいては、承認された薬剤標的クラスと最大300例の非承認(問題のある)薬剤標的クラスの複数のインスタンスから構成されているため、より小さいクラスに対する標本からサンプルを多く集める必要がある。そのため、新規化合物の開発コストを鑑みれば、承認された薬剤が問題のある薬剤と誤分類されることで生じる不都合は、問題のある薬剤を承認された薬剤として誤分類することで引き起こされる不都合よりも小さいため、本実施の形態においては、小さなクラスを多く集め、大規模なクラスを少なくサンプリングするためにSMOTEアルゴリズムを使用してもよい。このような戦略は、様々なサイズを含むデータセットでの分類器の性能を向上させることになる。また、2番目のステップであるリサンプリングを実行するには、データセットからランダムにインスタンスを選択、すなわち、同じインスタンスが二回選択することができてもよい。更に、新しいデータセットには、オリジナルのデータセットと同じインスタンス数および属性の数があってもよく、50から60の一意のインスタンスであってもよい。

【0088】
ここで、図12を参照して、本実施の形態における分類器の性能改善の一例について説明する。図12は、本実施の形態における分類器の性能改善の一例を示す図である。

【0089】
図12に示すように、本実施の形態における分類器においては、前処理技術の使用、および、同じデータセットに対しPSINからの中心性尺度と、PPIからの中心性尺度の使用をすることで、問題のある薬剤クラスに対する分類器の感度をかなり向上させることができることを示している。

【0090】
更に、本実施の形態においては、三つの異なる戦略を使用した15機械学習の分類器の予測力を比較した。最初の方法では、10倍交差検証を用いて比較した。また、第二の方法では、元のデータセットを、インスタンスの70/100と35/100とでそれぞれ設定したトレーニングセットとテストセットとに分割して比較した。本実施の形態においては、元のデータセットから、500回以上ランダムに薬剤を選択して、偏りがないように調整した。また、トレーニングセットとテストセットとにデータセットを分割する際、トレーニングセットのみを事前処理した。

【0091】
ここで、図13を参照して、本実施の形態における分類器の分類精度の一例について説明する。図13は、本実施の形態における分類器の分類精度の一例を示す図である。

【0092】
図13に示すように、本実施の形態における分類器の現実的な精度測定には、薬剤の承認クラス、または、問題のあるクラスに対する、真陽性率の調和平均(harmonic mean of the true positive rates)を用いた。ここで、図13に示すように、(パラメータの最適化、および、前処理技術の使用により)ほとんどすべての分類子(分類器)が同様の性能を持っていたため、本実施の形態においては、更なる医薬品の安全性予測のために、すべてのアルゴリズムが必然的に持っているバイアスを補正することを目的として、異なる原理を使用して構築された7つの最高の性能を発揮するアルゴリズム(KSTAR、IBK、Decorate、END ClassBalancedND、JRip、または、RotationForest等)を使用した。

【0093】
また、図14を参照して、本実施の形態における分類器の一例について説明する。図14は、本実施の形態における分類器の一例を示す図である。

【0094】
図14に示すように、元のデータセットの調整の有無にかかわらず、KStar、Decorate、Rotation Forest、および、Random Forestが最高のパフォーマンスを示すことを確認したので、本実施の形態においては、これらベスト4のアルゴリズムを更なる分析に使用した。テストフェーズでは、分類器がこれまで検出されていないインスタンスを分類する際、これらの7つの最適なアルゴリズムは、各薬剤が問題のあるクラスに属する確率を算出し、算出した確率を使用して、拒否スコア(RS)という名前のインデックスを作成した。ここで、本実施の形態においては、反対調和平均(contra harmonic mean)を用いて、これらの確率を平均した値をRSとしてもよい。RSの値は、化合物が安全(RSが0.0に近い)、または、有害(RSが1.0に近い)であるかを予測しているかを示唆していてもよい。

【0095】
図4に戻り、拒否スコア出力部102gは、拒否スコア算出部102fにより算出された化合物の拒否スコアを表示部112に表示させ(ステップSC-7)、処理を終了する。ここで、拒否スコア出力部102gは、化合物の拒否スコアを印刷出力部を介して出力させてもよい。

【0096】
ここで、図15を参照して、本実施形態における出力情報の一例について説明する。図15は、本実施形態における出力情報の一例を示す図である。

【0097】
図15に示すように、拒否スコア出力部102gは、薬剤とそれぞれの拒否スコア(0.00-1.00の間の値)とのリストを出力してもよい。ここで、問題のある薬剤は1.00に近いスコア値を持っているが、承認薬剤は0.00に近いスコアを持っている。また、図15は、Drugbankデータベースから得られた既存の薬剤を入力して得られた一例を示している。このように、ユーザが興味のある薬剤候補となる化合物を入力することで、標的タンパク質と化合物との拒否スコアを確認することができる。なお、本実施の形態による手法を用いることで、既存の1000の承認薬と非承認薬との間で正確に区別することに成功し、本手法の有効性を確認した。

【0098】
以上で、本実施の形態における承認予測装置100の処理の一例の説明を終える。

【0099】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。

【0100】
例えば、承認予測装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、承認予測装置100は、クライアント端末(承認予測装置100とは別筐体である)からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するようにしてもよい。

【0101】
また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

【0102】
このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

【0103】
また、承認予測装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。

【0104】
例えば、承認予測装置100の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、後述する、コンピュータに本発明に係る方法を実行させるためのプログラム化された命令を含む、一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて承認予測装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。

【0105】
また、このコンピュータプログラムは、承認予測装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

【0106】
また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD-ROM、MO、DVD、および、Blu-ray Disc等の任意の「可搬用の物理媒体」を含むものとする。

【0107】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

【0108】
記憶部106に格納される各種のデータベース等(タンパク質配列情報データベース106a、類似性ネットワーク情報データベース106b、薬剤標的データベース106c、および、相互作用ネットワーク情報データベース106d)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。

【0109】
また、承認予測装置100は、既知のデスクトップ型またはノート型のパーソナルコンピュータ、携帯電話、スマートフォン、PHS、およびPDA等の携帯端末装置、ならびに、ワークステーション等の情報処理装置として構成してもよく、また、該情報処理装置に任意の周辺装置を接続して構成してもよい。また、承認予測装置100は、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。

【0110】
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施の形態を任意に組み合わせて実施してもよく、実施の形態を選択的に実施してもよい。
【産業上の利用可能性】
【0111】
以上詳述に説明したように、本発明によれば、医薬品の承認または拒否の可能性を定量化することができる承認予測装置、承認予測方法、および、プログラムを提供することができるので、特に医療、製薬、創薬、および、生物学研究などの様々な分野において極めて有用である。
【符号の説明】
【0112】
100 承認予測装置
102 制御部
102a 類似性ネットワーク情報格納部
102b 類似性中心性尺度算出部
102c 承認判定部
102d 判定結果出力部
102e 相互作用中心性尺度算出部
102f 拒否スコア算出部
102g 拒否スコア出力部
104 通信制御インターフェース部
106 記憶部
106a タンパク質配列情報データベース
106b 類似性ネットワーク情報データベース
106c 薬剤標的データベース
106d 相互作用ネットワーク情報データベース
108 入出力制御インターフェース部
112 表示部
114 入力部
200 外部システム
300 ネットワーク
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図13】
10
【図14】
11
【図15】
12
【図11】
13
【図12】
14