TOP > 国内特許検索 > 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム > 明細書

明細書 :立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2020-123189 (P2020-123189A)
公開日 令和2年8月13日(2020.8.13)
発明の名称または考案の名称 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
国際特許分類 G16B  15/30        (2019.01)
G06T   7/00        (2017.01)
G01N  33/50        (2006.01)
G01N  33/15        (2006.01)
FI G16B 15/30
G06T 7/00 350B
G01N 33/50 Z
G01N 33/15 Z
請求項の数または発明の数 14
出願形態 OL
全頁数 18
出願番号 特願2019-015086 (P2019-015086)
出願日 平成31年1月31日(2019.1.31)
発明者または考案者 【氏名】関嶋 政和
【氏名】依田 洸
【氏名】安尾 信明
出願人 【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
個別代理人の代理人 【識別番号】100095407、【弁理士】、【氏名又は名称】木村 満
【識別番号】100174067、【弁理士】、【氏名又は名称】湯浅 夏樹
【識別番号】100177149、【弁理士】、【氏名又は名称】佐藤 浩義
【識別番号】100208410、【弁理士】、【氏名又は名称】岩瀬 寛司
【識別番号】100209794、【弁理士】、【氏名又は名称】三瓶 真弘
審査請求 未請求
テーマコード 2G045
5L096
Fターム 2G045AA40
2G045JA03
5L096BA08
5L096BA18
5L096CA05
5L096EA39
5L096KA04
5L096KA15
要約 【課題】蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させる。
【解決手段】判定装置100は、第1の物質と第2の物質の結合の立体構造を複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成部11と、画像セットに含まれる1枚の画像を入力すると1枚の画像に投影されている立体構造に係る結合の所定の性質の有無を判別する判別器13と、判別器13に画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を画像セットに含まれる全ての画像について集計した値に基づいて画像セットに含まれる画像に投影されている立体構造に係る結合の性質の有無を判定する総合判定部15と、を備える。
【選択図】図1
特許請求の範囲 【請求項1】
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
前記画像セットに含まれる1枚の画像を入力すると、前記1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別器と、
前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定手段と、
を備える立体構造判定装置。
【請求項2】
前記画像生成手段は、蛋白質とリガンドの結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成し、
前記判別器は、前記画像セットに含まれる1枚の画像を入力すると、前記1枚の画像に投影されている前記立体構造に係る前記結合の活性の有無を判別し、
前記総合判定手段は、前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の活性の有無を判定する、
請求項1に記載の立体構造判定装置。
【請求項3】
前記画像生成手段は、蛋白質とリガンドの結合の立体構造を全周網羅的な複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
請求項2に記載の立体構造判定装置。
【請求項4】
前記画像生成手段は、蛋白質とリガンドの結合の立体構造を、前記蛋白質のサーフェスを有りにして生成し、前記サーフェスの無い側からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
請求項2又は3に記載の立体構造判定装置。
【請求項5】
前記総合判定手段は、3D Average Poolingを用いて前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する、
請求項1から4のいずれか1項に記載の立体構造判定装置。
【請求項6】
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップと、
前記画像セットに含まれる1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別ステップと、
前記判別ステップで前記画像セットに含まれる複数枚の画像のそれぞれに投影されている前記立体構造に係る前記結合の前記性質の有無を判別した結果を前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定ステップと、
を含む立体構造判定方法。
【請求項7】
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
前記結合の所定の性質の有無を取得する性質取得手段と、
前記結合のそれぞれについて、前記画像生成手段が生成した画像セットに含まれる画像と前記性質取得手段が取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習手段と、
を備える立体構造の判別器学習装置。
【請求項8】
前記画像生成手段は、蛋白質とリガンドの結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成し、
前記性質取得手段は、前記結合の活性の有無を取得し、
前記学習手段は、前記結合のそれぞれについて、前記画像生成手段が生成した画像セットに含まれる画像と前記性質取得手段が取得した活性の有無とを教師データとして、前記結合の活性の有無を判別する判別器を学習させる、
請求項7に記載の立体構造の判別器学習装置。
【請求項9】
前記画像生成手段は、蛋白質とリガンドの結合の立体構造を全周網羅的な複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
請求項8に記載の立体構造の判別器学習装置。
【請求項10】
前記画像生成手段は、蛋白質とリガンドの結合の立体構造を、前記蛋白質のサーフェスを有りにして生成し、前記サーフェスの無い側からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
請求項8又は9に記載の立体構造の判別器学習装置。
【請求項11】
前記学習手段は、重み付きクロスエントロピー関数を用いて前記判別器を学習させる、
請求項7から10のいずれか1項に記載の立体構造の判別器学習装置。
【請求項12】
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップと、
前記結合の所定の性質の有無を取得する性質取得ステップと、
前記結合のそれぞれについて、前記画像生成ステップで生成した画像セットに含まれる画像と前記性質取得ステップで取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習ステップと、
を備える立体構造の判別器学習方法。
【請求項13】
コンピュータに、
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップ、
前記画像セットに含まれる1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別ステップ、及び、
前記判別ステップで前記画像セットに含まれる複数枚の画像のそれぞれに投影されている前記立体構造に係る前記結合の前記性質の有無を判別した結果を前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定ステップ、
を実行させるためのプログラム。
【請求項14】
コンピュータに、
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップ、
前記結合の所定の性質の有無を取得する性質取得ステップ、及び、
前記結合のそれぞれについて、前記画像生成ステップで生成した画像セットに含まれる画像と前記性質取得ステップで取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習ステップ、
を実行させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラムに関する。
【背景技術】
【0002】
創薬の初期段階においては、薬剤の標的となる蛋白質に結合する化合物、ペプチド、蛋白質、核酸等のリガンドを発見する必要がある。このようなリガンドを発見するスクリーニング手法の1つとして、蛋白質とリガンドのドッキングシミュレーションがある。そして、ドッキングシミュレーションの精度を向上させる技術の開発も進められている。例えば、特許文献1には、従来のドッキングシミュレーションよりも高精度なスクリーニングを実現するドッキングスコアリング方法が開示されている。
【先行技術文献】
【0003】

【特許文献1】特開2005-181104号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1には、蛋白質の立体構造を基に結合部分の電子状態の計算を行った後に、化学シフト値の解析を行い、化学シフト値から結合残基の決定および結合強さの比較を行うことにより高精度なスクリーニングを実現できることが記載されている。しかし、スクリーニングの対象となるリガンドの数が膨大であることを考えると、特許文献1や従来のドッキングシミュレーションの精度はまだ不十分である。
【0005】
本発明は、上記問題を解決するためになされたものであり、蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させることのできる立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明に係る立体構造判定装置は、
第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
前記画像セットに含まれる1枚の画像を入力すると、前記1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別器と、
前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定手段と、
を備える。
【発明の効果】
【0007】
本発明によれば、蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させることができる。
【図面の簡単な説明】
【0008】
【図1】実施形態1に係る判定装置の機能構成を示す図である。
【図2】蛋白質とリガンドとの結合(ドッキング)を説明する図である。
【図3】実施形態1に係る画像生成部が蛋白質とリガンドのドッキング構造の画像を全周網羅的に生成する様子を説明する図である。
【図4】畳み込みニューラルネットワーク(CNN)の処理概要を説明する図である。
【図5】実施形態1に係る学習処理のフローチャートである。
【図6】実施形態1に係る画像生成処理のフローチャートである。
【図7】実施形態1に係る判定処理のフローチャートである。
【図8】3D average poolingの処理概要を説明する図である。
【図9】変形例1に係る画像生成部が蛋白質とリガンドのドッキング構造の画像を生成する様子を説明する図である。
【図10】変形例1に係る画像生成処理のフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態に係る蛋白質・リガンド結合判定装置、蛋白質・リガンド結合の判別器学習装置等について、図表を参照して説明する。なお、図中同一又は相当部分には同一符号を付す。

【0010】
(実施形態1)
実施形態1に係る判定装置100は、蛋白質・リガンド結合の判別器学習装置としては、活性が既知の蛋白質・リガンド結合のドッキング構造の画像を大量に用いて、判別器を学習させて学習モデルを取得する。そして、判定装置100は、蛋白質・リガンド結合判定装置としては、学習済みの判別器(学習モデル)に、活性が未知の蛋白質・リガンド結合のドッキング構造の画像を入力することにより、当該活性が未知の蛋白質・リガンド結合の活性の有無を判定する。このような判定装置100について、以下に説明する。

【0011】
実施形態1に係る判定装置100は、図1に示すように、制御部10、記憶部20、出力部31、通信部32、操作入力部33、を備える。

【0012】
制御部10は、CPU(Central Processing Unit)等で構成され、記憶部20に記憶されたプログラムを実行することにより、後述する各部(画像生成部11、活性取得部12、判別器13、判別器学習部14、総合判定部15)の機能を実現する。

【0013】
記憶部20は、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成され、制御部10のCPUが実行するプログラムや必要なデータを記憶する。また、記憶部20は、蛋白質・リガンド結合の活性の有無が記録された活性DB(Database)を記憶していてもよい。

【0014】
出力部31は、蛋白質・リガンド結合の判定結果等を出力するためのデバイスである。例えば、出力部31は、液晶ディスプレイや有機EL(Electoro-Luminescence)ディスプレイである。ただし、判定装置100は、出力部31としてこれらディスプレイを備えてもよいし、外部のディスプレイを接続するためのインタフェースとしての出力部31を備えてもよい。判定装置100は、インタフェースとしての出力部31を備える場合は、出力部31を介して接続した外部のディスプレイに判定結果等を表示する。

【0015】
通信部32は、外部の他の装置(例えば、蛋白質・リガンド結合の活性の有無が記録された活性DBが格納されているサーバ等)とデータの送受信を行うためのデバイス(ネットワークインタフェース等)である。判定装置100は、通信部32を介して様々なデータを取得することができる。

【0016】
操作入力部33は、判定装置100に対するユーザの操作入力を受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル等である。判定装置100は、操作入力部33を介して、ユーザからの指示等を受け付ける。

【0017】
次に、制御部10の機能について説明する。制御部10は、記憶部20に記憶されているプログラムを実行することにより、画像生成部11、活性取得部12、判別器13、判別器学習部14、総合判定部15の機能を実現する。

【0018】
画像生成部11は、蛋白質の種類とリガンドの種類とが与えられると、ドッキングシミュレーションにより、与えられた蛋白質及びリガンドの立体的なドッキング構造を得て、ドッキング構造をその周囲の様々な角度からの視点で2次元平面に投影した画像を生成する。ドッキングシミュレーションでは、図2に示すように、与えられた蛋白質211とリガンド212とから、これらが結合した立体構造(ドッキング構造213)が得られる。そして、画像生成部11は、図3に示すように、このドッキング構造213を周囲のカメラ311から様々な角度(θ、φ)で全周(360°)網羅的に撮影したかのような画像を生成する。実際には、画像生成部11は、カメラ311で撮影するのではなく、ドッキング構造から3Dイメージを作成し、その3Dイメージを様々な方向からの視点で2次元平面に投影して得られる画像を生成する。

【0019】
具体的には、ドッキングシミュレーションでドッキング構造を得るソフトウェアとしては、例えばGlideを用いることができる。また、ドッキング構造から3Dイメージを作成するソフトウェアとしては、例えばPyMOLを用いることができる。ただし、これらのソフトウェアは一例に過ぎず、ドッキング構造の周囲から様々な角度の視点で2次元平面に投影して得られる画像を生成できるのであれば、任意のソフトウェアを用いることができる。なお、ドッキングにおいて水素結合が重要と考えられることから、画像生成部11は、水素結合を強調表示した画像を生成してもよい。また、画像生成部11は、水素結合に限らず、判定装置100が判定する結合の性質に重要な役割を果たすと考えられる結合等を強調表示した画像を生成してもよい。画像生成部11は、画像生成手段として機能する。

【0020】
活性取得部12は、蛋白質の種類とリガンドの種類とが与えられると、蛋白質・リガンド結合の活性の有無が記録された活性DB(Database)を参照して、与えられた蛋白質とリガンドの結合の活性の有無を取得する。このような活性DBとしては、例えば、DUD-Eを用いることができる。活性取得部12は、性質取得手段として機能する。

【0021】
判別器13は、蛋白質・リガンド結合の画像が与えられるとその活性の有無を出力する、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)による判別器である。CNNによる判別器を実現するプログラムを制御部10が実行することにより、制御部10は判別器13として機能する。判別器13は、図4に示すように、入力層111に与えられた入力画像に、畳み込み処理(畳み込みフィルタ121,123の走査)やプーリング処理(プーリングウィンドウ122,124の走査)を行って徐々にサイズの小さな特徴マップ112,113,114,115,116を算出していき、特徴マップ116から全結合接続125を経て、最終的に出力層119から、判別結果を示す2次元ベクトルを得る。なお、特徴マップ116は、出力層119からの出力(判別結果)に直接影響を与える1次元ベクトルなので、ここでは判別ベクトルと呼ぶことにする。

【0022】
判別器学習部14は、蛋白質・リガンド結合の画像とその蛋白質・リガンド結合の活性の有無とからなる教師データを大量に用いて、判別器13を学習させる。ただし、通常、活性DBに記録されている蛋白質・リガンド結合のサンプルの活性の有無は著しく不均衡であり、活性が無いものの方が、活性があるものに比べて格段に多い。このため、普通に学習させると、真の活性の有無にかかわらず、全て「活性無し」と判別する判別器13になってしまう可能性がある。そこで、判別器学習部14は、活性有りの蛋白質・リガンド結合を活性無しと判別した場合のペナルティが大きくなるような、重み付きの誤差関数を用いて判別器13を学習させる。これにより、判別器学習部14は、活性の有無の不均衡の影響をできるだけ受けずに判別器13を学習させることができる。判別器学習部14は、学習手段として機能する。

【0023】
具体的には、判別器学習部14は、以下の式(1)で表されるような、重み係数Wposを用いた重み付きクロスエントロピー関数で算出される誤差Eを誤差逆伝播させることにより、判別器13を学習させる。
【数1】
JP2020123189A_000003t.gif
pos=(活性無しサンプルの個数)/(活性有りサンプルの個数)
n:サンプルの個数
(i):i番目のサンプルで作成した画像データを入力した時の判別器13の出力
(i):i番目のサンプルの真の活性の有無

【0024】
総合判定部15は、活性が未知の蛋白質・リガンド結合について、画像生成部11で生成した複数の画像の1枚1枚を判別器13に入力して得られる出力を、画像生成部11で生成した全ての画像について集計した値に基づいて、当該蛋白質・リガンド結合の活性の有無を判定する。総合判定部15は、総合判定手段として機能する。

【0025】
以上、判定装置100の機能構成について説明した。次に、判定装置100が行う学習処理について、図5を参照して説明する。学習処理は、操作入力部33を介して、ユーザにより、判定装置100に対して学習処理の開始が指示されると開始される。

【0026】
まず、制御部10は、活性DBに登録されている蛋白質とリガンドとから、学習データとして用いたいもの(蛋白質とリガンドのペア)を任意の数抽出し、それぞれについてドッキングシミュレーションを行って、抽出した蛋白質とリガンドのペアの数の蛋白質・リガンド結合のドッキング構造を取得する(ステップS101)。

【0027】
次に、制御部10は、ステップS101で得られた蛋白質・リガンド結合のドッキング構造のうち、学習用データとして用いたいデータを抽出する(ステップS102)。ここでは、ステップS101で取得した全てのドッキング構造を学習用データとしてもよいし、一部を学習用データとし、残りを評価用データとしてもよい。

【0028】
次に、画像生成部11は、学習用データとして抽出されたドッキング構造から3Dイメージを作成し、これを様々な角度から全周網羅的に撮影(2次元平面に投影)した学習用画像の集合(学習用の画像セット)を生成する(ステップS103)。ステップS103は、画像生成ステップと呼ばれる。ステップS103の処理(画像生成処理)の詳細については、後述する。

【0029】
次に、活性取得部12は、ステップS103で生成した各画像に対応する(当該画像に写っている)蛋白質及びリガンドについて活性DBを参照して蛋白質・リガンド結合の活性の有無を取得する(ステップS104)。ステップS104は性質取得ステップと呼ばれる。

【0030】
次に、判別器学習部14は、当該画像と活性の有無とからなる教師データを生成する(ステップS105)。この時、ステップS103で生成した各画像をランダムに0°、90°、180°、270°と回転させたものを用いて教師データを生成してもよい。そして、判別器学習部14は、ステップS105で生成した教師データを用いて、判別器13を学習させ(ステップS106)、学習処理を終了する。ステップS106は学習ステップと呼ばれる。

【0031】
次に、ステップS103で行われる画像生成処理について図6を参照して説明する。画像生成処理は、Nθ及びNφを引数にとる。これらは、撮影する角度(2次元平面に投影する際の視点の角度)を、図3に示すθの方向にNθ分割、φの方向にNφ分割することを意味し、画像生成処理では、合計Nθ×Nφ枚の画像が生成される。

【0032】
まず、画像生成部11は、θ方向のインデックスを表す変数iを0に初期化する(ステップS201)。そして、角度θに(360°×i)/Nθをセットする(ステップS202)。

【0033】
次に、画像生成部11は、φ方向のインデックスを表す変数jを0に初期化する(ステップS203)。そして、角度φに(360°×j)/Nφをセットする(ステップS204)。

【0034】
そして、画像生成部11は、図3に示すような(θ,φ)の方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS205)。そして、画像生成部11は、変数jをインクリメントし(ステップS206)、変数jがNφ未満であるか否かを判定する(ステップS207)。

【0035】
変数jがNφ未満であるなら(ステップS207;Yes)、ステップS204に戻る。変数jがNφ以上であるなら(ステップS207;No)、画像生成部11は、変数iをインクリメントし(ステップS208)、変数iがNθ未満であるか否かを判定する(ステップS209)。

【0036】
変数iがNθ未満であるなら(ステップS209;Yes)、ステップS202に戻る。変数iがNθ以上であるなら(ステップS209;No)、画像生成処理を終了する。

【0037】
以上説明した学習処理(図5)及び画像生成処理(図6)により、判別器13は学習され、判別器13に活性が未知の蛋白質・リガンド結合の画像を入力すると、その蛋白質・リガンド結合の活性の有無を出力するようになる。判定装置100では、上述したように、蛋白質・リガンド結合のドッキング構造について全周(360°)網羅的に様々な視点からの画像を生成し、この全周網羅的画像のそれぞれを用いて判別器13を学習させる。したがって、学習後の判別器13のCNNは、ドッキング構造の立体的な特徴が抽出された学習モデルとなる。

【0038】
次に、このようにして得られた判別器13を用いて活性が未知の蛋白質・リガンド結合の判定を行う判定処理について、図7を参照して説明する。判定処理は、操作入力部33を介して、ユーザにより、判定装置100に対して判定処理の開始が指示されると開始される。この判定処理の開始の指示の際、ユーザは、判定する蛋白質の種類及びリガンドの種類を判定装置100に入力する。

【0039】
まず、制御部10は、ユーザから入力された蛋白質とリガンドについてドッキングシミュレーションを行って、蛋白質・リガンド結合のドッキング構造を取得する(ステップS301)。

【0040】
次に、画像生成部11は、ステップS301で取得されたドッキング構造から3Dイメージを作成し、これを様々な角度から全周網羅的に撮影(2次元平面に投影)したNθ×Nφ枚の判定用画像の集合(判定用の画像セット)を生成する(ステップS302)。この処理は前述の画像生成処理(図6)と同じであり、ステップS302も画像生成ステップと呼ばれる。

【0041】
次に、総合判定部15は、ステップS302で生成された判定用画像のそれぞれを判別器13に入力し、CNNの最終のアベレージプーリング層の直前の特徴マップ115を判定用画像の枚数分、取得する(ステップS303)。ステップS303は判別ステップと呼ばれる。

【0042】
そして、総合判定部15は、図8に示すように、ステップ303で得られた特徴マップ115を全て用いて総合特徴マップ117を生成し、その総合特徴マップ117にアベレージプーリングを行う(ステップS304)。この処理は、通常の(2次元の)アベレージプーリングを、全周網羅的に撮影(2次元平面に投影)したNθ×Nφ枚の画像の方向にも行う処理(次元が1つ追加されるアベレージプーリング処理)であるので、3D average pooling処理という。

【0043】
そして、総合判定部15は、3D average pooling処理後の出力層119からの出力に基づいて、蛋白質・リガンド結合の活性の有無を判定し(ステップS305)、判定処理を終了する。ステップS305は、総合判定ステップと呼ばれる。

【0044】
3D average pooling処理について、図8を参照して補足説明する。まず、ステップS302で、判定用画像がNθ×Nφ枚が得られるが、n=Nθ×Nφとすると、ステップS303で判定用画像のそれぞれ(n枚)を判別器13の入力層111に入力する。すると、判別器13のCNNの内部で、最終のアベレージプーリング層の直前の特徴マップ115がn枚得られる。ただし、これは同時並行に行う必要はなく、1つの判別器13(CNN)を順次n回使って、特徴マップ115をn枚得ればよい。

【0045】
特徴マップ115のそれぞれは複数(図8では2048)のチャネルを持つが、n枚の特徴マップ115のそれぞれの第m番目のチャネルを集めて平均したものを、第m番目のチャネルに割り当てて総合特徴マップ117を算出する。そして、このように得られた総合特徴マップ117をアベレージプーリング処理して特徴マップ116を得る。これが3D average pooling処理である。そして、特徴マップ116から、全結合接続125を経て出力層119の出力を得る。

【0046】
このように処理することにより、単一の画像を判別器13に入力して得られる出力(判別器13による判別結果)よりも、格段に判定精度の良い判定結果を得ることができる。3D average pooling処理によって得られる特徴マップ116は、総合特徴マップ117に基づくものであり、また、出力層119からの出力(判別結果)に直接影響を与える1次元ベクトルなので、総合判別ベクトルと呼ぶことにする。

【0047】
実際に実験した結果を以下に示す。この実験では、ドッキングシミュレーションにGlide、ドッキング構造の画像生成にPyMol、活性DBにDUD-Eを用い、DUD-E Diverse subsetにおける8種類の蛋白質を実験対象にした。そして、学習処理(図5)の学習用データ抽出(ステップS102)においては、ステップS101で取得したドッキング構造のうちの70%を学習用データとして抽出し、残りの30%を評価用データとした。また、画像の入力サイズは224とし、判別器13のCNNとしてはResNet-50を用いた。そして、学習時のバッチ数は128とし、バッチごとにランダムに画像を0°、90°、180°、270°と右回転させて学習を行った。

【0048】
表1は、画像生成処理において、Nθ=7、Nφ=7として、49枚の画像を生成した場合の判定装置100と、Glideとの判定結果の比較である。また、表2は、Nθ=9、Nφ=9として、81枚の画像を生成した場合の判定装置100と、Glideとの判定結果の比較である。

【0049】
なお、評価指標の「AUC」は、ROC(Receiver Operating Characteristic)曲線下の面積であるAUC(Area Under the receiver operator Curve)の値である。また、「EF1%」は、以下の式(2)で表される指標EF(Enrichment Factor)である。これは、活性のあるリガンドを上位1%にどれだけ濃縮できたかを表しており、実際の創薬において重視されている指標である。
EF=na/(NA×0.01) …(2)
na:上位1%にランキングされた中で活性が有る蛋白質・リガンド結合の数
NA:実験対象の全ての蛋白質・リガンド結合のうち活性が有るものの数

【0050】
【表1】
JP2020123189A_000004t.gif

【0051】
【表2】
JP2020123189A_000005t.gif

【0052】
表1や表2を見れば、判定装置100での判定精度が従来技術(Glide)よりも格段に優れていることが確認できる。これは、蛋白質・リガンド結合の立体構造を全周網羅した多量の画像で学習することができたこと、偏りのある学習データに対して重み付きクロスエントロピー関数を用いて均等に学習することが可能になったこと、判定時に全周網羅的に撮影(2次元平面に投影)した複数の画像を用いて3D Average Poolingを用いることにより各々の画像学習結果を統合し、立体として把握することができたこと等によるものと考えられる。

【0053】
(変形例1)
上述の実施形態1では、蛋白質・リガンド結合のドッキング構造から作成した3Dイメージを全周網羅的に撮影(2次元平面に投影)する際、3Dイメージ生成時の蛋白質のサーフェスを無しにして、どの角度からの視点で撮影(2次元平面に投影)してもリガンドが確認できるようにしていた。しかし、実際には蛋白質にはサーフェスが存在し、リガンドはサーフェスのない部分からしか確認できない。そこで、3Dイメージ生成時の蛋白質のサーフェスを有りとして、サーフェスのない側から複数の画像を生成する変形例1について説明する。

【0054】
変形例1の判定装置100では、画像生成部11は、図9に示すように、蛋白質211のサーフェスの無い部分のリガンド212を正面に見て、ドッキング構造213を撮影(2次元平面に投影)し、さらにその周囲からθ、2θのように角度をつけて図9のxやoで示すような点からリガンド212の方向を視点として撮影(2次元平面に投影)した画像を生成する。変形例1の判定装置100における学習処理及び判定処理は、実施形態1の判定装置100における学習処理(図5)及び判定処理(図7)と基本的には同じであるが、これらの処理から呼び出される画像生成処理が異なるため、この処理について、図10を参照して説明する。

【0055】
変形例1の画像生成処理は、Nを引数にとる。Nは、撮影(2次元平面に投影)する角度を、図9に示すφの方向にN分割することを意味する。変形例1の画像生成処理では、正面からの画像と、正面の周囲でθの角度でN枚の画像と、2θの角度でN枚の画像を生成するので、合計(1+2×N)枚の画像が生成される。

【0056】
まず、画像生成部11は、図9に示すように、リガンド212が蛋白質211のサーフェスに隠れていない正面からドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS221)。そして、画像生成部11は、φ方向のインデックスを表す変数iを0に初期化する(ステップS222)。そして、角度φに(360°×i)/Nをセットする(ステップS223)。

【0057】
次に、画像生成部11は、図9にxで示されるように、正面からθずれた円周上のφの方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS224)。そして、画像生成部11は、図9にoで示されるように、正面から2θずれた円周上のφの方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS225)。

【0058】
次に、画像生成部11は、変数iをインクリメントし(ステップS226)、変数iがN未満であるか否かを判定する(ステップS227)。そして、変数iがN未満であるなら(ステップS227;Yes)、ステップS223に戻る。変数iがN以上であるなら(ステップS227;No)、画像生成処理を終了する。

【0059】
以上のように、変形例1では、蛋白質211のサーフェスの無い部分からリガンド212を含むドッキング構造213を撮影(2次元平面に投影)した画像を生成するので、サーフェス有りの画像からでも蛋白質・リガンド結合の立体構造を把握できる画像を生成することができる。

【0060】
(変形例2)
上述の実施形態1及び変形例1では、判定装置100が、学習処理と判定処理の双方を行っているが、判定装置100はこれに限定されない。例えば、判定装置100は、判定処理を行わないが、学習処理を行って判別器13を学習させる判別器学習装置であってもよい。また、判定装置100は、学習処理を行わないが、他の判定装置100によって学習された判別器13を用いて判定処理を行う判定装置であってもよい。学習処理は、大量の学習用画像データを作成してディープラーニングを行う必要がある等、スーパーコンピュータでないと実施が難しい面がある。しかし、判定処理だけであれば、学習済みの判別器13を用いれば、判定用画像データを作成するだけで判定が可能であるため、通常のPC(Personal Computer)等のコンピュータによっても実施することができる。

【0061】
(変形例3)
上述の実施形態1及び変形例では、判定処理(図7)において、ステップS304で3D average pooling処理を行っているが、この処理は必須ではない。例えば、ステップS303では、総合判定部15は、ステップS302で生成された判定用画像のそれぞれを判別器13に入力して判別器13の出力を判定用画像の枚数分生成し、ステップS304をスキップしてもよい。この場合、ステップS305では、総合判定部15は、ステップS303で取得した判別器13の出力(判定用画像の枚数分存在する)を平均したものに基づいて、蛋白質・リガンド結合の活性の有無を判定すればよい。

【0062】
(その他の変形例)
上述の実施形態1及び変形例では、ドッキング構造の画像を生成する際の視点の角度を一定の角度間隔で変化させていたが、これに限られない。例えば、実施形態1ではφが0°や180°(地球で言うと赤道に対応する部分)付近においては、θ方向の分割数を多くし、φが90°や270°(地球で言うと極に対応する部分)付近においては、θ方向の分割数を少なくしてもよい。

【0063】
また、上述の実施形態及び変形例において、判別器13のCNNに入力する画像は、入力サイズが224×224ピクセルで、各ピクセルがRGB3チャネルのカラー画像として説明したが、これは一例である。入力サイズをもっと大きい値(例えば448×448ピクセル)にしてもよいし、逆にもっと小さい値(例えば112×112ピクセル)にしてもよい。また、縦横のピクセル数は同じである必要はない(例えば1920×1080ピクセル等)。また、カラー画像である必要もなく、白黒画像でもよい。白黒画像の場合は各ピクセルとも1チャネルの情報となるため、図4に示す畳み込みフィルタ121は1チャネルのフィルタ(例えば7×7×1ch)となる。

【0064】
また、上述の実施形態1及び変形例は適宜組み合わせることができる。例えば、実施形態1と変形例1を組み合わせた場合、画像生成部11は、蛋白質211とリガンド212のドッキング構造213をサーフェス無しで全周(360°)網羅的な視点で生成した画像と、サーフェス有りでサーフェスの無い側からの視点で生成した画像と、をそれぞれ生成する。そして、判別器学習部14は、サーフェス無しの画像とサーフェス有りの画像を両方用いて判別器13を学習させ、総合判定部15は、サーフェス無しの画像とサーフェス有りの画像を両方用いて判定する。このようにすることで、サーフェス有りの場合の特徴とサーフェス無しの場合の特徴とを両方とも用いた判定が行えるようになる。

【0065】
また、変形例1においては、θと2θというように2倍の関係の角度からの視点としているが、この2つの角度は全く無関係の角度でもよい。また、この角度は2つに限るわけではなく、正面の周囲の3以上の角度からの視点としてもよい。例えば、θ=20°、30°、55°、70°の4つのθについて、正面からそれぞれθずれた円周上のφの方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成することにしてもよい。また、φ方向の分割数Nについても、θ毎に異なる値にしてもよい。

【0066】
また、上述の実施形態及び変形例では、蛋白質・リガンド結合の活性の有無の判定を行う判定装置100を例に挙げて説明したが、判定装置100が判定する対象は蛋白質・リガンド結合の活性の有無に限られるわけではない。判定装置100は、他の学習データを用いることにより、学習データに応じた他の判定を行うことも可能である。例えば、蛋白質同士の結合の活性の有無についてのデータと、当該蛋白質同士の結合のドッキング構造のデータ(PyMOL等の分子グラフィックツールにより生成)と、を学習データとして用いることにより、判定装置100は、蛋白質・蛋白質結合の活性の有無の判定を行うことができる。その他、任意の生体分子と当該生体分子に結合する物質との結合の活性の有無についてのデータと、当該生体分子と当該物質の結合のドッキング構造のデータと、を学習データとして用意できるなら、判定装置100は、そのような任意の生体分子・物質結合の活性の有無の判定を行うことができる。

【0067】
また、判定装置100が判定する対象は、結合の活性の有無に限られるわけではない。例えば、任意の第1の物質と当該第1の物質に結合する第2の物質との結合に関する何らかの性質(所定の性質)についてのデータと、当該第1の物質と当該第2の物質の結合のドッキング構造のデータ(PyMOL等の分子グラフィックツールにより生成)と、を学習データとして用意できるなら、判定装置100は、そのような任意の第1の物質と第2の物質の結合に関する当該性質の有無についての判定を行うことができる。

【0068】
なお、上述の実施形態1及び変形例では、CNNによる判別器13を実現するプログラムを制御部10が実行することにより、制御部10は判別器13としても機能することとしていたが、これに限られない。判定装置100は、制御部10とは別に(例えば、GPU(Graphics Processing Unit)や、専用のIC(Integrated Circuit)等の)判別器13の機能を実現するデバイスを備えてもよい。

【0069】
また、判別器13はCNN以外(例えば、RNN(Recurrent Neural Network)等)のニューラルネットワークを用いた判別器であってもよい。また、判定処理(図7)において3D average pooling処理を行わないなら、判別器13は、SVM(Support Vector Machine)等、ニューラルネット以外の判別器であってもよい。

【0070】
なお、判定装置100の判定処理は、通常のPC等のコンピュータによっても実施することができる。また、将来的には学習処理もスーパーコンピュータによらず、通常のPC等のコンピュータによっても実施することができるようになると考えられる。具体的には、上記実施形態では、判定装置100が行う学習処理及び判定処理のプログラムが、記憶部20のROMに予め記憶されているものとして説明した。しかし、プログラムを、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto-Optical Disc)、メモリカード、USB(Universal Serial Bus)メモリ等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータに読み込んでインストールすることにより、上述の各機能を実現することができるコンピュータを構成してもよい。

【0071】
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。
【符号の説明】
【0072】
10…制御部、11…画像生成部、12…活性取得部、13…判別器、14…判別器学習部、15…総合判定部、20…記憶部、31…出力部、32…通信部、33…操作入力部、100…判定装置、111…入力層、112,113,114,115,116…特徴マップ、117…総合特徴マップ、119…出力層、121,123…畳み込みフィルタ、122,124…プーリングウィンドウ、125…全結合接続、211…蛋白質、212…リガンド、213ドッキング構造、311…カメラ
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9