TOP > 国内特許検索 > 化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム

化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム

国内特許コード P210017982
整理番号 S2020-0014-N0
掲載日 2021年11月30日
出願番号 特願2020-063193
公開番号 特開2021-068410
出願日 令和2年3月31日(2020.3.31)
公開日 令和3年4月30日(2021.4.30)
優先権データ
  • 62/923,632 (2019.10.21) US
発明者
  • 関嶋 政和
  • リ コン
  • 安尾 信明
出願人
  • 国立大学法人東京工業大学
発明の名称 化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム
発明の概要 【課題】標的蛋白質との結合性が高い化合物を生成する化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラムを提供する。
【解決手段】化合物生成装置100は、標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得部11と、標的となる蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得部12と、条件付き変分自己符号化器のデコーダを備えデコーダに蛋白質情報取得部11で取得した蛋白質情報を条件変数として入力するとともにランダムノイズを用いてサンプリングした潜在変数を入力すると蛋白質との結合性が高い化合物の化学構造を生成する化合物生成部13と、化合物生成部13が備えるCVAE(エンコーダ及びデコーダを構成するLSTM及び全結合層)を学習させる学習部14と、を備える。
【選択図】図2
従来技術、競合技術の概要

創薬の初期段階においては、薬剤の標的となる蛋白質に結合する化合物を発見する必要がある。このような化合物を発見するために、従来から様々なバーチャルスクリーニングの手法が提案されている。しかし、従来から提案されているスクリーニング手法は、既知の化合物の中から標的蛋白質との結合性が高い化合物を発見する手法であるので、全く新しい化合物を発見することはできない。この問題に対し、近年では、例えば、非特許文献1に記載されているような、機械学習を用いて化合物を生成する生成モデルの研究が行われている。

産業上の利用分野

本発明は、化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラムに関する。

特許請求の範囲 【請求項1】
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得手段と、
条件付き変分自己符号化器のデコーダを備え、前記デコーダに、前記蛋白質情報取得手段で取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成手段と、
を備える化合物生成装置。

【請求項2】
前記デコーダは、LSTMによるデコーダであり、
前記化合物生成手段は、前記デコーダに前記条件変数と前記潜在変数とを繰り返し入力することにより、前記蛋白質との結合性が高い化合物の化学構造を生成する、
請求項1に記載の化合物生成装置。

【請求項3】
前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得する、
請求項1又は2に記載の化合物生成装置。

【請求項4】
前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列のファミリー毎に類似した分散表現となるように教師ありで学習された分散表現を取得する、
請求項3に記載の化合物生成装置。

【請求項5】
前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列を3-gram表現に変換してから求めた分散表現を取得する、
請求項3又は4に記載の化合物生成装置。

【請求項6】
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップと、
条件付き変分自己符号化器のデコーダに、前記蛋白質情報取得ステップで取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成ステップと、
を備える化合物生成方法。

【請求項7】
コンピュータに、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップ、及び、
条件付き変分自己符号化器のデコーダに、前記蛋白質情報取得ステップで取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成ステップ、
を実行させるためのプログラム。

【請求項8】
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得手段と、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得手段と、
条件付き変分自己符号化器を備える化合物生成手段と、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて前記化合物生成手段が備える条件付き変分自己符号化器を学習させる学習手段と、
を備える学習装置。

【請求項9】
前記条件付き変分自己符号化器は、エンコーダとデコーダとを備え、
前記学習手段は、
前記蛋白質情報取得手段が取得した前記蛋白質の蛋白質情報と、前記化合物情報取得手段が取得した化合物情報であって前記蛋白質との結合性が高い化合物の化合物情報と、を前記エンコーダに入力して、前記エンコーダから潜在変数の平均及び分散を出力させ、
前記出力された平均及び分散とともにランダムノイズを用いてサンプリングした潜在変数と、前記蛋白質情報と、を前記デコーダに入力することによって、前記デコーダから出力される情報と、前記エンコーダに入力された前記化合物情報と、の誤差に基づいて前記エンコーダ及び前記デコーダを学習させる、
請求項8に記載の学習装置。

【請求項10】
前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得する、
請求項8又は9に記載の学習装置。

【請求項11】
前記エンコーダは、LSTMによるエンコーダであり、
前記デコーダは、LSTMによるデコーダであり、
前記化合物情報取得手段は、前記化合物情報として規定文字数の個数の埋め込みベクトルを取得し、
前記学習手段は、
前記化合物情報取得手段が取得した前記規定文字数の個数の前記埋め込みベクトルのそれぞれと前記蛋白質情報取得手段が取得した前記分散表現とを結合した前記規定文字数の個数の第1結合ベクトルを、1つずつ前記規定文字数の回数のステップで前記エンコーダに入力して、前記エンコーダから潜在変数の平均及び分散を取得し、
前記取得した平均及び分散とともにランダムノイズを用いてサンプリングした潜在変数と前記分散表現とを結合させた第2結合ベクトルを、前記規定文字数の回数、前記デコーダに入力することによって、前記化合物生成手段により生成される再現化合物情報と、前記化合物情報取得手段が取得した化合物情報と、の誤差に基づいて前記化合物生成手段のニューラルネットワークを学習させる、
請求項10に記載の学習装置。

【請求項12】
前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列のファミリー毎に類似した分散表現となるように教師ありで学習された分散表現を取得する、
請求項10又は11に記載の学習装置。

【請求項13】
前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列を3-gram表現に変換してから求めた分散表現を取得する、
請求項10から12のいずれか1項に記載の学習装置。

【請求項14】
前記化合物情報取得手段は、前記化合物情報として前記化合物の化学構造をSMILES記法で表現した情報を取得する、
請求項8から13のいずれか1項に記載の学習装置。

【請求項15】
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップと、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得ステップと、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて条件付き変分自己符号化器を学習させる学習ステップと、
を備える学習方法。

【請求項16】
コンピュータに、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップ、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得ステップ、及び、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて条件付き変分自己符号化器を学習させる学習ステップ、
を実行させるためのプログラム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2020063193thum.jpg
出願権利状態 公開
詳しくお知りになりたい方は下記「問合せ先」まで直接お問合わせください


PAGE TOP

close
close
close
close
close
close
close