TOP > クイック検索 > 国内特許検索 > 細胞抽出装置、細胞抽出プログラム及び細胞抽出方法 > 明細書

明細書 :細胞抽出装置、細胞抽出プログラム及び細胞抽出方法

発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2019-097546 (P2019-097546A)
公開日 令和元年6月24日(2019.6.24)
発明の名称または考案の名称 細胞抽出装置、細胞抽出プログラム及び細胞抽出方法
国際特許分類 C12M   1/00        (2006.01)
G16B   5/00        (2019.01)
FI C12M 1/00 A
G06F 19/12
請求項の数または発明の数 6
出願形態 OL
全頁数 17
出願番号 特願2017-236063 (P2017-236063)
出願日 平成29年12月8日(2017.12.8)
発明者または考案者 【氏名】廣安 知之
【氏名】和久 剛
【氏名】日和 悟
【氏名】小林 聡
【氏名】藤井 光央
【氏名】廣瀬 修平
出願人 【識別番号】503027931
【氏名又は名称】学校法人同志社
個別代理人の代理人 【識別番号】110001427、【氏名又は名称】特許業務法人前田特許事務所
審査請求 未請求
テーマコード 4B029
Fターム 4B029AA07
4B029AA09
4B029AA27
4B029BB11
要約 【課題】2つの遺伝子について正の発現相関を有する細胞を抽出する。
【解決手段】複数の細胞の中から、第1遺伝子と第2遺伝子について正の発現相関を有する細胞を抽出する細胞抽出装置に関する。細胞抽出装置は、複数の細胞の中から所定数の細胞からなる細胞群を形成し、発現量情報を用いて細胞群についての第1遺伝子と第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行して決定係数を算出する演算処理部12を備えている。さらに、演算処理部12は、細胞群を構成する細胞の数と、決定係数とを目的関数とする多目的最適化演算を行うことでパレート最適解を算出する。
【選択図】図1
特許請求の範囲 【請求項1】
複数の細胞の中から、第1遺伝子と第2遺伝子について正の発現相関を有する細胞を抽出する細胞抽出装置であって、
前記複数の細胞についての前記第1遺伝子及び前記第2遺伝子の発現量情報が格納されたデータベースから当該発現量情報を取得する発現量情報取得部と、
前記複数の細胞の中から所定数の細胞からなる細胞群を形成し、前記発現量情報を用いて当該細胞群についての前記第1遺伝子と前記第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行して決定係数を算出する演算処理部とを備え、
前記演算処理部は、前記細胞群を構成する細胞の数の多さと、前記決定係数の高さとを目的関数とする多目的最適化演算を行うことでパレート最適解を算出する
ことを特徴とする細胞抽出装置。
【請求項2】
請求項1において、
前記第1遺伝子は転写因子であり、前記第2遺伝子はシグナル伝達機構に含まれる遺伝子である
ことを特徴とする細胞抽出装置。
【請求項3】
請求項1において、
前記演算処理部は、特定の前記第1遺伝子に対して、前記第2遺伝子を異ならせてパレート最適解を算出するものであり、前記パレート最適解で求められた細胞の組み合わせのうち、決定係数が所定値以上の組み合わせについて、細胞ごとに選択された回数を合計する
ことを特徴とする細胞抽出装置。
【請求項4】
複数の細胞の中から、第1遺伝子と第2遺伝子について正の発現相関を有する細胞を抽出する細胞抽出装置であって、
前記複数の細胞についての前記第1遺伝子及び前記第2遺伝子の発現量情報が格納されたデータベースから当該発現量情報を取得する発現量情報取得部と、
前記複数の細胞の中から所定数の細胞からなる細胞群を形成し、前記発現量情報を用いて当該細胞群についての前記第1遺伝子と前記第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行することで、決定係数が最大になる細胞の組み合わせを探索する演算処理部とを備え、
前記演算処理部は、前記細胞群を構成する細胞数を互いに異ならせて前記回帰分析を実行し、それぞれの細胞数の細胞群毎に決定係数が最大になる細胞の組み合わせを探索する
ことを特徴とする細胞抽出装置。
【請求項5】
コンピュータに、複数の細胞の中から、第1遺伝子と第2遺伝子の発現相関が高い細胞を抽出させる細胞抽出プログラムであって、
前記複数の細胞についての前記第1遺伝子及び前記第2遺伝子の発現量情報が格納されたデータベースから当該発現量情報を取得する発現量情報取得ステップと、
前記複数の細胞の中から所定数の細胞からなる細胞群を形成し、前記発現量情報を用いて当該細胞群についての前記第1遺伝子と前記第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行することで、決定係数が最大になる細胞の組み合わせを探索する第1回帰分析ステップと、
前記細胞群を構成する細胞数を互いに異ならせて前記第1回帰分析ステップを実行し、それぞれの細胞数の細胞群毎に決定係数が最大になる細胞の組み合わせを探索する第2回帰分析ステップと、を実行させる
ことを特徴とする細胞抽出プログラム。
【請求項6】
複数の細胞の中から、第1遺伝子と第2遺伝子の発現相関が高い細胞を抽出する細胞抽出方法であって、
前記複数の細胞のそれぞれについて、前記第1遺伝子の発現量情報及び前記第2遺伝子の発現量情報を取得する発現量情報取得ステップと、
前記複数の細胞の中から所定数の細胞からなる細胞群を形成し、前記発現量情報を用いて当該細胞群についての前記第1遺伝子と前記第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行することで、決定係数が最大になる細胞の組み合わせを探索する第1回帰分析ステップと、
前記細胞群を構成する細胞数を互いに異ならせて前記第1回帰分析ステップを実行し、それぞれの細胞数の細胞群毎に決定係数が最大になる細胞の組み合わせを探索する第2回帰分析ステップとを備えている
ことを特徴とする細胞抽出方法。
発明の詳細な説明 【技術分野】
【0001】
本発明は、細胞抽出装置に関し、特に、2つの遺伝子の発現相関が高い細胞を抽出する細胞抽出装置、細胞抽出プログラム及び細胞抽出方法に関するものである。
【背景技術】
【0002】
一般に、遺伝子の解析には、DNAマイクロアレイが利用されており、多様な細胞での遺伝子発現データが含まれている(非特許文献1,2参照)。
【0003】
また、特許文献1や非特許文献3では、遺伝子Nrf3が、がん細胞の悪性化や細胞増殖の活性化を行う転写因子であり、がん細胞において遺伝子Nrf3と発現相関の高い遺伝子が存在したときに、その2つの遺伝子が共にがん発生に影響を与えた可能性があることが記載されている。このように、任意に選定された特定の遺伝子との間で発現相関の高い遺伝子が存在することを示すことができれば、遺伝子の研究開発において非常に有意義である。
【0004】
また、非特許文献4,5には、組織の線維化やがん転移に関係する遺伝子群であるTGFβ/SMADについて記載されている。
【先行技術文献】
【0005】

【特許文献1】国際公開2017/159739号
【0006】

【非特許文献1】間野博幸,"DNAチップ",日本内科学会雑誌,2003年,Vol.92, No.6, pp.1030-1035
【非特許文献2】堀口大吾,"マイクロアレイデータ解析法", Journal of Oral Health and Biosciences 29(2), 2017年, pp.55-62
【非特許文献3】Kobayashi A, Ito E, Toki T, Kogame K, Takahashi S, Igarashi K, Hayashi N, Yamamoto M , "Molecular cloning and functional characterization of a new Cap‘n’Collar family transcription factor Nrf3", J Biol Chem., 1999 Mar 5, 274(10), pp6443-6452
【非特許文献4】宮園浩平, "TGF-βファミリーの受容体とSmadによるシグナル伝達", 日本老年医学会雑誌, 1999年, Vol.36, No.3, P 162-166
【非特許文献5】宮園浩平, "TGF-βファミリーからみた内科学", 日本内科学会雑誌, 2016年, Vol.105, No. 9, pp.1558-1564
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、細胞の種類によって、発現相関の高い遺伝子の組み合わせが異なる場合がある。例えば、ある細胞において、任意に選定された特定の遺伝子Aとの間で発現相関の高い遺伝子Bが存在した場合に、他の細胞では、遺伝子Aと遺伝子Bとの発現相関が高くないということが起こり得る。具体的に、特許文献1では、がん細胞において遺伝子Nrf3と発現相関の高い遺伝子が存在したときに2つの遺伝子が共にがん発生に影響を与えた可能性があることが示されているが、がん細胞の種類によって発現相関の高い遺伝子の組み合わせが異なる場合がある。
【0008】
そこで、本発明では、複数の細胞の中から、2つの遺伝子について正の発現相関を有する細胞を抽出する細胞抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本願発明の第1態様では、複数の細胞の中から、第1遺伝子と第2遺伝子について正の発現相関を有する細胞を抽出する細胞抽出装置であって、前記複数の細胞についての前記第1遺伝子及び前記第2遺伝子の発現量情報が格納されたデータベースから当該発現量情報を取得する発現量情報取得部と、前記複数の細胞の中から所定数の細胞からなる細胞群を形成し、前記発現量情報を用いて当該細胞群についての前記第1遺伝子と前記第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行して決定係数を算出する演算処理部とを備え、前記演算処理部は、前記細胞群を構成する細胞の数の多さと、前記決定係数の高さとを目的関数とする多目的最適化演算を行うことでパレート最適解を算出することを特徴とする。
【0010】
本態様によると、細胞群を構成する細胞の数と決定係数とを目的関数とする多目的最適化演算を行うようにしたので、できるだけ多くの細胞で決定係数の高い細胞の組み合わせを探索することができる。これにより、複数の細胞の中から、第1遺伝子と第2遺伝子について正の発現相関を有する細胞を抽出することができる。
【0011】
本発明の第2態様では、前記第1遺伝子は転写因子であり、前記第2遺伝子はシグナル伝達機構に含まれる遺伝子である。
【0012】
このように、第1遺伝子を転写因子とすることにより、より広範囲な遺伝子ネットワークを制御できるという効果が得られる。また、第2遺伝子をシグナル伝達機構に含まれる遺伝子とすることにより、シグナル伝達機構において何らかのシグナル因子となった可能性が高いという示唆の確度を高めることができる。
【0013】
本願発明の第3態様では、第1態様において、前記第2遺伝子はシグナル伝達機構に含まれる遺伝子であり、前記演算処理部は、特定の前記第1遺伝子に対して、前記第2遺伝子を異ならせてパレート最適解を算出するものであり、前記パレート最適解で求められた細胞の組み合わせのうち、決定係数が所定値以上の組み合わせについて、細胞ごとに選択された回数を合計することを特徴とする。
【0014】
この態様によると、合計数が多い細胞、すなわち、パレート解での選択回数の多い細胞を特定することができる。そうすると、特定の遺伝子が、任意のシグナル伝達機構に対して、関与した可能性の高い細胞についての示唆を得ることができる。
【0015】
本願発明の第4態様では、複数の細胞の中から、第1遺伝子と第2遺伝子について正の発現相関を有する細胞を抽出する細胞抽出装置であって、記憶部と、前記複数の細胞についての前記第1遺伝子及び前記第2遺伝子の発現量情報が格納されたデータベースから当該発現量情報を取得する発現量情報取得部と、前記複数の細胞の中から所定数の細胞からなる細胞群を形成し、前記発現量情報を用いて当該細胞群についての前記第1遺伝子と前記第2遺伝子の発現量に対する回帰分析を、当該細胞群を構成する細胞の組み合わせを変えながら実行することで、決定係数が最大になる細胞の組み合わせを探索して前記記憶部に記憶する演算処理部とを備え、前記演算処理部は、前記細胞群を構成する細胞数を互いに異ならせて前記回帰分析を実行し、それぞれの細胞数の細胞群毎に決定係数が最大になる細胞の組み合わせを探索して前記記憶部に記憶することを特徴とする。
【0016】
この態様によると、多様な種類の細胞の中から選択された細胞に対して、任意に設定した2つの遺伝子が因果関係を有する可能性の示唆を得ることができる。
【発明の効果】
【0017】
本発明によると、2つの遺伝子について正の発現相関を有する細胞を抽出することができる。
【図面の簡単な説明】
【0018】
【図1】本実施形態に係る細胞抽出装置の構成を示すブロック図である。
【図2】大腸・結腸・子宮・卵巣がんにおけるNRF3 mRNA発現とがんステージの連関解析結果を示す図である。
【図3】決定係数の算出について示す概念図である。
【図4】細胞選択数による決定係数増減の例を示す図である。
【図5】目的関数の評価の流れを示す図である。
【図6】発現相関にすべての細胞を用いた場合の決定係数の一例を示す図である。
【図7】本実施形態に係る細胞抽出装置の動作を示すフロー図である。
【図8】本実施形態に係る細胞抽出装置の動作を示すフロー図である。
【図9】演算処理部で取得された発現量情報の一例を示す図である。
【図10】演算処理部によって求められたパレート解集合の一例を示す図である。
【図11】図10のパレート解集合をまとめた図である。
【図12】遺伝子の発現相関が高いがん細胞の抽出について説明するための図である。
【図13】パレート解集合の中で選択された回数が多い順にNCI-60 パネル内の細胞を並べた図である。
【図14】HCT116細胞について、遺伝子Nrf3ノックダウンにより、TGF-β/SMADシグナル因子群の発現量を確認した結果を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態を図面に基づいて詳細に説明する。以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用範囲あるいはその用途を制限することを意図するものではない。

【0020】
-発明の概要-
本願発明者らは、がん細胞において遺伝子Nrf3と発現相関の高い遺伝子が存在したとき、二つの遺伝子が共にがん発生に影響を与えた可能性があることから、がん細胞における遺伝子Nrf3と他の様々な遺伝子との発現相関に着目してきた。

【0021】
一般に遺伝子の解析には、DNAマイクロアレイ(非特許文献1,2参照)が利用され、そこには多様な細胞での遺伝子発現データが含まれる。本願発明者らは、このマイクロアレイデータの中から遺伝子Nrf3と他の遺伝子の発現相関が高いがん細胞を抽出することで、それらの遺伝子が機能する可能性のあるがん細胞を選定することができると考えた。そこで、NCI-60 パネル内の全ての細胞において、遺伝子Nrf3と、他の遺伝子(例えば、TGFβ/SMADシグナル構成因子)との発現相関を求めてきた。しかしながら、多様な種類のがん細胞の中から発現相関の高い細胞を特定することができなかった。一方で、本願発明者らは、これらの中には高い発現相関を示すがん細胞のセットが存在している可能性があると考えた。すなわち、本願発明者らは、鋭意検討を重ねた結果、多様な種類の細胞(例えば、NCI-60 パネル内の細胞)の中から、2種類の遺伝子の発現相関が高い細胞のセットを抽出することができることを見いだした。

【0022】
具体的に、本実施形態に係る細胞抽出装置は、組み合わせ最適化手法の一つである遺伝的アルゴリズムを用いて、2種類の遺伝子の発現相関が高い細胞を抽出する装置である。多様な細胞の中から発現相関の高い細胞の組み合わせを抽出することは単一目的最適化として定義することができる。しかしながら,選択される細胞の数が増加すると発現相関が低い細胞が選択されるというトレードオフの関係が存在することが予測される。そこで、本願発明では、発現相関が高く、かつ、より多くの細胞を抽出するため多目的進化計算手法を利用している。

【0023】
以下の説明では、一例として、遺伝子Nrf3と、組織の線維化やがん転移に関係する遺伝子群であるTGFβ/SMADシグナル構成因子との発現相関に着目し、遺伝子Nrf3とTGFβ/SMADシグナル構成因子の発現相関が高いがん細胞の抽出について説明する。すなわち、遺伝子Nrf3とTGFβ/SMADシグナル構成因子のmRNA量とが、正の相関を有するがん細胞の抽出(癌種の特定)について説明する。ただし、本願発明の適用範囲は、遺伝子Nrf3とTGFβ/SMADシグナル因子との発現相関が高いがん細胞の抽出に限定されるものではなく、任意に選定された2つの遺伝子の発現相関が高い細胞を、任意のDNAマイクロアレイデータの中から抽出することに対し、広く適用することが可能である。

【0024】
-転写因子Nrf3-
転写因子とは,DNAの塩基配列に特異的に結合するタンパク質の一群であり、遺伝子の発現量を上昇させるアクチベーター(activator)と、発現量を減少させるリプレッサー(repressor)とに分類される。転写因子はプロモーター(promotor)やエンハンサー(enhancer)といった転写を制御する領域に結合しDNAの遺伝情報をRNAに転写する過程を調節する。遺伝子Nrf3は、CNCファミリーと呼ばれるストレス応答に関わる転写因子群に属する。このファミリーは、p45/NF-E2,Nrf1,Nrf2,Nrf3とBach1,Bach2の6つの転写因子から構成され、前者は転写活性因子、後者は転写抑制因子として機能する。遺伝子Nrf3は、様々ながん細胞で高発現することが知られており、がん細胞の悪性化や細胞増殖を活性化する機能を持つとされる。ある肺がん由来の細胞では遺伝子Nrf3の高発現によりタンパク質分解酵素が活性化し、がん抑制遺伝子を分解することで発がんが起こる可能性が示唆された。このようなガン発生プロセスにおける遺伝子Nrf3が制御する遺伝子発現機構が注目されている。

【0025】
-TGFβ/SMADシグナル伝達機構-
TGF-β(Transforming Growth Factor-β)は上皮細胞など多くの種類の細胞の増殖抑制を行い、その増殖抑制作用からの逸脱が細胞のガン化につながることで知られている。また、TGF-βは組織の線維化や、上皮細胞を運動性を持つ間葉細胞に転換させガン細胞の浸潤や転移を可能にするEMT(epithelial to mesenchymal transition:上皮間葉移行)を促進する機能を持つ。TGF-βには三種類の構造が類似したタンパク質、TGF-β1,2,3が存在する.これらはいずれも2種類のセリンスレオニンキナーゼ型受容体TGF-βR1,βR2を活性化し,その結果SMADと呼ばれるシグナル因子が活性化される。TGF-βの作用によりTGF-βR1がSMAD2,3 を活性化するとさらにSMAD4が結合しSMAD複合体が形成される。複合体はその後核内に移行し、様々な転写因子と結合しながらDNAに結合することで、数々の遺伝子の転写を調整する。本実施形態ではがん細胞におけるNrf3 と,TGFβ/SMADシグナル伝達機構に含まれる7つの遺伝子GDF5,SMAD3,SMURF1,SMURF2,TGF-β2,TGF-βR2,TGIFの発現相関にそれぞれ着目した。がん細胞においてNrf3とこれらの遺伝子に高い発現相関が存在した場合、Nrf3がTGFβ/SMADシグナル伝達機構において何らかのシグナル因子となった可能性がある。

【0026】
-転写因子Nrf3とTGFβ/SMADシグナル伝達機構との関係-
がんの転移は、原発巣からの癌細胞の離脱と脈管への浸潤、脈管内での移動、転移臓器の血管内皮への接着、転移臓器への浸潤、転移臓器内での増殖などの複数の過程から構成されている。最初の過程である原発巣からの癌細胞の離脱と脈管への浸潤は上皮間葉移行(EMT)により引き起こされ、この現象は細胞増殖抑制シグナルであるTGF-β/SMAD経路が制御していると考えられている。

【0027】
本願発明者らは、これまでヒト腫瘍解析やマウス移植実験から、転写因子NRF3(NFE2L3)が原発腫瘍の増大に寄与することを明らかにしており(特許文献1参照)、ヒト腫瘍解析で、NRF3 mRNA量はがん進展と正の相関を示す可能性を見出している。また、NCL60パネルデータを用いたmRNAの発現相関解析から、NRF3はTGF-2やTGF-受容体2、SMAD3と正の相関を示すことを発見している。

【0028】
そこで、本願発明者らが、ヒト大腸がん細胞HCT116においてNRF3をノックダウンさせたところ、SMAD3がmRNAとタンパク質レベルでともに発現低下することを見出した。以上の知見は、NRF3がTGF-β/SMADシグナルの新たな制御因子であることを示唆している。SMAD3はTGF-β/TGF-β受容体で活性化される転写因子であることから、現在NRF3がSMADの転写活性に寄与するのかをルシフェラーゼレポーターアッセイやリアルタイムPCRで検討している。さらに、浸潤やコロニー形成などの転移に関連したin vitro解析も進めていく予定である。

【0029】
図2は、大腸、結腸、子宮、卵巣がんにおけるNrf31mRNA発現と、がんのステージの連関解析した結果を示している。図2に示されているように、がんのステージが進行するのにしたがって、Nrf31mRNA発現量が増加しているのがわかる。

【0030】
-細胞抽出装置(細胞抽出方法)の概要-
がん細胞において転写因子Nrf3と発現相関の高い遺伝子が存在したとき、それら遺伝子が共にがん発生に影響を与えた可能性がある。マイクロアレイデータの中から遺伝子Nrf3と他の遺伝子の発現相関が高い細胞を抽出することで、それらの遺伝子が機能する可能性のあるがん細胞を選定することができる。しかしながら、従来技術では、多様な種類のがん細胞の中から発現相関の高い細胞を特定することができなかった。一方でこれらの中には高い発現相関を示すがん細胞の組み合わせが存在している可能性がある。そこで、本開示では、2種類の遺伝子の発現相関に注目し、多目的進化計算手法を利用して多数の細胞の中から発現相関の高い細胞を抽出する手法を提案している。

【0031】
-定式化-
対象とする問題を以下のような最適化問題に定式化する。

【0032】
(設計変数)
細胞抽出の対象となるデータセットの大きさによって遺伝子長が決定される。本実施形態における細胞抽出は、NCI-60(National Cancer Institute-60)と呼ばれるがん細胞パネル(以下、NCI-60パネルという)のマイクロアレイデータから行った。NCI-60は抗がん剤のスクリーン用パネルとしても利用される培養ヒトがん細胞株で、白血病、悪性黒色腫、結腸、中枢神経系、肺、卵巣、乳房、前立腺、腎臓の異なる60種の細胞で構成される。NCI-60パネルは、60種類の細胞から構成されるため、遺伝子長はd = 60である。NCI-60パネルから細胞を選択するか否かが設計変数xとなり以下のように定義できる。

【0033】
x = (x1, x2, ... , xd), xk ∈ {0,1} …(1)

【0034】
(目的関数)
本実施形態では、複数のがん細胞における遺伝子の発現相関を把握するために単回帰分析を行う。単回帰分析では説明変数を変化させた際に目的変数がどのように変化するのか、二変数間の関係を回帰式と呼ばれる一次方程式で表現する。今回の場合では、がん細胞での遺伝子Nrf3の発現量を説明変数x、他の遺伝子の発現量を目的変数y として単回帰分析を行う。

【0035】
また、回帰分析の精度を表す指標として決定係数R2を用いた。決定係数の値は0から1の値をとり、その値が1に近いほど良い回帰モデルとなる。データの平均値をy1、回帰式から得られる予測値をy2とすると、決定係数R2は、式(2)の様に求められる。図3は、データと、回帰式から得られる予測値の関係を示している。

【0036】
【数2】
JP2019097546A_000003t.gif

【0037】
NCI-60パネル内の発現相関が高い細胞のみで回帰分析が行われると、推定される回帰線の精度が向上し、決定係数R2は増加する(図4(a)参照)。したがって、パネル内の細胞の中から最も発現相関の高い細胞の組み合わせを抽出することは、決定係数が最大となるような細胞の組み合わせを選択する単一目的最適化問題として定義できる。しかしながら、パネル内には発現相関が低い細胞が含まれていることが予想され、そのような細胞を含めて回帰分析が行われると図4(b)のように決定係数は減少する。

【0038】
すなわち、決定係数と選択する細胞の数という二つの目的関数間にはトレードオフの関係が存在すると考えられる。NCI-60パネル内の各細胞での遺伝子Nrf3の発現量をxi(i = 1, 2, ... , 60)、他の遺伝子の発現量をyi (i = 1, 2, ... , 60)と表す。本実施形態における目的関数は、複数選択された細胞での二種類の遺伝子発現量xi,yi に対して回帰分析を行い、算出した決定係数R2をf1(x)、また、その際に選択された細胞の個数をf2(x)とする。以上より目的関数f1(x),f2(x)は以下の式(3),(4)のように定義できる。

【0039】
f1(x)=R2(x) …(3)
f2(x)=Ncount(x) …(4)
ここでR2(x)は、x(xi = 1)で複数選択された細胞での遺伝子発現量に対して回帰分析を行い、得られた決定係数R2であり,Ncount(x)は、x(xi = 1)で選択された細胞の個数を表す。目的関数の評価の流れを図5に示している。

【0040】
以上より、本実施形態で対象とする最適化問題は、以下の式(5),(6)に示すように定式化できる。

【0041】
maximize f1(x), f2(x) …(5)
subject to xk ∈ {0,1} …(6)

【0042】
-細胞抽出装置の構成-
図1は、本実施形態に係る細胞抽出装置の構成を示すブロック図である。図1では、後述する2つの遺伝子について正の発現相関を有する細胞を抽出する構成を主として示しており、その他の構成については適宜省略している。

【0043】
図1に示すように、細胞抽出装置は、例えば、コンピュータで実現することが可能であり、装置本体1と、表示部2と、入力操作部3とを備えている。図1において、表示部2はユーザに対して文字、画像などの情報を表示するものであり、例えば液晶画面を有する液晶モニタ等を含む。入力操作部3は、キーボード、ボタン、スイッチなどユーザの操作入力を受ける手段である。なお、表示部2や入力操作部3は、装置本体1と一体に構成されていてもよいし、別体で構成されていてもよい。

【0044】
装置本体1は、入力操作部3において受けたユーザ操作を受け付ける受信部11と、演算処理部12と、記憶部13と、演算処理部12の演算結果を表示部に表示させるための出力部14とを備えている。記憶部13には、複数の細胞についての遺伝子の発現量情報が格納されたデータベースと、本実施形態に係るプログラムとが格納されている。

【0045】
演算処理部12は、入力操作部3において受けたユーザ操作に従って各種の演算処理を実行する。また、演算処理部12は、本実施形態に係る細胞抽出方法を使用するように、および、本実施形態に係る細胞抽出プログラムを実行するように、構成されている。

【0046】
例えば、演算処理部12は、複数の細胞の中から所定数の細胞からなる細胞群を形成する。また、記憶部13のデータベースに格納された発現量情報を用いて、形成された細胞群について、2つの遺伝子の発現量に対する回帰分析を、細胞群を構成する細胞の組み合わせを変えながら実行することで、決定係数R2が最大になる細胞の組み合わせを探索する。さらに、演算処理部12は、細胞群を構成する細胞数を互いに異ならせて回帰分析を実行し、それぞれの細胞数の細胞群毎に決定係数R2が最大になる細胞の組み合わせを探索する。

【0047】
-細胞抽出装置による演算処理-
本実施形態で提案している手法は細胞における二種類の遺伝子発現データが存在すればどのような遺伝子に対してでも適用することができるが、ここでは遺伝子(転写因子)Nrf3と、がん転移に関連する遺伝子群TGFβ/SMADシグナル因子の発現相関に着目し、NCI-60パネルの中から発現相関が高い細胞の抽出を行っている。具体的に、本実施形態では、提案手法の有効性を検討するためにがん細胞における遺伝子Nrf3 と、TGFβ/SMADシグナル伝達機構に含まれる7種の遺伝子GDF5,SMAD3,SMURF1,MURF2,TGF-β2,TGF-βR2,TGIF(以下、対象遺伝子ともいう)の発現相関にそれぞれ着目した。今回着目した7種の遺伝子では、図6に示すように決定係数R2は全て0.4以下にあり、NCI-60パネル内の全ての細胞においてNrf3と高い発現相関を示すような遺伝子は存在しなかった。一方でNCI-60パネルの中には高い発現相関を示すがん細胞のセットが存在している可能性がある。そこで、遺伝子Nrf3と対象遺伝子の組み合わせに対して提案手法を適用することで高い発現相関を持つ細胞のセットの抽出を行う。

【0048】
本実施形態では、得られたパレート解集合を次のように利用し、より発現相関の高い細胞を抽出している。

【0049】
Step1:前章で定義された最適化問題を多目的最適化手法を用いて解く。
Step2:対象問題を複数回最適化する。
Step3:試行数分のパレートフロントを用いてパレート解集合を求める。
Step4:パレート解集合を調査し、より発現相関の高い細胞の組み合わせを探索する。
Step5:Step1 からStep4 の手順を、遺伝子Nrf3 とTGFβ/SMADシグナル内の7種の遺伝子の組み合わせで行う。
Step6:7種類の遺伝子分のパレート解集合から、決定係数が特に大きい解集合に着目する。そして、それらの解の遺伝子型を確認し、選択されていた細胞の回数を合計する。

【0050】
本実施形態では、回帰分析の手法として、最小二乗法を利用し、決定係数が0.9 以上となる解に着目した。また、多目的進化計算手法の一つであるNSGA-II(Elitist Non-Dominated Sorting Genetic Algorithm)を用いてパレート最適解の探索を行った。細胞抽出に用いたNSGA-IIのパラメーターを以下の表1に示す。

【0051】
【表1】
JP2019097546A_000004t.gif

【0052】
また、実装はDEAP(Distributed Evolutionary Algorithm in Python)を利用して行った。前述の式(5),(6)で定式化した最適化問題に対して多目的進化計算手法による最適化を試行数分行った。試行数分のパレートフロントから新たなパレート解集合を求め、それらの解を調査することでより発現相関の高い細胞のセットを探索した。

【0053】
以下、図7及び図8のフロー図を用いて、本実施形態に係る細胞抽出装置の動作についてより具体的に説明する。本実施形態の動作に係る主体は、主に演算処理部12である。以下の説明では、主体が演算処理部12であることについての記載を省略する場合がある。

【0054】
図7のステップS1において、演算処理部12は、回帰分析の対象となる複数の細胞に関する発現量情報を取得する。具体的には、前述のとおり、遺伝子Nrf3と、対象遺伝子(7種類)についてのNCI-60パネルの発現量情報が取得される。図9では、取得された発現量情報の一例を示している。回帰分析の対象となる細胞は、あらかじめ記憶部13のプログラムや他の記憶領域に記憶されていてもよいし、入力操作部3からユーザが操作設定できるようにしてもよい。

【0055】
ステップS20において、演算処理部12は、2つの遺伝子の発現量に関する回帰式の算出を行う。ここでは、NCI-60パネルのすべての細胞について、遺伝子Nrf3と各対象遺伝子についての回帰式の算出を行う。具体的に、(a)Nrf3 vs GDF5、(b)Nrf3 vs SMAD3、(c)Nrf3 vs SMURF1、(d)Nrf3 vs MURF2、(e)Nrf3 vs TGF-β2、(f)Nrf3 vs TGF-βR2、(g)Nrf3 vs TGIFについて、回帰式の算出を行う。そうすると、前述の図6に示したような決定係数R2が得られる。

【0056】
その後、ステップS30,S40において、目的関数である式(3),(4)のxの値を変化させつつ、定式化された式(5),(6)を充足するパレート最適解の探索(選択する細胞数及び決定係数R2を最大化する探索)を、所定の世代数Nになるまで繰り返し実施する。なお、図7では、ステップS30とステップS40とを分けて記載しているが、2つのステップが同時進行で実施されてもよい。

【0057】
ステップS30,S40の動作について、図8を用いて概略的に説明する。具体的に、遺伝子Nrf3と各対象遺伝子についてのパレートフロントを作成する流れについて説明する。図8では、回帰分析を行う対象となる2つの遺伝子は、選択されているものとする。例えば、図9の太枠線で示すように、遺伝子Nrf3と、図9(a)~(g)で示す遺伝子のうちのいずれか1つとが選択されている。

【0058】
まず、図8のステップS71では、選択する細胞の個数を設定する。以下、選択される細胞からなる集合を細胞群と呼ぶものとする。換言すると、ステップS71では、細胞群を構成する細胞数mを設定する。ここでは、m=60の回帰分析は図7のステップS20で算出しているので、m=59からスタートするものとする。

【0059】
ステップS72では、細胞数mに基づいて、細胞群を形成する。具体的には、NCI-60パネルの細胞のうち、59個の細胞を選択し、1個の細胞を非選択とする。ここでは、どの細胞が選択/非選択とされたかは問題とならないので、演算処理部12は、例えば、プログラムにしたがって選択/非選択とする細胞を設定する。

【0060】
ステップS73では、ステップS72で形成された細胞群についての回帰分析が行われる。具体的には、図5の流れにしたがって、目的関数の評価(決定係数R2の算出)が実行される。その後、決定係数R2の最大値を求めることができたことが明確になるまで、ステップS75で細胞群を構成する細胞の組み合わせを変更しながら、ステップS73の目的関数の評価(決定係数R2の算出)が実行される。

【0061】
そして、ステップS74において、演算処理部12は、決定係数R2の最大値を求めることができると(S74でYES)、ステップS79で細胞群を構成する細胞の数を1つ減らして、再び、ステップS72~S75の処理を繰り返し実行する。

【0062】
ステップS72~S75の処理が、規定の試行回数に到達すると(S76でYES)、演算処理部12は、図8のフローを抜けて、処理は上位フロー(図7のS60)に復帰する。

【0063】
ステップS60において、演算処理部12は、演算されたパレート解集合を記憶部13に記憶させるとともに、出力部14を介して表示部2に表示させる。

【0064】
図10は、上記の動作に基づいて、演算処理部12によって求められたパレート解集合(7種の遺伝子のパレートフロント)を示している。図10において、灰色で囲まれた領域は、各細胞選択数における決定係数が有意となる領域を示しており、得られたパレート解が全て信頼できる領域に含まれていることが分かる。また、図11では、図10のデータを重ねてプロットしている。

【0065】
前述のとおり、図6では、今回着目した7種の遺伝子について、決定係数R2が全て0.4以下にあり、一見すると、遺伝子Nrf3と高い発現相関を示すような遺伝子は存在しないようにも見えた。しかしながら、本実施形態の手法を用いることにより、図10及び図11では、得られた7種のパレート解集合のうち,決定係数R2が高いもの(例えば、決定係数R2が0.9以上)が存在していることが確認できた。すなわち、NCI-60パネルの中に、高い発現相関を示すがん細胞のセットが存在している可能性があることを確認することができた。

【0066】
本願発明者らは、さらに検討を進め、NCI-60パネルの中から遺伝子Nrf3とTGFβ/SMADシグナル内の7種の遺伝子の発現相関が高いがん細胞をより多く抽出することを目指した。ここで、発明者らは、上記7種の遺伝子のパレート解集合のうち決定係数R2が0.9以上の解に着目することとした。すなわち、図12のリストに示すような回帰分析を実施した。また,それらの解で選択されていたがん細胞を確認し、細胞ごとに選択された回数を合計した。選択回数が多いがん細胞は、遺伝子Nrf3の機能がTGFβ/SMADシグナル伝達機構に関与した可能性の高い細胞であると考えられるためである。図13は、パレート解の中で選択された回数が多い順にNCI-60 パネル内の細胞を並べた図である。図13より、選択数上位の3細胞では、メラノーマと乳がん由来の細胞からそれぞれME.MDAMB35が24回、BR.T47が23回、ME.MALM3Mが21回と30個のパレート解のうち7割以上の解で選択されている.これらの細胞では遺伝子Nrf3と、複数のTGFβ/SMADシグナル因子の間に高い発現相関を示すことから、遺伝子Nrf3が、TGFβ/SMADシグナル伝達機構において何らかのシグナルとなる可能性が示唆されている。

【0067】
一方で,乳がん由来の細胞BR.HS578T、中枢神経系由来の細胞CNS.SF-295、白血病由来の細胞LE.RPMI-8226では選択された回数の合計が0回となった。このように、遺伝子Nrf3が、7種の遺伝子全てに対して発現相関を示さない細胞が存在することが分かった。これらの細胞では、TGFβ/SMADシグナル伝達機構に遺伝子Nrf3が関与していないことが示唆されている。

【0068】
図14は、図13において、太枠線で囲んだHCT116細胞について、遺伝子Nrf3ノックダウンにより、TGF-b/SMADシグナル因子群の発現量を確認した結果である。図14に示すように、HCT116細胞では、NRF3ノックダウンにより、TGF-b/SMADシグナル因子群の発現量は低下していることがわかる。図14に示すような解析を、高い発現相関を示した細胞、また発現相関を示さなかった細胞において実施することにより、遺伝子Nrf3がTGFβ/SMADシグナル伝達を介して悪性化に寄与している癌細胞種を絞り込むことができるようになる可能性がある。

【0069】
以上のように、本実施形態によると、多様な種類の細胞の中から選択された細胞に対して、任意に設定した2つの遺伝子が因果関係を有する可能性の示唆を得ることができる。例えば、図11に示したように、遺伝子Nrf3(第1遺伝子に相当)と、TGFβ/SMADシグナル因子を構成する遺伝子(第2遺伝子に相当)との発現相関の高い細胞のセットがある可能性の示唆を得ることができる。

【0070】
また、2つの遺伝子のうちの一方を任意に設定し、他方をシグナル因子にして、本実施形態に係る手法を適用することにより、上記一方の遺伝子がシグナル伝達機構に関与していること及び/または関与していない可能性についての示唆を得ることができる。例えば、一方の遺伝子として遺伝子Nrf3を設定し、他方の遺伝子としてTGFβ/SMADシグナル因子を構成する遺伝子を設定することで、遺伝子Nrf3が、TGFβ/SMADシグナル伝達機構において何らかのシグナル因子となった可能性があるという示唆を得ることができる。

【0071】
さらに、本願発明では、パレート解での選択回数の多い細胞を抽出することで、特定の遺伝子の機能がシグナル伝達機構に関与した可能性の高い細胞を抽出することができるようになる。具体的に、遺伝子Nrf3が、TGFβ/SMADシグナル伝達機構において何らかのシグナルとなる可能性が示唆されている細胞(例えば、メラノーマと乳がん由来の細胞)を抽出することができるようになる。

【0072】
<その他の実施形態>
上記実施形態について、以下のようにしてもよい。

【0073】
上記実施形態では、マイクロアレイデータとして、NCI-60パネルを用いる例を示したがこれに限定されず、他のマイクロアレイデータに対しても同様に適用することができる。また、本実施形態では、発現相関を求める一方の遺伝子(第1の遺伝子に相当)として、転写因子Nrf3を例に挙げて説明したが、本願発明は、一方の遺伝子として、他の転写因子に対しても適用することができ、転写因子以外の遺伝子であっても同様に適用することができ、同様の効果が得られる。ただし、一方の遺伝子を転写因子にすることにより、iPSに代表されるような、より広範囲な遺伝子ネットワークを制御できるという効果が得られる。同様に、本実施形態では、発現相関を求める他方の遺伝子(第2の遺伝子)として、TGF-β/SMADシグナル因子を設定する例を示したが、これに限定されない。例えば、他方の遺伝子として、他のシグナル因子を設定するようにしてもよい。いずれかの一方の遺伝子をシグナル因子とし、上記実施形態のように、シグナル因子トータルでの発現相関について検討することにより、シグナル伝達機構において何らかのシグナル因子となった可能性が高いという示唆の確度を高めることができる。また、他方の遺伝子として、シグナル因子を構成しない遺伝子を適用するようにしてもよい。例えば、他方の遺伝子の対象を、シグナル伝達機構に含まれる遺伝子以外にも広げることで、本開示に係る技術は、酵素や結合タンパク質などにも応用することができ、同様の効果が期待される。
【産業上の利用可能性】
【0074】
以上説明したように、本発明は、2つの遺伝子の発現相関が高い細胞を抽出することができるという実用性の高い効果が得られることから、極めて有用である。
【符号の説明】
【0075】
12 演算処理部(演算処理部、発現量情報取得部)
13 記憶部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13