TOP > 国内特許検索 > 発現プロファイル解析システム及びそのプログラム

発現プロファイル解析システム及びそのプログラム 実績あり

国内特許コード P100000692
整理番号 2008-P35
掲載日 2010年6月4日
出願番号 特願2009-063273
公開番号 特開2010-218150
登録番号 特許第5286594号
出願日 平成21年3月16日(2009.3.16)
公開日 平成22年9月30日(2010.9.30)
登録日 平成25年6月14日(2013.6.14)
発明者
  • 矢野 健太郎
  • 清水 顕史
出願人
  • 学校法人明治大学
発明の名称 発現プロファイル解析システム及びそのプログラム 実績あり
発明の概要 【課題】大量の発現プロファイルデータを、通常のコンピュータにより高速に解析し、遺伝子の発現パターンを可視化し、容易に新規遺伝子がいずれの遺伝子に近い機能を有するかを容易に解析する発現プロファイル解析システムを提供する。
【解決手段】本発明の発現プロファイル解析システムは、遺伝子の発現プロファイルデータを解析するものであり、遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとし、評価遺伝子名毎に記憶する記憶部と、評価遺伝子毎に発現データを記憶部から読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理部と、対応分析で得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理部と、遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理部を有する。
【選択図】図1
従来技術、競合技術の概要


ゲノム解析研究の進展により、機能未知の新規遺伝子が大量に同定されており、その機能の解明を行う必要があり、その機能を示唆する情報を得るために、発現条件(遺伝子が発現する条件を示した情報)に対応した遺伝子の発現パターンが用いられている。
そのため、EST、MPSS、SAGE、CAGEなどにより、疾患患者や病理モデル動物の組織あるいは培養細胞などから取得した大量(数万レベル)の遺伝子の発現を網羅的に解析する処理が行われている。
すなわち、メッセンジャーRNA(以下、mRNA)のカウント数による遺伝子解析においては、遺伝子の発現パターンの特徴から、遺伝子発現プロファイル解析を用いることにより、対象となる全遺伝子のクラスタリングを行っている。



一般に、n個の遺伝子から構成されたmRNAを使用して、k個の独立した実験条件から得られたmRNAの発現頻度のデータを用いることにより、n個の各遺伝子それぞれがk次元の特徴空間におけるk次元の特徴ベクトルを有する座標点となる。
したがって、n個の各遺伝子は、それぞれの特徴ベクトルにより、上記特徴空間におけるn個の座標点の集合となる。
上記発現プロファイル解析とは、上記特徴空間上にプロットされた座標点、すなわち、遺伝子を特徴空間上にて類似したもの同士をグループ化して分類することである。



上述したグルーピングの処理により、例えば、正常な状態にある健常人において発現している遺伝子が、いずれかの疾患の患者では発現していない、または発現量が増加あるいは減少しているなど、疾患の患者に特異的な発現プロファイルを得ることにより、健常人にはなく、疾患に関与している特有の遺伝子を検出することができる。
このように、遺伝発現プロファイルは、機能が未知な遺伝子の機能予測のために用いられる重要なツールとなる。



遺伝子発現プロファイル解析においては、解析対象となるデータとして、遺伝子発現比の指標を行列化したものを用いている。
例えば、各行に評価する遺伝子群、各列にそれぞれサンプル群(標的とする表現型)を並べたものであり、この行と列が遺伝子発現プロファイルである。なお、サンプルとは、より具体的には、異なる複数の調査個体や同一個体でのTime Course実験で計測した表現型などを示す。例えば、100種類の遺伝子の発現量を、50個体で計測したとき、行列Aの要素Aij(i行j列の値、1≦i≦100、1≦j≦50)はi番目の遺伝子についてのj番目の個体が示す発現量を示す。



遺伝子発現プロファイル解析における膨大な量のサンプルから得られた結果の解析には、その結果を効率よく解析し、目的とする遺伝子を迅速に発見するための情報処理技術が必要となる。従来、このような技術として、例えば、クラスタリング解析、主成分分析などの特別な多変量解析、系統的解析が行われている(例えば、非特許文献1、非特許文献2参照)。



そして、遺伝子発現プロファイル解析は、遺伝子発現量(発現比)を対数変換して行われる。具体的には、対数変換は、発現レベルの比(発現比、ratio)を対数変換した指標(例えば、log2(ratio)など)とするものであり、マイクロアレイ実験によって、ある遺伝子の発現レベルをサンプル間で比較する場合に、主に用いられる。この対数変換を行う理由としては、例えば、log2(ratio)変換であれば、1/4 倍、1/2 倍、1 倍(等発現)、2 倍、4 倍といった発現比を-2, -1, 0, 1, 2 と1 倍を中心として等尺度へ変換でき、研究者にとって理解しやすいこと、統計解析を行う上で妥当であることなどが挙げられる。しかし、研究機関や研究者によって、この対数の底に2, e, 10 などを用いるなど統一性がなく、Web 上などで公開されたデータ間を直接比較ができないという学際的な問題がある。



また、クラスタリング解析は、多次元の特徴ベクトルに基づいて類似の遺伝子発現プロファイルをもつ遺伝子群やサンプル群を同一のクラスターに分割することができる。そのため、クラスタリング解析において、広く利用されている階層的クラスタリング(例えば、Ewingら、1999、Genome Res.9:950-959 の研究など)では、演算量の増加から汎用的な計算機による解析が困難となっている。また、現在の膨大なESTデータからは、一般に、数千から数万個の発現遺伝子が予測される。遺伝子発現パターンに対するクラスター解析結果の代表的な表現手法である樹状図は、遺伝子間の発現パターンの類似性を視覚的に捉えるための有用な表現方法である(後述する図8、「van't Veer, L.J., Dai, H., van de Vijver, M.J., He, Y.D., Hart, A.A., Mao, M., Peterse, H.L., van der Kooy, K., Marton, M.J., Witteveen, A.T., et al. (2002) Gene expression profiling predicts clinical outcome of breast cancer, Nature, 415, 530-536」における図1)が、遺伝子数が数千個以上となる場合には、樹状図全体を計算機モニターや印刷紙に出力することが困難であり、大規模な樹状図からの結果の解釈にも多大な労力を必要する。



すなわち、階層的クラスタリングは、遺伝子の数の増加に伴い計算量が多くなること、また、与えられたデータセットに依存して樹形図のトポロジーが変化しやすい、行列の大きさの増加とともに急激に解析時間が長くなり、計算機のCPUおよびメモリが必要であるなどの欠点も有している。
また、k-means法やSOM(Self Organizing Maps)法では、階層的クラスタリングと比較して、少ない計算機リソースで解析を行うことが可能である。しかし、解析を行う際に、クラスター数をあらかじめ決定する必要があり、恣意的な手法である。
また、多変量解析の1つである主成分分析手法では、高速に計算を実行することが可能であるが、プロファイルに対する解析手法ではないため、得られたスコアから発現プロファイルを比較することができない。



また、上述した各方法により得られた膨大な量(万のオーダー)のサンプルや遺伝子のクラスターを視覚的に把握することは困難であるという問題点も有している。そのため、現在、主に、ピアソンの相関係数などから大規模クラスターからターゲットとなるクラスターのみを取り出す操作が行われている。
しかしながら、得られたクラスターのViewerも必ずしも研究者にとって分かりやすいものではない(図8参照)。



上記図8に示したtwo-dimensional-displayと呼ばれるViewerは、各遺伝子と各サンプルを縦横(もしくは、その逆)に並べたものである。そして、各セルの色やその色の濃淡が、対応するサンプルと遺伝子の発現の強弱を示すように、視覚化されている。



また、主成分分析は、遺伝子発現プロファイルの数値の大きさを直接的に比較する統計手法であり、より高速な解析を行うことが可能である。
しかしながら、主成分分析では、高速な解析を行う結果、調査対象の表現型とは無関係なハウスキーピング遺伝子は、各主軸に対して異なるスコア(座標のようなもの)が出力されてしまうため、散布図にプロットした場合にも、検出が困難である。

産業上の利用分野


本発明は、遺伝子の発現プロファイルを解析するなどの発現プロファイルを解析する発現プロファイル解析システム及びそのプログラムに関する。

特許請求の範囲 【請求項1】
遺伝子の発現プロファイルデータを解析する発現プロファイル解析システムであり、
遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部と、
前記評価遺伝子毎に前記発現データを前記記憶部から読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理部と、
対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理部と、
前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理部と
を有することを特徴とする発現プロファイル解析システム。

【請求項2】
機能が既知である既知遺伝子を対応分析の処理に含め、当該既知遺伝子と前記評価遺伝子との前記n次元における座標の距離により、前記既知遺伝子と機能が類似した評価遺伝子の抽出処理を行うことを特徴とする請求項1に記載の発現プロファイル解析システム。

【請求項3】
各発現パラメータのみで発現した前記既知遺伝子をダミー遺伝子として対応分析の処理に含め、このダミー遺伝子の座標を前記n次元により表示される図形におけるいずれかの発現パラメータのみの発現条件を示す頂点とすることを特徴とする請求項2に記載の発現プロファイル解析システム。

【請求項4】
前記頂点に配置された前記ダミー遺伝子の座標と、前記評価遺伝子の座標との距離を求め、前記頂点の座標に対して、予め設定された距離内の座標に位置する評価遺伝子を抽出する類似発現条件検索部を
さらに有することを特徴とする請求項に記載の発現プロファイル解析システム。

【請求項5】
前記評価遺伝子、前記既知遺伝子に対応する座標を選択することにより、この選択した遺伝子の画像の座標位置に配置されている遺伝子に関する情報を、前記記憶部から読み出して表示するデータ表示部を、さらに有することを特徴とする請求項2から請求項4のいずれかに記載の発現プロファイル解析システム。

【請求項6】
前記座標変換処理部が、対応分析処理部が求める各次元において、行スコアの寄与率が高い次元からその寄与率を積算し、積算結果の累積寄与率を予め設定した閾値と比較することにより、前記頂点からなる図形を、1次元、2次元または3次元のいずれかにて表示することを特徴とする請求項から請求項5のいずれかに記載の発現プロファイル解析システム。


【請求項7】
遺伝子の発現プロファイルデータを解析する発現プロファイル解析プログラムであり、
遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部から、対応分析処理部が、前記評価遺伝子毎に前記発現データを読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理と、
座標変換処理部が、対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理と、
画像処理部が、前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理と
をコンピュータに実行させる発現プロファイル解析プログラム。
国際特許分類(IPC)
Fターム
  • 5L049DD06
画像

※ 画像をクリックすると拡大します。

JP2009063273thum.jpg
出願権利状態 登録
掲載中の発明について更に詳しい内容の説明を御希望の際は、お気軽にお問い合せください。


PAGE TOP

close
close
close
close
close
close
close