Top > Search of Japanese Patents > SYSTEM FOR ANALYZING MANIFESTATION PROFILE AND PROGRAM THEREOF

SYSTEM FOR ANALYZING MANIFESTATION PROFILE AND PROGRAM THEREOF achieved

Patent code P100000692
File No. 2008-P35
Posted date Jun 4, 2010
Application number P2009-063273
Publication number P2010-218150A
Patent number P5286594
Date of filing Mar 16, 2009
Date of publication of application Sep 30, 2010
Date of registration Jun 14, 2013
Inventor
  • (In Japanese)矢野 健太郎
  • (In Japanese)清水 顕史
Applicant
  • (In Japanese)学校法人明治大学
Title SYSTEM FOR ANALYZING MANIFESTATION PROFILE AND PROGRAM THEREOF achieved
Abstract PROBLEM TO BE SOLVED: To provide a system for analyzing a manifestation profile, analyzing a large amount of manifestation profile data using a normal computer at high speed, visualizing a manifestation pattern of genes, and easily conducting analysis to easily see which gene a new gene is functionally close to.
SOLUTION: The system for analyzing a manifestation profile is for analyzing a gene's manifestation profile data and includes a storage unit for setting the count of mRNAs that manifested themselves from an evaluated gene, i.e., the subject of evaluation, as manifestation data, for each of a plurality of manifestation conditions of each gene, and storing the manifestation data for the name of each manifested gene; a correspondence analysis processing section which reads the manifestation data from the storage unit for each evaluated gene and conducts a correspondence analysis based on the count at each manifestation condition in the manifestation data; a coordinate transformation processing section which transforms n-degree (n: natural number) scores obtained through the correspondence analysis into coordinate values for positioning each evaluated gene on an m-degree (m: natural number, m≤n); and an image processing section which plots each gene against the corresponding coordinate values for display in an image display unit.
Outline of related art and contending technology (In Japanese)


ゲノム解析研究の進展により、機能未知の新規遺伝子が大量に同定されており、その機能の解明を行う必要があり、その機能を示唆する情報を得るために、発現条件(遺伝子が発現する条件を示した情報)に対応した遺伝子の発現パターンが用いられている。
そのため、EST、MPSS、SAGE、CAGEなどにより、疾患患者や病理モデル動物の組織あるいは培養細胞などから取得した大量(数万レベル)の遺伝子の発現を網羅的に解析する処理が行われている。
すなわち、メッセンジャーRNA(以下、mRNA)のカウント数による遺伝子解析においては、遺伝子の発現パターンの特徴から、遺伝子発現プロファイル解析を用いることにより、対象となる全遺伝子のクラスタリングを行っている。



一般に、n個の遺伝子から構成されたmRNAを使用して、k個の独立した実験条件から得られたmRNAの発現頻度のデータを用いることにより、n個の各遺伝子それぞれがk次元の特徴空間におけるk次元の特徴ベクトルを有する座標点となる。
したがって、n個の各遺伝子は、それぞれの特徴ベクトルにより、上記特徴空間におけるn個の座標点の集合となる。
上記発現プロファイル解析とは、上記特徴空間上にプロットされた座標点、すなわち、遺伝子を特徴空間上にて類似したもの同士をグループ化して分類することである。



上述したグルーピングの処理により、例えば、正常な状態にある健常人において発現している遺伝子が、いずれかの疾患の患者では発現していない、または発現量が増加あるいは減少しているなど、疾患の患者に特異的な発現プロファイルを得ることにより、健常人にはなく、疾患に関与している特有の遺伝子を検出することができる。
このように、遺伝発現プロファイルは、機能が未知な遺伝子の機能予測のために用いられる重要なツールとなる。



遺伝子発現プロファイル解析においては、解析対象となるデータとして、遺伝子発現比の指標を行列化したものを用いている。
例えば、各行に評価する遺伝子群、各列にそれぞれサンプル群(標的とする表現型)を並べたものであり、この行と列が遺伝子発現プロファイルである。なお、サンプルとは、より具体的には、異なる複数の調査個体や同一個体でのTime Course実験で計測した表現型などを示す。例えば、100種類の遺伝子の発現量を、50個体で計測したとき、行列Aの要素Aij(i行j列の値、1≦i≦100、1≦j≦50)はi番目の遺伝子についてのj番目の個体が示す発現量を示す。



遺伝子発現プロファイル解析における膨大な量のサンプルから得られた結果の解析には、その結果を効率よく解析し、目的とする遺伝子を迅速に発見するための情報処理技術が必要となる。従来、このような技術として、例えば、クラスタリング解析、主成分分析などの特別な多変量解析、系統的解析が行われている(例えば、非特許文献1、非特許文献2参照)。



そして、遺伝子発現プロファイル解析は、遺伝子発現量(発現比)を対数変換して行われる。具体的には、対数変換は、発現レベルの比(発現比、ratio)を対数変換した指標(例えば、log2(ratio)など)とするものであり、マイクロアレイ実験によって、ある遺伝子の発現レベルをサンプル間で比較する場合に、主に用いられる。この対数変換を行う理由としては、例えば、log2(ratio)変換であれば、1/4 倍、1/2 倍、1 倍(等発現)、2 倍、4 倍といった発現比を-2, -1, 0, 1, 2 と1 倍を中心として等尺度へ変換でき、研究者にとって理解しやすいこと、統計解析を行う上で妥当であることなどが挙げられる。しかし、研究機関や研究者によって、この対数の底に2, e, 10 などを用いるなど統一性がなく、Web 上などで公開されたデータ間を直接比較ができないという学際的な問題がある。



また、クラスタリング解析は、多次元の特徴ベクトルに基づいて類似の遺伝子発現プロファイルをもつ遺伝子群やサンプル群を同一のクラスターに分割することができる。そのため、クラスタリング解析において、広く利用されている階層的クラスタリング(例えば、Ewingら、1999、Genome Res.9:950-959 の研究など)では、演算量の増加から汎用的な計算機による解析が困難となっている。また、現在の膨大なESTデータからは、一般に、数千から数万個の発現遺伝子が予測される。遺伝子発現パターンに対するクラスター解析結果の代表的な表現手法である樹状図は、遺伝子間の発現パターンの類似性を視覚的に捉えるための有用な表現方法である(後述する図8、「van't Veer, L.J., Dai, H., van de Vijver, M.J., He, Y.D., Hart, A.A., Mao, M., Peterse, H.L., van der Kooy, K., Marton, M.J., Witteveen, A.T., et al. (2002) Gene expression profiling predicts clinical outcome of breast cancer, Nature, 415, 530-536」における図1)が、遺伝子数が数千個以上となる場合には、樹状図全体を計算機モニターや印刷紙に出力することが困難であり、大規模な樹状図からの結果の解釈にも多大な労力を必要する。



すなわち、階層的クラスタリングは、遺伝子の数の増加に伴い計算量が多くなること、また、与えられたデータセットに依存して樹形図のトポロジーが変化しやすい、行列の大きさの増加とともに急激に解析時間が長くなり、計算機のCPUおよびメモリが必要であるなどの欠点も有している。
また、k-means法やSOM(Self Organizing Maps)法では、階層的クラスタリングと比較して、少ない計算機リソースで解析を行うことが可能である。しかし、解析を行う際に、クラスター数をあらかじめ決定する必要があり、恣意的な手法である。
また、多変量解析の1つである主成分分析手法では、高速に計算を実行することが可能であるが、プロファイルに対する解析手法ではないため、得られたスコアから発現プロファイルを比較することができない。



また、上述した各方法により得られた膨大な量(万のオーダー)のサンプルや遺伝子のクラスターを視覚的に把握することは困難であるという問題点も有している。そのため、現在、主に、ピアソンの相関係数などから大規模クラスターからターゲットとなるクラスターのみを取り出す操作が行われている。
しかしながら、得られたクラスターのViewerも必ずしも研究者にとって分かりやすいものではない(図8参照)。



上記図8に示したtwo-dimensional-displayと呼ばれるViewerは、各遺伝子と各サンプルを縦横(もしくは、その逆)に並べたものである。そして、各セルの色やその色の濃淡が、対応するサンプルと遺伝子の発現の強弱を示すように、視覚化されている。



また、主成分分析は、遺伝子発現プロファイルの数値の大きさを直接的に比較する統計手法であり、より高速な解析を行うことが可能である。
しかしながら、主成分分析では、高速な解析を行う結果、調査対象の表現型とは無関係なハウスキーピング遺伝子は、各主軸に対して異なるスコア(座標のようなもの)が出力されてしまうため、散布図にプロットした場合にも、検出が困難である。

Field of industrial application (In Japanese)


本発明は、遺伝子の発現プロファイルを解析するなどの発現プロファイルを解析する発現プロファイル解析システム及びそのプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
遺伝子の発現プロファイルデータを解析する発現プロファイル解析システムであり、
遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部と、
前記評価遺伝子毎に前記発現データを前記記憶部から読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理部と、
対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理部と、
前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理部と
を有することを特徴とする発現プロファイル解析システム。

【請求項2】
 
機能が既知である既知遺伝子を対応分析の処理に含め、当該既知遺伝子と前記評価遺伝子との前記n次元における座標の距離により、前記既知遺伝子と機能が類似した評価遺伝子の抽出処理を行うことを特徴とする請求項1に記載の発現プロファイル解析システム。

【請求項3】
 
各発現パラメータのみで発現した前記既知遺伝子をダミー遺伝子として対応分析の処理に含め、このダミー遺伝子の座標を前記n次元により表示される図形におけるいずれかの発現パラメータのみの発現条件を示す頂点とすることを特徴とする請求項2に記載の発現プロファイル解析システム。

【請求項4】
 
前記頂点に配置された前記ダミー遺伝子の座標と、前記評価遺伝子の座標との距離を求め、前記頂点の座標に対して、予め設定された距離内の座標に位置する評価遺伝子を抽出する類似発現条件検索部を
さらに有することを特徴とする請求項3に記載の発現プロファイル解析システム。

【請求項5】
 
前記評価遺伝子、前記既知遺伝子に対応する座標を選択することにより、この選択した遺伝子の画像の座標位置に配置されている遺伝子に関する情報を、前記記憶部から読み出して表示するデータ表示部を、さらに有することを特徴とする請求項2から請求項4のいずれかに記載の発現プロファイル解析システム。

【請求項6】
 
前記座標変換処理部が、対応分析処理部が求める各次元において、行スコアの寄与率が高い次元からその寄与率を積算し、積算結果の累積寄与率を予め設定した閾値と比較することにより、前記頂点からなる図形を、1次元、2次元または3次元のいずれかにて表示することを特徴とする請求項3から請求項5のいずれかに記載の発現プロファイル解析システム。


【請求項7】
 
遺伝子の発現プロファイルデータを解析する発現プロファイル解析プログラムであり、
遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部から、対応分析処理部が、前記評価遺伝子毎に前記発現データを読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理と、
座標変換処理部が、対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理と、
画像処理部が、前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理と
をコンピュータに実行させる発現プロファイル解析プログラム。
IPC(International Patent Classification)
F-term
  • 5L049DD06
Drawing

※Click image to enlarge.

JP2009063273thum.jpg
State of application right Registered
Please contact us by E-mail o if you have any interests on this patent.


PAGE TOP

close
close
close
close
close
close
close