SYSTEM FOR ANALYZING EXPRESSION PROFILE AND PROGRAM THEREOF
外国特許コード | F110002384 |
---|---|
掲載日 | 2011年1月20日 |
出願国 | 世界知的所有権機関(WIPO) |
国際出願番号 | 2010JP001867 |
国際公開番号 | WO 2010/106794 |
国際出願日 | 平成22年3月16日(2010.3.16) |
国際公開日 | 平成22年9月23日(2010.9.23) |
優先権データ |
|
発明の名称 (英語) | SYSTEM FOR ANALYZING EXPRESSION PROFILE AND PROGRAM THEREOF |
発明の概要(英語) | Provided is a system for analyzing an expression profile whereby a great deal of expression profile data obtained by using a next-generation high-speed sequencer or a similar experimental technique is analyzed at a high speed with a computer commonly employed and thus the gene expression patterns are visualized to thereby easily analyze to what gene a novel gene is similar in function. A system for analyzing an expression profile whereby gene expression profile data is analyzed, which comprises: a memory unit for regarding the count of mRNAs, that have been expressed from a subject gene to be evaluated under each of a plural number of gene expression conditions, as expression data and memorizing the expression data with respect to the name of each subject gene; a correspondence analysis unit for reading out the expression data of each subject gene from the memory unit and conducting correspondence analysis on the basis of the count under each of the expression conditions in the expression data; a coordinate conversion unit for converting n-dimensional scores obtained by the correspondence analysis (wherein n represents a positive integer) into coordinate values for m-dimensionally assigning each gene (wherein m is a positive integer that is less than or equal to n); and an image processing unit for plotting the corresponding coordinate values with respect to each gene and displaying the plot in an image display unit. |
|
|
|
|
国際特許分類(IPC) |
|
指定国 | AE(UTILITY MODEL),AG,AL(UTILITY MODEL),AM(PROVISIONAL PATENT)(UTILITY MODEL),AO(UTILITY MODEL),AT(UTILITY MODEL),AU,AZ(UTILITY MODEL),BA,BB,BG(UTILITY MODEL),BH(UTILITY MODEL),BR(UTILITY MODEL),BW,BY(UTILITY MODEL),BZ(UTILITY MODEL),CA,CH,CL(UTILITY MODEL),CN(UTILITY MODEL),CO(UTILITY MODEL),CR(UTILITY MODEL),CU(INVENTOR'S CERTIFICATE),CZ(UTILITY MODEL),DE(UTILITY MODEL),DK(UTILITY MODEL),DM,DO(UTILITY MODEL),DZ,EC(UTILITY MODEL),EE(UTILITY MODEL),EG(UTILITY MODEL),ES(UTILITY MODEL),FI(UTILITY MODEL),GB,GD,GE(UTILITY MODEL),GH(UTILITY CERTIFICATE),GM,GT(UTILITY MODEL),HN(UTILITY MODEL),HR(CONSENSUAL PATENT),HU(UTILITY MODEL),ID,IL,IN,IS,KE(UTILITY MODEL),KG(UTILITY MODEL),KM,KN,KP(INVENTOR'S CERTIFICATE)(UTILITY MODEL),KR(UTILITY MODEL),KZ(PROVISIONAL PATENT)(UTILITY MODEL),LA,LC,LK,LR,LS(UTILITY MODEL),LT,LU,LY,MA,MD(UTILITY MODEL),ME,MG,MK,MN,MW,MX(UTILITY MODEL),MY(UTILITY-INNOVATION),MZ(UTILITY MODEL),NA,NG,NI(UTILITY MODEL),NO,NZ,OM(UTILITY MODEL),PE(UTILITY MODEL),PG,PH(UTILITY MODEL),PL(UTILITY MODEL),PT(UTILITY MODEL),RO,RS(PETTY PATENT),RU(UTILITY MODEL),SC,SD,SE,SG,SK(UTILITY MODEL),SL(UTILITY MODEL),SM,ST,SV(UTILITY MODEL),SY,TH(PETTY PATENT),TJ(UTILITY MODEL),TM(PROVISIONAL PATENT),TN,TR(UTILITY MODEL),TT(UTILITY CERTIFICATE),TZ,UA(UTILITY MODEL),UG(UTILITY CERTIFICATE),US,UZ(UTILITY MODEL),VC(UTILITY CERTIFICATE),VN(PATENT FOR UTILITY SOLUTION),ZA,ZM,ZW,EP(AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,SE,SI,SK,SM,TR),OA(BF(UTILITY MODEL),BJ(UTILITY MODEL),CF(UTILITY MODEL),CG(UTILITY MODEL),CI(UTILITY MODEL),CM(UTILITY MODEL),GA(UTILITY MODEL),GN(UTILITY MODEL),GQ(UTILITY MODEL),GW(UTILITY MODEL),ML(UTILITY MODEL),MR(UTILITY MODEL),NE(UTILITY MODEL),SN(UTILITY MODEL),TD(UTILITY MODEL),TG(UTILITY MODEL)),AP(BW(UTILITY MODEL),GH(UTILITY MODEL),GM(UTILITY MODEL),KE(UTILITY MODEL),LS(UTILITY MODEL),MW(UTILITY MODEL),MZ(UTILITY MODEL),NA(UTILITY MODEL),SD(UTILITY MODEL),SL(UTILITY MODEL),SZ(UTILITY MODEL),TZ(UTILITY MODEL),UG(UTILITY MODEL),ZM(UTILITY MODEL),ZW(UTILITY MODEL)),EA(AM,AZ,BY,KG,KZ,MD,RU,TJ,TM) |
日本語項目の表示
発明の名称 | 発現プロファイル解析システム及びそのプログラム |
---|---|
発明の概要 | 本発明により、次世代高速シーケンサーや類似の実験手法などから得られた大量の発現プロファイルデータを、通常のコンピュータにより高速に解析し、遺伝子の発現パターンを可視化し、容易に新規遺伝子がいずれの遺伝子に近い機能を有するかを容易に解析する発現プロファイル解析システムが提供される。本発明の発現プロファイル解析システムは、遺伝子の発現プロファイルデータを解析するものであり、遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとし、評価遺伝子名毎に記憶する記憶部と、評価遺伝子毎に発現データを記憶部から読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理部と、対応分析で得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理部と、遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理部を有する。 |
特許請求の範囲 |
【請求項1】 遺伝子の発現プロファイルデータを解析する発現プロファイル解析システムであり、 遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部と、 前記評価遺伝子毎に前記発現データを前記記憶部から読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理部と、 対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理部と、 前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理部と を有することを特徴とする発現プロファイル解析システム。 【請求項2】 機能が既知である既知遺伝子を対応分析の処理に含め、当該既知遺伝子と前記評価遺伝子との前記n次元における座標の距離により、前記既知遺伝子と機能が類似した評価遺伝子の抽出処理を行うことを特徴とする請求項1に記載の発現プロファイル解析システム。 【請求項3】 各発現パラメータのみで発現した前記既知遺伝子をダミー遺伝子として対応分析の処理に含め、このダミー遺伝子の座標を前記n次元により表示される図形におけるいずれかの発現パラメータのみの発現条件を示す頂点とすることを特徴とする請求項2に記載の発現プロファイル解析システム。 【請求項4】 前記頂点に配置された前記ダミー遺伝子の座標と、前記評価遺伝子の座標との距離を求め、前記頂点の座標に対して、予め設定された距離内の座標に位置する評価遺伝子を抽出する類似発現条件検索部を さらに有することを特徴とする請求項3に記載の発現プロファイル解析システム。 【請求項5】 前記評価遺伝子、前記既知遺伝子に対応する座標を選択することにより、この選択した遺伝子の画像の座標位置に配置されている遺伝子に関する情報を、前記記憶部から読み出して表示するデータ表示部を、さらに有することを特徴とする請求項2から請求項4のいずれか1項に記載の発現プロファイル解析システム。 【請求項6】 前記座標変換処理部が、対応分析処理部が求める各次元において、行スコアの寄与率が高い次元からその寄与率を積算し、積算結果の累積寄与率を予め設定した閾値と比較することにより、前記頂点からなる図形を、1次元、2次元または3次元のいずれかにて表示することを特徴とする請求項2から請求項5のいずれか1項に記載の発現プロファイル解析システム。 【請求項7】 遺伝子の発現プロファイルデータを解析する発現プロファイル解析プログラムであり、 遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部から、対応分析処理部が、前記評価遺伝子毎に前記発現データを読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理と、 座標変換処理部が、対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理と、 画像処理部が、前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理と をコンピュータに実行させる発現プロファイル解析プログラム。 |
明細書 |
【発明の名称】発現プロファイル解析システム及びそのプログラム 【技術分野】 本発明は、遺伝子の発現プロファイルを解析するなどの発現プロファイル解析システム及びそのプログラムに関する。 【背景技術】 ゲノム解析研究の進展により、機能未知の新規遺伝子が大量に同定されており、その機能の解明を行う必要があり、その機能を示唆する情報を得るために、発現条件(遺伝子が発現する条件を示した情報)に対応した遺伝子の発現パターンが用いられている。 一般に、n個の遺伝子から構成されたmRNAを使用して、k個の独立した実験条件から得られたmRNAの発現頻度のデータを用いることにより、n個の各遺伝子それぞれがk次元の特徴空間におけるk次元の特徴ベクトルを有する座標点となる。 上述したグループ化の処理により、例えば、正常な状態にある健常人において発現している遺伝子が、いずれかの疾患の患者では発現していない、または発現量が増加あるいは減少しているなど、疾患の患者に特異的な発現プロファイルを得ることにより、健常人にはなく、疾患に関与している特有の遺伝子を検出することができる。 遺伝子発現プロファイル解析においては、解析対象となるデータとして、遺伝子発現比の指標を行列化したものを用いている。 遺伝子発現プロファイル解析における膨大な量のサンプルから得られた結果の解析には、その結果を効率よく解析し、目的とする遺伝子を迅速に発見するための情報処理技術が必要となる。従来、このような技術として、例えば、クラスタリング解析、主成分分析などの特別な多変量解析、系統的解析が行われている(例えば、非特許文献1、非特許文献2参照)。 そして、遺伝子発現プロファイル解析は、遺伝子発現量(発現比)を対数変換して行われる。具体的には、対数変換は、発現レベルの比(発現比、ratio)を対数変換した指標(例えば、log2(ratio)など)とするものであり、マイクロアレイ実験によって、ある遺伝子の発現レベルをサンプル間で比較する場合に、主に用いられる。この対数変換を行う理由としては、例えば、log2(ratio)変換であれば、1/4 倍、1/2 倍、1 倍(等発現)、2 倍、4 倍といった発現比を-2, -1, 0, 1, 2 と1 倍を中心として等尺度へ変換でき、研究者にとって理解しやすいこと、統計解析を行う上で妥当であることなどが挙げられる。しかし、研究機関や研究者によって、この対数の底に2, e, 10 などを用いるなど統一性がなく、Web 上などで公開されたデータ間を直接比較ができないという学際的な問題がある。 また、クラスタリング解析では、多次元の特徴ベクトルに基づいて類似の遺伝子発現プロファイルをもつ遺伝子群やサンプル群を同一のクラスターに分割することができる。そのため、クラスタリング解析において、広く利用されている階層的クラスタリング(例えば、Ewingら、1999、Genome Res.9:950-959 の研究など)では、演算量の増加から汎用的な計算機による解析が困難となっている。また、現在の膨大なESTデータからは、一般に、数千から数万個の発現遺伝子が予測される。遺伝子発現パターンに対するクラスター解析結果の代表的な表現手法である樹状図は、遺伝子間の発現パターンの類似性を視覚的に捉えるための有用な表現方法である(後述する図8、「van't Veer, L.J., Dai, H., van de Vijver, M.J., He, Y.D., Hart, A.A., Mao, M., Peterse, H.L., van der Kooy, K., Marton, M.J., Witteveen, A.T., et al. (2002) Gene expression profiling predicts clinical outcome of breast cancer, Nature, 415, 530-536」における図1)が、遺伝子数が数千個以上となる場合には、樹状図全体を計算機モニターや印刷紙に出力することが困難であり、大規模な樹状図からの結果の解釈にも多大な労力を必要する。 すなわち、階層的クラスタリングは、遺伝子の数の増加に伴い計算量が多くなること、また、与えられたデータセットに依存して樹形図のトポロジーが変化しやすい、行列の大きさの増加とともに急激に解析時間が長くなり、計算機のCPUおよびメモリが必要であるなどの欠点も有している。 また、上述した各方法により得られた膨大な量(万のオーダー)のサンプルや遺伝子のクラスターを視覚的に把握することは困難であるという問題点も有している。そのため、現在、主に、ピアソンの相関係数などから大規模クラスターからターゲットとなるクラスターのみを取り出す操作が行われている。 上記図8に示したtwo-dimensional-displayと呼ばれるViewerは、各遺伝子と各サンプルを縦横(もしくは、その逆)に並べたものである。そして、各セルの色やその色の濃淡が、対応するサンプルと遺伝子の発現の強弱を示すように、視覚化されている。 また、主成分分析は、遺伝子発現プロファイルの数値の大きさを直接的に比較する統計手法であり、より高速な解析を行うことが可能である。 【先行技術文献】 【非特許文献】
【発明の概要】 【発明が解決しようとする課題】 上述したように、解析法には種々の問題点が存在するが、特に、解析時間(処理時間)が長くなる、また微量な遺伝子発現比に対する検出力が低い(量的形質に関与する遺伝子の検出力が低い)という問題点が大きい。 また、従来、主に用いられている階層的クラスタリング手法では、計算時間を短縮・簡略化するために、サンプル間の発現比が数倍以上もしくは数倍以下である遺伝子群を恣意的に注視している。これは、発現量が2~3倍などと大きく変化している遺伝子ほど明らかにサンプル間の表現型の差異に影響を及ぼしているであろうという期待に基づいている。 ところが、この階層的クラスタリング手法では、発現比が有意に異なっていても差異が小さい遺伝子群が解析対象から排除されてしまう。 上述したように、現在の解析的な立場には、極わずかに発現比が変化した遺伝子を、網羅的に発見するという視点が存在しないため、従来の解析手法(対数変換)では、微量な遺伝子発現比に対する検出力が低いという課題自体が存在しない。 そこで、本発明は、上記従来の課題に鑑みてなされたものであり、その目的は、膨大な量の発現プロファイルデータを、通常のコンピュータを用いた場合であっても迅速に解析するとともに、従来に比較して、遺伝子の発現パターンを可視化することにより、新規遺伝子がいずれのライブラリの遺伝子に近い機能を有するかを容易に解析することが可能な発現プロファイル解析システムおよびそのプログラムを提供することにある。 【課題を解決するための手段】 本発明の発現プロファイル解析システムは、遺伝子の発現プロファイルデータを解析する発現プロファイル解析システムであり、遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部と、前記評価遺伝子毎に前記発現データを前記記憶部から読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理部と、 本発明の発現プロファイル解析システムでは、機能が既知である既知遺伝子を対応分析の処理に含め、当該既知遺伝子と前記評価遺伝子との前記n次元における座標の距離により、前記既知遺伝子と機能が類似した評価遺伝子の抽出処理を行うことが好ましい。 本発明の発現プロファイル解析システムでは、各発現パラメータのみで発現した前記既知遺伝子をダミー遺伝子として対応分析の処理に含め、このダミー遺伝子の座標を前記n次元により表示される図形におけるいずれかの発現パラメータのみの発現条件を示す頂点とすることが好ましい。 本発明の発現プロファイル解析システムでは、前記頂点に配置された前記ダミー遺伝子の座標と、前記評価遺伝子の座標との距離を求め、前記頂点の座標に対して、予め設定された距離内の座標に位置する評価遺伝子を抽出する類似発現条件検索部をさらに有することが好ましい。 本発明の発現プロファイル解析システムでは、前記評価遺伝子、前記既知遺伝子に対応する座標を選択することにより、この選択した遺伝子の画像の座標位置に配置されている遺伝子に関する情報を、前記記憶部から読み出して表示するデータ表示部を、さらに有することが好ましい。 本発明の発現プロファイル解析システムでは、前記座標変換処理部が、対応分析処理部が求める各次元において、行スコアの寄与率が高い次元からその寄与率を積算し、積算結果の累積寄与率を予め設定した閾値と比較することにより、前記頂点からなる図形を、1次元、2次元または3次元のいずれかにて表示することが好ましい。 本発明の発現プロファイル解析プログラムは、遺伝子の発現プロファイルデータを解析する発現プロファイル解析プログラムであり、遺伝子の複数の発現条件毎の、評価対象の評価遺伝子から発現したmRNAのカウント数を発現データとして、前記評価遺伝子に対応して記憶する記憶部から、対応分析処理部が、前記評価遺伝子毎に前記発現データを読み出し、発現データにおける発現条件毎のカウント数により対応分析を行う対応分析処理と、座標変換処理部が、対応分析により得られるn(n:自然数)次元のスコアから、各評価遺伝子をm(m:自然数、m≦n)次元に配置する座標値に変換する座標変換処理と、画像処理部が、前記遺伝子毎に対応する座標値にプロットして画像表示部に表示する画像処理とをコンピュータに実行させる発現プロファイル解析プログラムである。 【発明の効果】 以上説明したように、本発明によれば、評価対象の評価遺伝子の発現条件毎のmRNA数のカウント値による対応分析により、各評価遺伝子をそれぞれの発現パターンに対応する座標値にて空間(解析空間)に配置し、画像表示部に表示可能な次元にて表示させるため、評価遺伝子の発現条件毎のカウント数からなる発現パターンの発現プロファイルが近い形状にある(一致あるいは類似している)、すなわち、機能が類似した遺伝子を、ユーザが上記画像表示部の表示画面から容易に抽出できる、という効果が得られる。 また、本発明によれば、いずれかの発現条件のみで発現する特異遺伝子の発現パターンを、解析対象(評価対象)の評価遺伝子からなる評価遺伝子群に含ませることにより、各特異遺伝子が各発現条件を示すマーカーとなるため、各解析対象の評価遺伝子がいずれの発現条件を要因として強く発現するかを、ユーザが容易に上記画像表示部の表示画面にて確認することができるという効果が得られる。 また、本発明によれば、ユーザが上記空間における任意の距離を入力し、特異遺伝子を選択することで、類似発現条件検索部がこの特異遺伝子を中心とした上記距離を半径とした球内に含まれる評価遺伝子を抽出するため、ユーザが設定した距離に応じた類似性を有する評価遺伝子を容易に抽出することができるという効果が得られる。 また、本発明によれば、機能が既知である既知遺伝子を評価遺伝子からなる評価遺伝子群に含ませることにより、各既知遺伝子が遺伝子の機能を示す発現条件のマーカーとなるため、各評価遺伝子が既知遺伝子の機能に近い機能を有するか否かを、ユーザが容易に上記画像表示部の表示画面にて確認することができるという効果が得られる。 また、本発明によれば、上記画像表示部の表示画面に表示されている各遺伝子の表示画像を選択することにより、各遺伝子の遺伝子配列や測定条件などの遺伝子に関する情報が上記画像表示部の表示画面に表示されるため、数多く表示されるなかで注目した遺伝子の固有情報を容易に確認することができるという効果が得られる。 また、本発明によれば、対応分析の結果得られる複数の次元の累積寄与率により、1次元、2次元、あるいは3次元にて画像表示するかを設定するため、画像表示部の表示画面において類似性を視認することが容易となるという効果が得られる。(ここで、2次元の場合、発現条件が2次元平面上において、2つの条件(2つの主軸)に特異的に発現するプロット位置である頂点間を結ぶ直線、あるいはこのプロット位置を頂点として形成される多角形として描画されることになる。この場合、プロット位置は2次元座標となる。) 【図面の簡単な説明】 【図1】本発明の一実施形態による発現プロファイル解析システムの構成例を示すブロック図である。 【図2】図1の記憶部7に記憶される発現データテーブルの構成例を示す概念図である。 【図3】図1の記憶部7に記憶されるスコアテーブルの構成例を示す概念図である。 【図4】図1の記憶部7に記憶される座標テーブルの構成例を示す概念図である。 【図5】3次元空間に5つの発現条件に対応した特異遺伝子の表示画像を頂点とした五面体を表示し、この五面体の各頂点を線分にて結び、かつ頂点の近傍に発現条件を示す文字列を表示した画像を示す概念図である。 【図6】3次元空間に5つの発現条件に対応した特異遺伝子の表示画像を頂点とした五面体を表示し、この五面体の各頂点を線分にて結び、遺伝子の表示画像を配置した画像を示す概念図である。 【図7】3次元空間に5つの発現条件に対応した特異遺伝子の表示画像を頂点とした6面体を表示し、この6面体の各頂点を線分にて結び、遺伝子の表示画像を配置した画像を示す概念図である。 【図8】従来の解析システムにおける遺伝子の発現プロファイルの解析結果の表示ツールの表示画面を示す概念図である。 【発明を実施するための形態】 以下、本発明の一実施形態による発現プロファイル解析システムを図面を参照して説明する。本実施形態における発現プロファイル解析システムは、遺伝子の発現プロファイルデータから得られる発現条件毎のカウント値による対応分析(例えば、大隅 昇、L.Lebart,/他 著”記述的多変量解析法”、1994、日科技連出版社に記載されている)に基づいて、予め設定した表現型に関与する遺伝子を推定・同定・予測する。 また、上記「表現型」とは、各遺伝子の性格付けに関連する任意の性質を示しており、定性的な指標、定量的な指標のいずれもが包含されている。例えば、疾病に関連するものでは疾病の名称、原因、進行状況、予後、余命や発症、再発、転移の可能性等が挙げられるが、特にこれに限定されるものではない。 特に、遺伝子から発現したmRNAから逆転写酵素を用いた逆転写反応によって合成されたcDNAクローンから得られるcDNA配列や発現遺伝子断片EST、また次世代高速シーケンサーから得られた発現遺伝子の配列は、転写産物の配列情報だけではなく、遺伝子が発現する生育ステージや器官、組織などの情報をも得ることができる。つまり、1つ以上の生物種について、ESTの配列と由来(生育ステージや器官)の情報収集と調査を行うことにより、生物種固有の発現遺伝子の探索から、生殖やストレス応答、植物の光合成、根からの養水分吸収などの様々な生物学的プロセスに関連する遺伝子の探索ができることを意味する。近年、多くの研究者によって動植物や微生物のEST解析が進められ、国際塩基配列データベースに登録されているESTエントリー数は、2000年10月現在の約623万件から2008年11月現在の約5834万件へと指数函数的に増加している。 以下、本実施形態における発現プロファイル解析システムについて説明する。図1は同実施形態による発現プロファイル解析システムの構成例を示すブロック図である。 記憶部7には、図2に示すように、解析する遺伝子名に対応して、この遺伝子において複数の発現条件毎、例えば、発現条件A、発現条件B、発現条件C、発現条件D、発現条件E毎の発現したmRNAのカウント数が示された発現データテーブルが記憶されている。 対応分析処理部1における対応分析について簡単に説明する。この対応分析は、主成分分析と同様に、n次元のデータを説明するための主軸を決定する解析手法である。 これにより、類似した働きを有する遺伝子は、いずれかの発現条件における発現量のみで検出されるものではなく、各発現条件に対応したmRNAのカウント値のプロファイルが近いと、類似した機能を有する遺伝子である。このため、対応分析は、この発現条件毎のカウント値のプロファイルである発現プロファイルから類似する働きを有する遺伝子群を抽出する目的には有用である。 対応分析の計算方法に従い、対応分析処理部1は、各遺伝子の発現データの発現パターンを求めるため、相対頻度の計算を行う。ここで、q個の遺伝子に関するp種類の発現条件の発現データq×p行列のi行j列の要素をkijとすると、対応分析処理部1は、相対頻度への変換として、以下に示す(1)式のi行目の列和ki・と、(2)式のj行目の行和k・jとの乗算結果により、各要素kijを除算する。ここで、p及びqは2以上の自然数である。これにより、全ての行及び列に等しく、発現条件毎のカウント値に重みを与えることができ、強度ではなく発現プロファイルにおける発現条件毎のカウント値のヒストグラムで形成されるパターン形状により、機能が類似した遺伝子を抽出することができる。 【数式1】 【数式2】 そして、対応分析処理部1は、相対頻度の計算によって得られた要素からなる相対頻度データ行列Cから転置行列CTを求め、相対頻度データ行列Cと、求めた転置行列CTとにより、CT×Cの行列を生成し、この行列の固有値及び固有ベクトルを算出し、発現データの違いを説明する複数の主軸を求める。 すなわち、対応分析の結果として、n次元(請求項におけるn次元に対応、nは自然数)において、各発現条件の座標値に対応した各遺伝子の座標がスコアとして求められる。このとき、より類似する発現条件に対し、より短い距離の座標としてのスコアとなり、より類似しない発現条件に対し、より長い距離を有する座標としてのスコアとなる。1つの主軸のみにより、表現型としての発現データの違いが説明されるのであれば、それは1次元の線分上であり、その主軸の寄与率は100%となる。 つまり、上記「寄与率」とは、表現型の変化について、各主軸により形成される平面上に説明がなされる割合を示している。また、上記寄与率の和を累積寄与率とする。このとき、第1主軸の寄与率は、第2主軸の寄与率と等しい、もしくは、それ以上となる。同様に、第3、第4主軸となるにしたがって、寄与率は低下する。第1および第2主軸によって表現型の違いの説明が可能な場合、解析結果を示す図は、1次元もしくは2次元プロットで描くことができる。また、表現型の違いの説明に、第3主軸までを必要とする場合には、解析結果を示す図は、3次元図(3次元空間)までのプロットで描くことができる。このように、対応分析では、累積寄与率が100%となるまで、次元の数(すなわち、主軸の数)が増えていく。 なお、上記寄与率は、各主軸に与えられる固有値から算出する。具体的には、全主軸の固有値の和に対する各主軸の固有値の比が、その主軸の寄与率となる。例えば、対応分析によって、表現型の変化を説明するために、10次元までの主軸(第1主軸~第10主軸)が得られたとき、各主軸に対して固有値が与えられる。そして、この各主軸に対する固有値の総和に対する各主軸の固有値の割合が寄与率となり、第1主軸から第10主軸まで順次寄与率の和を求めていったものが累積寄与率となる。 上述したように、主軸が1つの場合、1次元の線分における座標により表現型の違いが表現され、主軸が2つの場合、2次元の平面における座標により表現型の違いが表現され、主軸が3つの場合、3次元の空間における座標により表現型の違いが表現され、…、主軸がp-1個の場合、p-1次元の空間における座標により表現型の違いが表現されることになる。 しかし、対応分析の結果、4次元以上の主軸が算出された場合、4次元以上のプロットは、実際には不可能である(数学的には可能であるが、コンピュータ処理においては通常のプロットでは行わない)。 例えば、図2に示す発現データテーブルの発現条件のように、発現条件A、発現条件B、発現条件C、発現条件D及び発現条件Eの5つの発現条件を用いた場合、各発現条件にて特異的に発現するダミー遺伝子を含めることにより、5次元以下の主軸により各遺伝子の表現型を説明することになる。この例では、対応分析処理部1は、各遺伝子の配置される座標として、4次元に対応するスコア1、スコア2、スコア3、スコア4の4つの座標データとなる行スコアを求める。 座標変換処理部2は、対応分析結果の3次元までのスコア1、スコア2、スコア3が、上記寄与率とともに入力されると、1次元の寄与率と、1次元と2次元との寄与率を加算した累積寄与率と、1次元、2次元及び3次元の寄与率を加算した累積寄与率とのそれぞれを、予め設定していた設定寄与率と比較し、この設定寄与率を超える次元の組を表示する空間の次元とする。ここで、1次元の寄与率が最も高く、2次元、3次元となる毎に寄与率は低下している。 また、座標変換処理部2は、1次元と2次元との寄与率の加算した累積寄与率が上記設定寄与率を超えている場合、1次元と2次元とのスコアにて2次元空間に遺伝子の配置を行う。この場合、2次元平面において、各発現条件(特異遺伝子)の配置座標としての頂点からなる多角形の解析平面が形成される。この多角形内の2次元平面上において、多角形のいずれの頂点に、より近接しているかにより、それぞれの発現条件に強く起因して発現するかを示すことになる。ここで、1次元のスコアをx座標の座標値とし、2次元スコアをy座標の座標値として用いる。 また、座標変換処理部2は、例えば、3次元空間にて各遺伝子の表示画像を表示する場合、図3に示す各次元のデータ、すなわち、スコア1、スコア2及びスコア3が入力されると、各スコアにおける遺伝子毎に+のスコアと-のスコアとのそれぞれの絶対値を計算し、いずれか最大値を検出し、その最大値により各遺伝子のスコアを除算し、座標値とする。これにより、各遺伝子の表示画像及び頂点は、x軸、y軸及びz軸における座標空間において、実数の範囲において配置されることになる。 画像処理部3は、記憶部7から各発現条件に対応した頂点の座標値を読み込み、画像表示部4の上記表示空間に対し、図5に示すように発現条件A、発現条件B、発現条件C、発現条件D及び発現条件Eの5つの頂点と、各頂点を結ぶ線分を表示する。このとき、画像処理部3は、各頂点近傍に、それぞれの頂点が対応する発現条件を示す文字列を表示する。例えば、画像処理部3は、発現条件Aに対応する頂点近傍に、発現条件を示す「A」の文字列を表示する。この文字列は、各発現条件に対応して記憶部7に記憶されており、画像処理部3が図5の発現条件を頂点とする図形を描画する際に、記憶部7から各発現条件に対応して読み出し、対応する発現条件の頂点近傍に表示する。 そして、画像処理部3は、図4の座標テーブルから順次、各遺伝子の座標値を順次読み込み、各発現条件を頂点とした図形の多面体、すなわち、この例では、最大5個の頂点を有する多面体内部の解析空間に、図6に示すように、各遺伝子を示す表示画像(例えば、球状ドット、立方体状ドット、あるいは文字など)を、遺伝子に対応した座標値に表示する。図5及び図6では、3次元の主軸を用い、3次元空間において示される多面体とし、五面体を例として示している。 また、各頂点間を結ぶ線分上には、この線分により接続されている2つの頂点の発現条件に対応して発現した遺伝子が配置される。 図7においては、上述した発現条件A及び発現条件Cを結ぶ線上と、発現条件A及び発現条件Dを結ぶ線上と、発現条件C及び発現条件Dを結ぶ線上とにのみ、遺伝子が配置されている。 また、画像処理部3は、各頂点を結ぶ線分上に配置する遺伝子の表示画像の色を、各線分毎に異なる色とする。 データ表示部6は、画像表示部4の表示画面上にて、ユーザがマウスをクリックするなどして選択した遺伝子の座標データに対応し、この座標に配置されている遺伝子の遺伝子名を、記憶部7に記憶している座標テーブルから、座標値に対応して読み出す。 類似発現条件検索部5は、図示しないマウスやキーボードなどにより、ユーザが入力した距離の値と、選択した遺伝子(例えば、ダミー遺伝子)の座標から、入力された距離を半径とする球内に含まれる遺伝子の色を他の配置された遺伝子の色と変化させる。 また、興味ある発現パターンが複雑な場合、すなわち、各発現条件におけるカウント値のヒストグラムが複雑な分布を有した形状である場合、対応する発現パターンを有する既知遺伝子を、発現データテーブルに付加する(加える)ことにより、興味ある発現パターンの既知遺伝子の座標、及びこの既知遺伝子との距離が他の遺伝子より短い類似した機能の遺伝子を容易に検出することができる。 また、対応分析においては、分析の結果得られた、行スコアと列スコアとの各々のプロットを、1次元の場合には同一の直線上、2次元の場合には同一の平面上、また3次元の場合には同一の空間上に、配置する(biplot)ことができる。 なお、図1における発現プロファイル解析システムの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより発現プロファイルの解析処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 【産業上の利用可能性】 本発明により、次世代高速シーケンサーや類似の実験手法などから得られた大量の発現プロファイルデータを、通常のコンピュータにより高速に解析し、遺伝子の発現パターンを可視化し、容易に新規遺伝子がいずれの遺伝子に近い機能を有するかを容易に解析する発現プロファイル解析システムが提供されるため、本発明は産業上極めて有用である。 【符号の説明】 1…対応分析処理部 |
『 SYSTEM FOR ANALYZING EXPRESSION PROFILE AND PROGRAM THEREOF 』に関するお問合せ
- 学校法人明治大学 研究推進部 生田研究知財事務室
- URL: https://www.meiji.ac.jp/tlo/
-
E-mail:
- Address: 〒214-8571 神奈川県川崎市多摩区東三田1-1-1
- TEL: 044-934-7639