TOP > 国内特許検索 > トピックモデルを用いた遺伝子情報推定装置

トピックモデルを用いた遺伝子情報推定装置 NEW

国内特許コード P180015354
整理番号 N1-16009-T
掲載日 2018年10月22日
出願番号 特願2017-033381
公開番号 特開2018-139043
出願日 平成29年2月24日(2017.2.24)
公開日 平成30年9月6日(2018.9.6)
発明者
  • 岩山 幸治
  • 永野 惇
出願人
  • 学校法人 龍谷大学
発明の名称 トピックモデルを用いた遺伝子情報推定装置 NEW
発明の概要 【課題】低コストかつ高精度で遺伝子情報を推定できる装置を提供する。
【解決手段】既存のトピックモデルに基づき、遺伝子情報に適した新しいトピックモデルを用いた遺伝子情報を推定する。このモデルでは単語の生成分布を従来の多項分布から負の二項分布に置き換える。
【選択図】図2
従来技術、競合技術の概要


近年、核酸塩基配列を次世代シーケンサで決定することで、遺伝子情報を網羅的に解析する技術が開発されている。例えば、DNA上の遺伝子は、転写、翻訳などを経てその機能を発現するが、この遺伝子発現の状態を解析する目的で、転写産物であるRNAの配列を次世代シーケンサで決定して遺伝子の発現を網羅的に定量するRNA-Seq法が用いられている(非特許文献1)。



RNA-Seq等の遺伝子情報には、数千から数万の遺伝子の情報が含まれるため、出力されるデータは高次元のカウントデータとなる。同様の高次元カウントデータを扱うことの多い自然言語処理の分野では、文書の潜在的な意味を扱う手法としてトピックモデルが提案されている。トピックモデルは、文書内の単語の共起に基づき、文書を構成するトピックと各トピックにおける単語の出現頻度を同時に推定する。トピックモデルをRNA-Seqで得られた遺伝子発現データに適用することで、類似した発現パターンを持つ遺伝子群をトピックとして抽出できるのではないかと考えられる。実際、トピックモデルの一つであるLatent Dirichle Allocation(LDA;非特許文献2)を、単一細胞のRNA-Seqデータに適用することで、推定されたトピックから細胞間の階層的な構造を推定できることが示されている(非特許文献3)。

産業上の利用分野


本発明は、トピックモデルを用いた遺伝子情報推定装置に関する。

特許請求の範囲 【請求項1】
(i)複数のサンプルに対応する遺伝子情報の測定データを読み込む手順、
(ii)遺伝子情報の測定データに基づき遺伝子の平均出現頻度を算出する手順、
(iii)各サンプルの各遺伝子にトピックが割り当てられる確率を初期化する手順、
(iv)遺伝子へのトピック割り当て確率を更新する手順、
(v)トピック情報を更新する手順、
(vi)トピック情報の分散を更新する手順、
(vii)負の二項分布のdispersionパラメータを更新する手順、
および、
(viii)トピック情報およびトピック出現頻度から遺伝子情報を推定する手順、
を有する、
トピックモデルを用いた遺伝子情報推定装置。

【請求項2】
手順(iv)、(v)、および(vii)において、過分散の程度を表すパラメータをφとし、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数をμskiとしたとき、サンプル(s)における遺伝子(i)の出現数(rsi)が、
【数1】


という確率に従う、請求項1に記載の装置。

【請求項3】
サンプル(s)における全遺伝子のカウントの総和(ν)、全サンプルでの全遺伝子の出現数の総和に対する遺伝子(i)の出現数の割合の対数(m)、指数分布あるいはジェフリーズ事前分布に従う分散(τki)、および平均が0で分散がτkiの正規分布に従うトピック(k)における遺伝子(i)の期待カウントの平均からのずれを表す量が与えられたときに、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数(μski)が
μski=νexp(ηki+m
と表される、請求項2に記載の装置。

【請求項4】
請求項1~3のいずれか一項に記載の遺伝子情報推定装置を構成する各手段としてコンピュータを機能させるための、遺伝子情報推定プログラム。

【請求項5】
請求項4に記載の遺伝子情報推定プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。

【請求項6】
(i)複数のサンプルに対応する遺伝子情報の測定データを読み込むステップ、
(ii)遺伝子情報の測定データに基づき遺伝子の平均出現頻度を算出するステップ、
(iii)各サンプルの各遺伝子にトピックが割り当てられる確率を初期化するステップ、
(iv)遺伝子へのトピック割り当て確率を更新するステップ、
(v)トピック情報を更新するステップ、
(vi)トピック情報の分散を更新するステップ、
(vii)負の二項分布のdispersionパラメータを更新するステップ、
および、
(viii)トピック情報およびトピック出現頻度から遺伝子情報を推定するステップ、
を有する、トピックモデルを用いた遺伝子情報推定方法。

【請求項7】
ステップ(iv)、(v)、および(vii)において、過分散の程度を表すパラメータをφとし、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数をμskiとしたとき、サンプル(s)における遺伝子(i)の出現数(rsi)が、
【数2】


という確率に従う、請求項6に記載の方法。

【請求項8】
サンプル(s)における全遺伝子のカウントの総和(ν)、全サンプルでの全遺伝子の出現数の総和に対する遺伝子(i)の出現数の割合の対数(m)、指数分布あるいはジェフリーズ事前分布に従う分散(τki)、および平均が0で分散がτkiの正規分布に従うトピック(k)における遺伝子(i)の期待カウントの平均からのずれを表す量が与えられたときに、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数(μski)が
μski=νexp(ηki+m
と表される、請求項7に記載の方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2017033381thum.jpg
出願権利状態 公開
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記「問合せ先」までお問い合わせください。


PAGE TOP

close
close
close
close
close
close
close