Top > Quick Search > Search patent in Japan > GENE INFORMATION ESTIMATION APPARATUS USING TOPIC MODEL

GENE INFORMATION ESTIMATION APPARATUS USING TOPIC MODEL

Patent code P180015354
File No. N1-16009-T
Posted date Oct 22, 2018
Application number P2017-033381
Publication number P2018-139043A
Date of filing Feb 24, 2017
Date of publication of application Sep 6, 2018
Inventor
  • (In Japanese)岩山 幸治
  • (In Japanese)永野 惇
Applicant
  • (In Japanese)学校法人龍谷大学
Title GENE INFORMATION ESTIMATION APPARATUS USING TOPIC MODEL
Abstract PROBLEM TO BE SOLVED: To provide an apparatus that can estimate gene information with low cost and high accuracy.
SOLUTION: On the basis of an existing topic model, gene information using a new topic model suitable for the gene information is estimated. In this model, a generation distribution of words is replaced with a negative binomial distribution from a conventional multinomial distribution.
Outline of related art and contending technology (In Japanese)

近年、核酸塩基配列を次世代シーケンサで決定することで、遺伝子情報を網羅的に解析する技術が開発されている。例えば、DNA上の遺伝子は、転写、翻訳などを経てその機能を発現するが、この遺伝子発現の状態を解析する目的で、転写産物であるRNAの配列を次世代シーケンサで決定して遺伝子の発現を網羅的に定量するRNA-Seq法が用いられている(非特許文献1)。

RNA-Seq等の遺伝子情報には、数千から数万の遺伝子の情報が含まれるため、出力されるデータは高次元のカウントデータとなる。同様の高次元カウントデータを扱うことの多い自然言語処理の分野では、文書の潜在的な意味を扱う手法としてトピックモデルが提案されている。トピックモデルは、文書内の単語の共起に基づき、文書を構成するトピックと各トピックにおける単語の出現頻度を同時に推定する。トピックモデルをRNA-Seqで得られた遺伝子発現データに適用することで、類似した発現パターンを持つ遺伝子群をトピックとして抽出できるのではないかと考えられる。実際、トピックモデルの一つであるLatent Dirichle Allocation(LDA;非特許文献2)を、単一細胞のRNA-Seqデータに適用することで、推定されたトピックから細胞間の階層的な構造を推定できることが示されている(非特許文献3)。

Field of industrial application (In Japanese)

本発明は、トピックモデルを用いた遺伝子情報推定装置に関する。

Scope of claims (In Japanese)
【請求項1】
 
(i)複数のサンプルに対応する遺伝子情報の測定データを読み込む手順、
(ii)遺伝子情報の測定データに基づき遺伝子の平均出現頻度を算出する手順、
(iii)各サンプルの各遺伝子にトピックが割り当てられる確率を初期化する手順、
(iv)遺伝子へのトピック割り当て確率を更新する手順、
(v)トピック情報を更新する手順、
(vi)トピック情報の分散を更新する手順、
(vii)負の二項分布のdispersionパラメータを更新する手順、
および、
(viii)トピック情報およびトピック出現頻度から遺伝子情報を推定する手順、
を有する、
トピックモデルを用いた遺伝子情報推定装置。

【請求項2】
 
手順(iv)、(v)、および(vii)において、過分散の程度を表すパラメータをφiとし、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数をμskiとしたとき、サンプル(s)における遺伝子(i)の出現数(rsi)が、
【数1】
 
(省略)
という確率に従う、請求項1に記載の装置。

【請求項3】
 
サンプル(s)における全遺伝子のカウントの総和(νs)、全サンプルでの全遺伝子の出現数の総和に対する遺伝子(i)の出現数の割合の対数(mi)、指数分布あるいはジェフリーズ事前分布に従う分散(τki)、および平均が0で分散がτkiの正規分布に従うトピック(k)における遺伝子(i)の期待カウントの平均からのずれを表す量が与えられたときに、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数(μski)が
μski=νsexp(ηki+mi
と表される、請求項2に記載の装置。

【請求項4】
 
請求項1~3のいずれか一項に記載の遺伝子情報推定装置を構成する各手段としてコンピュータを機能させるための、遺伝子情報推定プログラム。

【請求項5】
 
請求項4に記載の遺伝子情報推定プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。

【請求項6】
 
(i)複数のサンプルに対応する遺伝子情報の測定データを読み込むステップ、
(ii)遺伝子情報の測定データに基づき遺伝子の平均出現頻度を算出するステップ、
(iii)各サンプルの各遺伝子にトピックが割り当てられる確率を初期化するステップ、
(iv)遺伝子へのトピック割り当て確率を更新するステップ、
(v)トピック情報を更新するステップ、
(vi)トピック情報の分散を更新するステップ、
(vii)負の二項分布のdispersionパラメータを更新するステップ、
および、
(viii)トピック情報およびトピック出現頻度から遺伝子情報を推定するステップ、
を有する、トピックモデルを用いた遺伝子情報推定方法。

【請求項7】
 
ステップ(iv)、(v)、および(vii)において、過分散の程度を表すパラメータをφiとし、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数をμskiとしたとき、サンプル(s)における遺伝子(i)の出現数(rsi)が、
【数2】
 
(省略)
という確率に従う、請求項6に記載の方法。

【請求項8】
 
サンプル(s)における全遺伝子のカウントの総和(νs)、全サンプルでの全遺伝子の出現数の総和に対する遺伝子(i)の出現数の割合の対数(mi)、指数分布あるいはジェフリーズ事前分布に従う分散(τki)、および平均が0で分散がτkiの正規分布に従うトピック(k)における遺伝子(i)の期待カウントの平均からのずれを表す量が与えられたときに、サンプル(s)においてトピック(k)を割り当てられた遺伝子(i)の期待出現数(μski)が
μski=νsexp(ηki+mi
と表される、請求項7に記載の方法。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2017033381thum.jpg
State of application right Published
Please contact us by E-mail or facsimile if you have any interests on this patent.


PAGE TOP

close
close
close
close
close
close
close