Top > Search of Japanese Patents > BASE SEQUENCE CLASSIFICATION SYSTEM AND OLIGONUCLEOTIDE APPEARANCE FREQUENCY ANALYSIS SYSTEM

BASE SEQUENCE CLASSIFICATION SYSTEM AND OLIGONUCLEOTIDE APPEARANCE FREQUENCY ANALYSIS SYSTEM foreign

Patent code P110005470
Posted date Aug 18, 2011
Application number P2003-328845
Publication number P2005-092786A
Patent number P3928050
Date of filing Sep 19, 2003
Date of publication of application Apr 7, 2005
Date of registration Mar 16, 2007
Inventor
  • (In Japanese)池村 淑道
  • (In Japanese)阿部 貴志
  • (In Japanese)中川 智
  • (In Japanese)上月 登喜男
  • (In Japanese)金谷 重彦
  • (In Japanese)木ノ内 誠
Applicant
  • (In Japanese)大学共同利用機関法人情報・システム研究機構
Title BASE SEQUENCE CLASSIFICATION SYSTEM AND OLIGONUCLEOTIDE APPEARANCE FREQUENCY ANALYSIS SYSTEM foreign
Abstract PROBLEM TO BE SOLVED: To provide a base sequence classification system capable of creating a self-organization map SOM in a short time without any significant reduction in classification ability and an oligonucleotide appearance frequency analysis system capable of grasping an appearance frequency of each oligonucleotide in each biological classification and predicting a position of frequent existence of a signal sequence in a DNA base sequence.
SOLUTION: This oligonucleotide appearance frequency analysis system is provided with a complementary data addition part 1 adding an appearance frequency of complementary pairing oligonucleotides to compute an appearance frequency of each oligonucleotide pair, an SOM creation part creating an SOM based on the appearance frequency of each pair, an appearance frequency map creation part 6 creating an appearance frequency map representing information about the appearance frequency of the oligonucleotide in each lattice point, and an appearance frequency distribution chart creation part 7 creating an appearance frequency distribution chart showing distribution of appearance frequencies of the respective oligonucleotides on a DNA sequence.
Outline of related art and contending technology (In Japanese)

因子対応分析や主成分分析(PCA)のような多変量分析が、遺伝子配列の差異を調査するのに用いられ、成功を収めている。しかしながら、従来の多変量分析のクラスタリング能力は、多種多様なゲノムから得られた大量の配列データを集合的に分析する場合には、不十分である。

コホネンが開発した、競合ニューラルネットワークを利用した自己組織化マップ(Self Organizing Map;以下、「SOM」と略記する)は、画像、音声や指紋等の認識や工業製品の生産プロセスの制御に利用されてきた(非特許文献1、非特許文献2)。SOMは、多次元データを結合重みベクトルの2次元配列上に非線形写像したものであり、高次元データ空間のトポロジーを効果的に保存する。SOMは、高次元の複雑なデータを二次元平面上にクラスタリングおよび視覚化するための強力なツールである。

近年、様々の生物のゲノム情報の解明に伴い、膨大な量の生命情報が蓄積しつつあり、コンピュータを用いてこれら生命情報から生命の謎を解くことも医薬開発等の面から重要になり、SOMの応用が盛んになっている。本願発明者等は、ゲノム情報科学のために従来のSOM作成法を改良した改良型のSOM作成法を提案した(特許文献1、非特許文献3・4参照)。この改良は、学習プロセスおよび作成されるマップ(SOM)がデータ入力の順序に依存しないよう、データ入力および学習を一括処理する一括学習SOM作成法に基づいている。また、改良型SOM作成法では、主成分分析(PCA)を使用して初期結合重みベクトルを定義している。したがって、改良型SOMは、データ入力の順序だけでなく初期条件にも依存しない。

例えば、特許文献1の実施例1では、高次元の入力データとしての16種類の微生物のコドン(トリヌクレオチド)使用頻度に基づいて、改良型のSOMを用いて微生物の遺伝子を分類したSOMを作成する方法が開示されている。
【特許文献1】
国際公開第WO 02/50767 A1号(2002年6月27日公開)
【非特許文献1】
自己組織化マップの応用-多次元情報の2次元可視化」(徳高平蔵、岸田悟、藤村喜久郎著、海文堂出版株式会杜、1999年7月20日初版発行、ISBN4-303-73230-3)
【非特許文献2】
「自己組織化マップ(Self Organizing-Map)」(T,コホネン著、徳高平蔵、岸田悟、藤村喜久郎訳、シュブリンガー・フェアラーク東京株式会社、1996年6月15日発行、ISBN4-431-70700-XC3055)
【非特許文献3】
Kanaya, S., Kinouchi, M., Abe, T., Kudo, Y, Yamada, V., Nishi, T., Marl, H. and Ikemura, T. (2001) Analysis of codon usage diversity of bacterial genes with a self-organizing map (SOM): characterization of horizontally transferred genes with emphasis on the E. coli 0157 genome. Gene 276, 89-99.
【非特許文献4】
Abe, T., Kanaya, S., Kinouchi, M., Ichiba, V., Kozuki, T. and Ikemura, T. (2003) Informatics for unveiling hidden genome signatures. Genome Res. 13, 693-702.

Field of industrial application (In Japanese)

本発明は、塩基配列中において複数種類のオリゴヌクレオチドがそれぞれ出現する出現頻度に基づいて、塩基配列を生物学的分類に分類するための自己組織化マップを作成する塩基配列の分類システム、および、上記自己組織化マップを用いてオリゴヌクレオチドの出現頻度の偏り(種のような生物学的分類による偏りや、DNA配列の位置による偏り)を解析するためのオリゴヌクレオチド出現頻度の解析システムに関するものである。

Scope of claims (In Japanese)
【請求項1】
 
塩基配列中において複数種類のオリゴヌクレオチドがそれぞれ出現する出現頻度を入力ベクトル群として多次元空間上に配置し、これら入力ベクトル群を複数の格子点が配置されたマップ上へ非線形に写像して上記塩基配列を各格子点に分類する自己組織化により、自己組織化マップを作成する塩基配列の分類システムであって、
複数の塩基配列中において複数種類のオリゴヌクレオチドの1つずつがそれぞれ出現する出現頻度のデータを格納しているオリゴヌクレオチド出現頻度データ格納部と、
上記オリゴヌクレオチド出現頻度データ格納部に格納された1つずつのオリゴヌクレオチドの出現頻度のデータを取り出し、相補的な対をなすオリゴヌクレオチドの出現頻度を加算することにより、各対ごとのオリゴヌクレオチドの出現頻度を算出し、算出された各対ごとのオリゴヌクレオチドの出現頻度のデータを出力する加算部と、
上記加算部から出力された各対ごとのオリゴヌクレオチドの出現頻度のデータに基づき、各対ごとのオリゴヌクレオチドの出現頻度を上記入力ベクトル群として上記自己組織化を行うことにより上記自己組織化マップを作成し、作成された自己組織化マップのデータを出力する自己組織化マップ作成部とを備えることを特徴とする塩基配列の分類システム。

【請求項2】
 
複数の塩基配列中において複数種類のオリゴヌクレオチドの1つずつがそれぞれ出現する出現頻度のデータを格納しているオリゴヌクレオチド出現頻度データ格納部と、
上記オリゴヌクレオチド出現頻度データ格納部に格納された1つずつのオリゴヌクレオチドの出現頻度のデータを取り出し、相補的な対をなすオリゴヌクレオチドの出現頻度を加算することにより、各対ごとのオリゴヌクレオチドの出現頻度を算出し、算出された各対ごとのオリゴヌクレオチドの出現頻度のデータを出力する加算部と、
上記加算部から出力された各対ごとのオリゴヌクレオチドの出現頻度のデータに基づき、各対ごとのオリゴヌクレオチドの出現頻度を入力ベクトル群として多次元空間上に配置し、これら入力ベクトル群を複数の格子点が配置されたマップ上へ非線形に写像して上記塩基配列を各格子点に分類する自己組織化により、自己組織化マップを作成し、作成された自己組織化マップのデータを出力する自己組織化マップ作成部と、
上記加算部から出力された各対ごとのオリゴヌクレオチドの出現頻度のデータに基づき、各対ごとのオリゴヌクレオチドの出現頻度に関する情報を各格子点ごとに表した出現頻度マップを個々のオリゴヌクレオチドについて作成し、作成された出現頻度マップのデータを出力する出現頻度マップ作成部とを備えることを特徴とするオリゴヌクレオチド出現頻度の解析システム。

【請求項3】
 
分析対象の各塩基配列中におけるモノヌクレオチド組成のデータを格納しているモノヌクレオチド組成データ格納部と、
上記モノヌクレオチド組成データ格納部に格納された分析対象の各塩基配列中におけるモノヌクレオチド組成のデータを取り出し、取り出した各格子点に分類された塩基配列中におけるモノヌクレオチド組成に基づいて、各格子点に分類された塩基配列中におけるオリゴヌクレオチドの出現頻度の期待値を演算し、演算された期待値を出力する期待値演算部と、
上記加算部から出力された各対ごとのオリゴヌクレオチドの出現頻度のデータと上記期待値演算部で演算された期待値とを受け取り、各格子点に分類された塩基配列中におけるオリゴヌクレオチドの出現頻度を、上記期待値で除算することにより正規化し、正規化された出現頻度のデータを出力する正規化部とをさらに備え、
上記出現頻度マップ作成部が、上記正規化部で正規化されたオリゴヌクレオチドの出現頻度のデータに基づいて出現頻度マップを作成するようになっていることを特徴とする請求項2記載のオリゴヌクレオチド出現頻度の解析システム。

【請求項4】
 
同一のDNA配列から取り出した複数の断片塩基配列中において複数種類のオリゴヌクレオチドがそれぞれ出現する出現頻度のデータを格納しているオリゴヌクレオチド出現頻度データ格納部と、
上記オリゴヌクレオチド出現頻度データ格納部に格納されたオリゴヌクレオチドの出現頻度のデータを取り出し、相補的な対をなすオリゴヌクレオチドの出現頻度を加算することにより、各対ごとのオリゴヌクレオチドの出現頻度を算出し、算出された各対ごとのオリゴヌクレオチドの出現頻度のデータを出力する加算部と、
上記加算部から出力された各対ごとのオリゴヌクレオチドの出現頻度のデータに基づき、各対ごとのオリゴヌクレオチドの出現頻度を入力ベクトル群として多次元空間上に配置し、これら入力ベクトル群を多次元空間から複数の格子点が配置されたマップ上へ自己組織化によって非線形に写像することにより、上記断片塩基配列が各格子点に分類された自己組織化マップを作成し、作成された自己組織化マップのデータを出力する自己組織化マップ作成部と、
各格子点に分類された断片塩基配列における個々のオリゴヌクレオチドの出現頻度に基づいて、DNA配列上における個々のオリゴヌクレオチドの出現頻度の分布を示す出現頻度分布図を作成し、作成された出現頻度分布図のデータを出力する出現頻度分布図作成部とを備え、
上記出現頻度分布図作成部が、上記加算部から出力された各対ごとのオリゴヌクレオチドの出現頻度のデータに基づいて出現頻度分布図を作成するようになっていることを特徴とするオリゴヌクレオチド出現頻度の解析システム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2003328845thum.jpg
State of application right Registered


PAGE TOP

close
close
close
close
close
close
close