TOP > 国内特許検索 > 相同性検索システム

相同性検索システム コモンズ

国内特許コード P110005475
掲載日 2011年8月18日
出願番号 特願2009-502560
登録番号 特許第5187670号
出願日 平成20年2月29日(2008.2.29)
登録日 平成25年2月1日(2013.2.1)
国際出願番号 JP2008053647
国際公開番号 WO2008108297
国際出願日 平成20年2月29日(2008.2.29)
国際公開日 平成20年9月12日(2008.9.12)
優先権データ
  • 特願2007-052583 (2007.3.2) JP
発明者
  • 五條堀 孝
  • 池尾 一穂
  • 岡山 利次
出願人
  • 大学共同利用機関法人情報・システム研究機構
発明の名称 相同性検索システム コモンズ
発明の概要

問合せ配列を対象配列と対比して前記対象配列における類似箇所を検索する際、従来よりも優れた精度で相同性検索を可能とする。問合せ配列とゲノムスケールの対象配列との配列情報を取得し、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とに圧縮変換し、両者を対比して、圧縮対象配列において圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する。絞り込んだ圧縮候補配列と問合せ配列とについて、各々の圧縮前配列における同一塩基連続数の情報に基づき、両圧縮配列の間で対応塩基ごとに連続数を対比し、連続数の一致度または不一致度から前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する。この類似度から問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択することで、ホモポリマーの同一塩基連続数の影響を回避して精度良く相同性検索を行える。

従来技術、競合技術の概要


近年、生命科学分野において、多くの生物種のゲノム配列全体が解明されている。塩基配列の配列読み取り技術も、オートラジオグラフィにより銀塩フィルムを露光させてラダーパターンを読み取ることによる初期の手法から、電気泳動レーン上の蛍光標識をレーザ光で励起することにより自動で読み取る形式の手法に置き換わり、格段に自動化が推進されている。そして、様々な高感度化、高速化の技術が導入され、スループットも向上している。しかしながら、これらの方法は、全てサンガー法と呼ばれる同じ原理に基づく手法であり、物理的な実泳動時間の制約により、性能に限界がある。そこで、新たにパイロシーケンシング技術が開発され、実用化されるに至っている。この技術は、従来のサンガー法と大きく原理が異なっており、電気泳動ではなく、相補鎖伸長の化学的反応による蛍光強度を、直接読み取る方法である。この原理によって、パイロシーケンシング技術は、サンガー法を遥かに超える配列決定速度を実現した。



しかしながら、パイロシーケンシング技術では、配列中における同一塩基が複数個繋がった領域(以下、「ホモポリマー領域」という)の配列決定について、次のような問題がある。すなわち、パイロシーケンシング技術においては、配列の情報が、計測時に、ダイナミックレンジの飽和限度のある蛍光強度の比でしか観測されない。このため、同一塩基が連続して繋がっているホモポリマー領域に関しては、同一塩基の数を正確に決定し難く、結果的に、配列決定精度に問題が生じる。このようなホモポリマー領域に関する配列決定精度の問題は、前述のサンガー法においても、同様に技術的限界が潜在していた。しかしながら、パイロシーケンシング技術は、高いスループットであるがゆえに、サンガー法と比較して、前記ホモポリマー領域の問題がより顕著となっている。



他方、例えば、ゲノム上の位置が不明な配列、機能や起源等が不明な配列(以下、「問合せ配列」という)について、解読されたゲノム等の配列(以下、「対象配列」という)において相同する部分配列を検索する相同性検索(類似性検索)が、遺伝子解析において行われている。この相同性検索の技術は、前述の配列決定法の飛躍的な進歩と較べて、従来と余り変化がなく、下記の手法が一般的である。



(1)相同性検索を行う代表的なシステムとしてBLASTがある(非特許文献1)。このシステムは、生命科学分野で配列検索を行う際の標準として、広く普及、定着している。
(2)部分配列の不一致を配列の挿入・削除のスコアリングで最大限に許容する類似度検索法として、動的計画法(ダイナミックプログラミング)によるSmith-Waterman法がある(非特許文献2)。この方式は、複数のシステムの実装に用いられている。
(3)さらに、前記(2)の動的計画法の論理をハードウェアに組み込んで、超並列実行させることで、速度に関する問題の解決を試みる手法が報告されている(特許文献1)。

【非特許文献1】Altschul S. F., Gish W., Miller W., Myers E. W., and Lipman D. J. (1990) Basic local alignment search tool. J. Mol. Biol. Vol.215, pp.403-410.

【非特許文献2】Smith TF, Waterman MS. (1981) Comparison of biosequences. Adv. Appl. Math. 2:482-9.

【特許文献1】特開平07-093370号公報

産業上の利用分野


本発明は、相同性検索システム、相同性検索装置、相同性検索方法、および、前記相同性検索方法をコンピュータ上で実行可能なコンピュータプログラムならびにそれを格納した電子媒体に関する。

特許請求の範囲 【請求項1】 核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索システムであって、
前記問合せ配列および対象配列の配列情報を取得する取得手段と、
取得された前記問合せ配列および前記対象配列について、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列および圧縮対象配列を準備する圧縮配列準備手段と、
前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索手段と、
前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備手段と、
前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算手段と、
前記類似度演算手段により演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択手段と、
前記選択手段により選択した前記任意数の候補配列の情報を出力する出力手段とを有する、相同性検索システム。
【請求項2】 前記取得手段が、前記問合せ配列の配列情報を入力する入力手段と、前記対象配列の配列情報が記憶されている対象配列記憶手段とを有する、請求項1記載の相同性検索システム。
【請求項3】 前記取得手段により取得される配列情報が、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた前記圧縮問合せ配列および前記圧縮対象配列である、請求項1または2記載の相同性検索システム。
【請求項4】 前記圧縮配列準備手段が、取得された前記問合せ配列および前記対象配列について、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列および圧縮対象配列に圧縮変換する圧縮変換手段である、請求項1から3のいずれか一項に記載の相同性検索システム。
【請求項5】 前記連続数準備手段が、前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数を計数する計数手段である、請求項1から4のいずれか一項に記載の相同性検索システム。
【請求項6】 前記類似度演算手段は、前記対応する塩基ごとの連続数の不一致度(ただし、前記圧縮問合せ配列の上流末端塩基または下流末端塩基における圧縮前の連続数が、前記圧縮候補配列の上流末端塩基または下流末端塩基における圧縮前の連続数よりも短い不一致を除く)をペナルティスコアとし、前記対応する塩基ごとのペナルティスコアを加算することによって、類似度を演算する、請求項1から5のいずれか一項に記載の相同性検索システム。
【請求項7】 さらに、前記問合せ配列と前記選択手段により選択した任意数の候補配列との情報を記憶しておく記憶手段を有し、
前記選択手段は、前記類似度演算手段により、新たな候補配列の前記問合せ配列に対する新たな類似度が演算された際、前記新たな類似度と、前記記憶手段により先立って記憶された前記任意数の候補配列の前記問合せ配列に対する類似度とに基づいて、前記各候補配列から、再度、任意数の候補配列を選択する、請求項1から6のいずれか一項に記載の相同性検索システム。
【請求項8】 前記圧縮対象配列は、圧縮後の対象配列を固定長に区切った部分配列群について、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮対象部分配列群である、請求項1から7のいずれか一項に記載の相同性検索システム。
【請求項9】 前記検索手段は、ハッシュ検索手段であり、前記圧縮問合せ配列と前記圧縮対象部分配列群の各圧縮対象部分配列とをキーとし、同じハッシュ関数を用いて、ハッシュ検索を行うことにより、前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する、請求項8記載の相同性検索システム。
【請求項10】 さらに、前記圧縮対象部分配列群の各圧縮対象部分配列をキーとし、同じハッシュ関数を用いて、対象配列用ハッシュテーブルを生成する対象配列用ハッシュテーブル生成手段を有し、
前記検索手段は、ハッシュ検索手段であり、前記圧縮問合せ配列をキーとし、前記対象配列用ハッシュテーブル生成手段と同じハッシュ関数を用いて、前記対象配列用ハッシュテーブル生成手段で生成した前記対象配列用ハッシュテーブルのハッシュ検索を行うことにより、前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する、請求項8または9記載の相同性検索システム。
【請求項11】 さらに、2つ以上の前記圧縮問合せ配列をキーとし、同じハッシュ関数を用いて、問合せ配列用ハッシュテーブル生成する問合せ配列用ハッシュテーブル生成手段を有し、
前記検索手段は、ハッシュ検索手段であり、前記圧縮対象部分配列群の各圧縮対象部分配列をキーとし、前記問合せ配列用ハッシュテーブル生成手段と同じハッシュ関数を用いて、前記問合せ配列用ハッシュテーブル生成手段で生成した前記問合せ配列用ハッシュテーブルのハッシュ検索を行うことにより、前記各圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する、請求項8から10のいずれか一項に記載の相同性検索システム。
【請求項12】 さらに、前記問合せ配列用ハッシュテーブルのデータを更新するハッシュテーブル更新手段を有し、
前記ハッシュテーブル更新手段は、前記選択手段により、1つの問合せ配列に対して、最も高い相同性を示す同じ類似度の候補配列が2つ以上選択された際、前記問合せ配列用ハッシュテーブルのデータから、前記問合せ配列と、それに対して選択された前記2つ以上の候補配列を削除する、請求項11記載の相同性検索システム。
【請求項13】 核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索システムであって、
端末とサーバーとを有し、
前記端末およびサーバーは、
システム外の通信網を介して接続可能であり、
前記端末は、
前記端末内の情報を前記通信網を介して前記サーバーに送信する端末側送信手段と、
前記サーバーから送信された情報を前記通信網を介して受信する端末側受信手段と、
前記端末内の情報を表示する表示手段と、
前記問合せ配列の配列情報を取得する取得手段とを有し、
前記サーバーは、
前記サーバー内の情報を前記通信網を介して前記端末に送信するサーバー側送信手段と、
前記端末から送信された情報を前記通信網を介して受信するサーバー側受信手段と、
対象配列が蓄積されている対象配列データベースと、
前記対象配列データベースにおける対象配列と、前記サーバー側受信手段により受信した前記問合せ配列とについて、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とを準備する圧縮配列準備手段と、
前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索手段と、
前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備手段と、
前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算手段と、
前記類似度演算手段により演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択手段とを有し、
前記問合せ配列の情報が、前記端末側送信手段から前記サーバー側受信手段に送信され、かつ、前記サーバーの前記選択手段により選択した前記任意数の候補配列の情報が、前記サーバー側送信手段から前記端末側受信手段に送信され、前記端末において、受信した前記任意数の候補配列の情報が、前記表示手段により表示される相同性検索システム。
【請求項14】 請求項13記載の相同性検索システムに用いるサーバーであって、
前記サーバーは、
前記サーバー内の情報を前記通信網を介して端末に送信するサーバー側送信手段と、
前記端末から送信された情報を前記通信網を介して受信するサーバー側受信手段と、
対象配列が蓄積されている対象配列データベースと、
前記対象配列データベースにおける対象配列と、前記サーバー側受信手段により受信した前記問合せ配列とについて、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とを準備する圧縮配列準備手段と、
前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索手段と、
前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備手段と、
前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算手段と、
前記類似度演算手段により演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択手段とを有する、サーバー。
【請求項15】 請求項13記載の相同性検索システムに用いる端末であって、
前記端末は、
前記端末内の情報を前記通信網を介して前記サーバーに送信する端末側送信手段と、
前記サーバーから送信された情報を前記通信網を介して受信する端末側受信手段と、
前記端末内の情報を表示する表示手段と、
前記問合せ配列の配列情報を取得する取得手段とを有し、
前記問合せ配列の情報が、前記端末側送信手段から前記サーバー側受信手段に送信され、かつ、前記サーバーの前記選択手段により選択した前記任意数の候補配列の情報が、前記サーバー側送信手段から前記端末側受信手段に送信され、前記端末において、受信した前記任意数の候補配列の情報が、前記表示手段により表示される、端末。
【請求項16】 核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索装置であって、請求項1から13のいずれか一項に記載の相同性検索システムを含む、相同性検索装置。
【請求項17】 核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索方法であって、
前記問合せ配列および対象配列の配列情報を取得する取得ステップと、
取得された前記問合せ配列と前記対象配列について、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とを準備する圧縮配列準備ステップと、
前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索ステップと、
前記圧縮問合せ配列と前記検索ステップで選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備ステップと、
前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算ステップと、
前記類似度演算ステップにより演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択ステップと、
前記選択ステップにより選択した前記任意数の候補配列の情報を出力する出力ステップとを有する、相同性検索方法。
【請求項18】 前記取得ステップが、前記問合せ配列を入力する入力ステップと、記憶された前記対象配列の配列情報を呼び出す呼び出しステップとを有する、請求項17記載の相同性検索方法。
【請求項19】 前記類似度演算ステップは、前記対応する塩基ごとの連続数の不一致度(ただし、前記圧縮問合せ配列の上流末端塩基または下流末端塩基における圧縮前の連続数が、前記圧縮候補配列の上流末端塩基または下流末端塩基における圧縮前の連続数よりも短い不一致を除く)をペナルティスコアとし、前記対応する塩基ごとのペナルティスコアを加算することによって、類似度を演算する、請求項17または18記載の相同性検索方法。
【請求項20】 前記選択ステップにおいて、前記類似度演算ステップにより、新たな候補配列の前記問合せ配列に対する新たな類似度が演算された際、前記新たな類似度と、先立っての前記選択ステップで選択された前記任意数の候補配列の前記問合せ配列に対する類似度とに基づいて、前記各候補配列から、再度、任意数の候補配列を選択する、請求項17から19のいずれか一項に記載の相同性検索方法。
【請求項21】 請求項17から20のいずれか一項に記載の相同性検索方法をコンピュータ上で実行可能なコンピュータプログラム。
【請求項22】 請求項21記載のコンピュータプログラムを格納した電子媒体。
産業区分
  • 計算機応用
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009502560thum.jpg
出願権利状態 権利存続中


PAGE TOP

close
close
close
close
close
close
close