Top > Search of International Patents > HOMOLOGOUS SEARCH SYSTEM

HOMOLOGOUS SEARCH SYSTEM

Foreign code F110002627
File No. S2007-0467-C0
Posted date Mar 31, 2011
Country WIPO
International application number 2008JP053647
International publication number WO 2008/108297
Date of international filing Feb 29, 2008
Date of international publication Sep 12, 2008
Priority data
  • P2007-052583 (Mar 2, 2007) JP
Title HOMOLOGOUS SEARCH SYSTEM
Abstract In comparing a query sequence with a subject sequence and searching for a similar point in the subject sequence as described above, homologous search can be conducted at a higher accuracy than in the existing methods. After acquiring the sequential data of the query sequence and the subject sequence on the genome scale, these sequences are compression converted into a compressed query sequence and a compressed subject sequence by converting a homopolymer region consisting of two or more consecutive bases of a single kind into a single base of the same kind. Then, these sequences are compared with each other and partial compression subjectsequences in the compressed subject sequence agreeing with the compressed query sequence are narrowed and searched for. For the thus narrowed compressed candidate sequences and the query sequence, the consecutive numbers are compared for each base between both compressed sequences based on the data of the consecutive numbers of a single kind of bases observed in the individual uncompressed sequences. From the degree of agreement or disagreement in the consecutive numbers, a similarity showing the homology of the candidate sequence as described above to the query sequence is computed. Depending on the similarities, an arbitrary number of candidate sequences relatively highly homologous to the query sequence are ranked and selected. Thus, homologous search can be conducted at a high accuracy while avoiding the effect of the consecutive number of a single kind of bases in a homopolymer.
Scope of claims (In Japanese)
【請求項1】核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索システムであって、前記問合せ配列および対象配列の配列情報を取得する取得手段と、取得された前記問合せ配列および前記対象配列について、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列および圧縮対象配列を準備する圧縮配列準備手段と、前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索手段と、前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備手段と、前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算手段と、前記類似度演算手段により演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択手段と、前記選択手段により選択した前記任意数の候補配列の情報を出力する出力手段とを有する、相同性検索システム。

【請求項2】前記取得手段が、前記問合せ配列の配列情報を入力する入力手段と、前記対象配列の配列情報が記憶されている対象配列記憶手段とを有する、請求の範囲1記載の相同性検索システム。

【請求項3】前記取得手段により取得される配列情報が、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた前記圧縮問合せ配列および前記圧縮対象配列である、請求の範囲1記載の相同性検索システム。

【請求項4】前記圧縮配列準備手段が、取得された前記問合せ配列および前記対象配列について、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列および圧縮対象配列に圧縮変換する圧縮変換手段である、請求の範囲1記載の相同性検索システム。

【請求項5】前記連続数準備手段が、前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数を計数する計数手段である、請求の範囲1記載の相同性検索システム。

【請求項6】前記類似度演算手段は、前記対応する塩基ごとの連続数の不一致度(ただし、前記圧縮問合せ配列の上流末端塩基または下流末端塩基における圧縮前の連続数が、前記圧縮候補配列の上流末端塩基または下流末端塩基における圧縮前の連続数よりも短い不一致を除く)をペナルティスコアとし、前記対応する塩基ごとのペナルティスコアを加算することによって、類似度を演算する、請求の範囲1記載の相同性検索システム。

【請求項7】さらに、前記問合せ配列と前記選択手段により選択した任意数の候補配列との情報を記憶しておく記憶手段を有し、前記選択手段は、前記類似度演算手段により、新たな候補配列の前記問合せ配列に対する新たな類似度が演算された際、前記新たな類似度と、前記問合せ配列記憶手段により先立って記憶された前記任意数の候補配列の前記問合せ配列に対する類似度とに基づいて、前記各候補配列から、再度、任意数の候補配列を選択する、請求の範囲1記載の相同性検索システム。

【請求項8】前記圧縮対象配列は、圧縮後の対象配列を固定長に区切った部分配列群について、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮対象部分配列群である、請求の範囲1記載の相同性検索システム。

【請求項9】前記検索手段は、ハッシュ検索手段であり、前記圧縮問合せ配列と前記圧縮対象部分配列群の各圧縮対象部分配列とをキーとし、同じハッシュ関数を用いて、ハッシュ検索を行うことにより、前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する、請求の範囲8記載の相同性検索システム。

【請求項10】さらに、前記圧縮対象部分配列群の各圧縮対象部分配列をキーとし、同じハッシュ関数を用いて、対象配列用ハッシュテーブルを生成する対象配列用ハッシュテーブル生成手段を有し、前記検索手段は、ハッシュ検索手段であり、前記圧縮問合せ配列をキーとし、前記対象配列用ハッシュテーブル生成手段と同じハッシュ関数を用いて、前記対象配列用ハッシュテーブル生成手段で生成した前記対象配列用ハッシュテーブルのハッシュ検索を行うことにより、前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する、請求の範囲8記載の相同性検索システム。

【請求項11】さらに、2つ以上の前記圧縮問合せ配列をキーとし、同じハッシュ関数を用いて、問合せ配列用ハッシュテーブル生成する問合せ配列用ハッシュテーブル生成手段を有し、前記検索手段は、ハッシュ検索手段であり、前記圧縮対象部分配列群の各圧縮対象部分配列をキーとし、前記問合せ配列用ハッシュテーブル生成手段と同じハッシュ関数を用いて、前記問合せ配列用ハッシュテーブル生成手段で生成した前記問合せ配列用ハッシュテーブルのハッシュ検索を行うことにより、前記各圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索する、請求の範囲8記載の相同性検索システム。

【請求項12】さらに、前記問合せ配列用ハッシュテーブルのデータを更新するハッシュテーブル更新手段を有し、前記ハッシュテーブル更新手段は、前記選択手段により、1つの問合せ配列に対して、最も高い相同性を示す同じ類似度の候補配列が2つ以上選択された際、前記問合せ配列用ハッシュテーブルのデータから、前記問合せ配列と、それに対して選択された前記2つ以上の候補配列を削除する、請求の範囲11記載の相同性検索システム。

【請求項13】核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索システムであって、端末とサーバーとを有し、前記端末およびサーバーは、システム外の通信網を介して接続可能であり、前記端末は、前記端末内の情報を前記通信網を介して前記サーバーに送信する端末側送信手段と、前記サーバーから送信された情報を前記通信網を介して受信する端末側受信手段と、前記端末内の情報を表示する表示手段と、前記問合せ配列の配列情報を取得する取得手段とを有し、前記サーバーは、前記サーバー内の情報を前記通信網を介して前記端末に送信するサーバー側送信手段と、前記端末から送信された情報を前記通信網を介して受信するサーバー側受信手段と、対象配列が蓄積されている対象配列データベースと、前記対象配列データベースにおける対象配列と、前記サーバー側受信手段により受信した前記問合せ配列とについて、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とを準備する圧縮配列準備手段と、前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索手段と、前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備手段と、前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算手段と、前記類似度演算手段により演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択手段とを有し、前記問合せ配列の情報が、前記端末側送信手段から前記サーバー側受信手段に送信され、かつ、前記サーバーの前記選択手段により選択した前記任意数の候補配列の情報が、前記サーバー側送信手段から前記端末側受信手段に送信され、前記端末において、受信した前記任意数の候補配列の情報が、前記表示手段により表示される相同性検索システム。

【請求項14】請求の範囲13記載の相同性検索システムに用いるサーバーであって、前記サーバーは、前記サーバー内の情報を前記通信網を介して端末に送信するサーバー側送信手段と、前記端末から送信された情報を前記通信網を介して受信するサーバー側受信手段と、対象配列が蓄積されている対象配列データベースと、前記対象配列データベースにおける対象配列と、前記サーバー側受信手段により受信した前記問合せ配列とについて、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とを準備する圧縮配列準備手段と、前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索手段と、前記圧縮問合せ配列と前記検索手段で選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備手段と、前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算手段と、前記類似度演算手段により演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択手段とを有する、サーバー。

【請求項15】請求の範囲13記載の相同性検索システムに用いる端末であって、前記端末は、前記端末内の情報を前記通信網を介して前記サーバーに送信する端末側送信手段と、前記サーバーから送信された情報を前記通信網を介して受信する端末側受信手段と、前記端末内の情報を表示する表示手段と、前記問合せ配列の配列情報を取得する取得手段とを有し、前記問合せ配列の情報が、前記端末側送信手段から前記サーバー側受信手段に送信され、かつ、前記サーバーの前記選択手段により選択した前記任意数の候補配列の情報が、前記サーバー側送信手段から前記端末側受信手段に送信され、前記端末において、受信した前記任意数の候補配列の情報が、前記表示手段により表示される、端末。

【請求項16】核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索装置であって、請求の範囲1記載の相同性検索システムを含む、相同性検索装置。

【請求項17】核酸塩基配列からなる問合せ配列の配列情報を用いて、核酸塩基配列からなるゲノムスケールの対象配列の配列情報から、前記問合せ配列と相同する部分配列を検索する相同性検索方法であって、前記問合せ配列および対象配列の配列情報を取得する取得ステップと、取得された前記問合せ配列と前記対象配列について、それぞれ、同一塩基が2個以上連続したホモポリマー領域を前記塩基1個に置き換えた圧縮問合せ配列と圧縮対象配列とを準備する圧縮配列準備ステップと、前記圧縮問合せ配列と前記圧縮対象配列とを対比し、前記圧縮対象配列において前記圧縮問合せ配列と一致する圧縮対象部分配列を絞り込み検索して、絞り込んだ前記圧縮対象部分配列を候補配列の圧縮配列(圧縮候補配列)として選択する検索ステップと、前記圧縮問合せ配列と前記検索ステップで選択した前記圧縮候補配列とについて、それぞれの圧縮前の配列における同一塩基の連続数の情報を準備する連続数準備ステップと、前記同一塩基の連続数の情報に基づいて、前記圧縮問合せ配列と前記圧縮候補配列との間で、対応する塩基ごとに、前記塩基の連続数を対比し、前記連続数の一致度または不一致度から、前記候補配列の前記問合せ配列に対する相同性を示す類似度を演算する類似度演算ステップと、前記類似度演算ステップにより演算した類似度に基づいて、前記問合せ配列と相対的に相同性が高い任意数の候補配列を順位付けて選択する選択ステップと、前記選択ステップにより選択した前記任意数の候補配列の情報を出力する出力ステップとを有する、相同性検索方法。

【請求項18】前記取得ステップが、前記問合せ配列を入力する入力ステップと、前記対象配列が記憶されている対象配列記憶ステップから前記対象配列の配列情報を呼び出す呼び出しステップとを有する、請求の範囲17記載の相同性検索方法。

【請求項19】前記類似度演算ステップは、前記対応する塩基ごとの連続数の不一致度(ただし、前記圧縮問合せ配列の上流末端塩基または下流末端塩基における圧縮前の連続数が、前記圧縮候補配列の上流末端塩基または下流末端塩基における圧縮前の連続数よりも短い不一致を除く)をペナルティスコアとし、前記対応する塩基ごとのペナルティスコアを加算することによって、類似度を演算する、請求の範囲17記載の相同性検索方法。

【請求項20】前記選択ステップにおいて、前記類似度演算ステップにより、新たな候補配列の前記問合せ配列に対する類似度が演算された際、前記新たな類似度と、先立っての前記選択ステップで選択された前記任意数の候補配列の前記問合せ配列に対する類似度とに基づいて、前記各候補配列から、再度、任意数の候補配列を選択する、請求の範囲17記載の相同性検索方法。

【請求項21】請求の範囲17記載の相同性検索方法をコンピュータ上で実行可能なコンピュータプログラム。

【請求項22】請求の範囲21記載のコンピュータプログラムを格納した電子媒体。
  • Applicant
  • ※All designated countries except for US in the data before July 2012
  • RESEARCH ORGANIZATION OF INFORMATION AND SYSTEMS
  • Inventor
  • GOJOBORI, Takashi
  • IKEO, Kazuho
  • OKAYAMA, Toshitsugu
IPC(International Patent Classification)
Specified countries AE(UTILITY MODEL),AG,AL(UTILITY MODEL),AM(PROVISIONAL PATENT)(UTILITY MODEL),AO,AT(UTILITY MODEL),AU,AZ(UTILITY MODEL),BA,BB,BG(UTILITY MODEL),BH,BR(UTILITY MODEL),BW(UTILITY MODEL),BY(UTILITY MODEL),BZ(UTILITY MODEL),CA,CH,CN(UTILITY MODEL),CO(UTILITY MODEL),CR(UTILITY MODEL),CU(INVENTOR'S CERTIFICATE),CZ(UTILITY MODEL),DE(UTILITY MODEL),DK(UTILITY MODEL),DM(UTILITY MODEL),DO(UTILITY MODEL),DZ,EC(UTILITY MODEL),EE(UTILITY MODEL),EG(UTILITY MODEL),ES(UTILITY MODEL),FI(UTILITY MODEL),GB,GD,GE(UTILITY MODEL),GH,GM,GT,HN,HR(CONSENSUAL PATENT),HU(UTILITY MODEL),ID,IL,IN,IS,JP(UTILITY MODEL),KE(UTILITY MODEL),KG(UTILITY MODEL),KM,KN,KP(INVENTOR'S CERTIFICATE)(UTILITY MODEL),KR(UTILITY MODEL),KZ(PROVISIONAL PATENT)(UTILITY MODEL),LA,LC,LK,LR,LS(UTILITY MODEL),LT,LU,LY,MA,MD(UTILITY MODEL),ME(PETTY PATENT),MG,MK,MN,MW,MX(UTILITY MODEL),MY(UTILITY-INNOVATION),MZ(UTILITY MODEL),NA,NG,NI(UTILITY MODEL),NO,NZ,OM,PG,PH(UTILITY MODEL),PL(UTILITY MODEL),PT(UTILITY MODEL),RO,RS(PETTY PATENT),RU(UTILITY MODEL),SC,SD,SE,SG,SK(UTILITY MODEL),SL(UTILITY MODEL),SM,SV(UTILITY MODEL),SY,TJ(UTILITY MODEL),TM(PROVISIONAL PATENT),TN,TR(UTILITY MODEL),TT(UTILITY CERTIFICATE),TZ,UA(UTILITY MODEL),UG(UTILITY CERTIFICATE),US,UZ(UTILITY MODEL),VC(UTILITY CERTIFICATE),VN,ZA,ZM,ZW,EP(AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MT,NL,NO,PL,PT,RO,SE,SI,SK,TR),OA(BF(UTILITY MODEL),BJ(UTILITY MODEL),CF(UTILITY MODEL),CG(UTILITY MODEL),CI(UTILITY MODEL),CM(UTILITY MODEL),GA(UTILITY MODEL),GN(UTILITY MODEL),GQ(UTILITY MODEL),GW(UTILITY MODEL),ML(UTILITY MODEL),MR(UTILITY MODEL),NE(UTILITY MODEL),SN(UTILITY MODEL),TD(UTILITY MODEL),TG(UTILITY MODEL)),AP(BW,GH,GM,KE,LS,MW,MZ,NA,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,MD,RU,TJ,TM)

PAGE TOP

close
close
close
close
close
close