Top > Search of Japanese Patents > RETRIEVAL SYSTEM AND RETRIEVAL METHOD

RETRIEVAL SYSTEM AND RETRIEVAL METHOD meetings

Patent code P07P005136
File No. IP17-094
Posted date Feb 15, 2008
Application number P2006-199312
Publication number P2008-027207A
Patent number P4547500
Date of filing Jul 21, 2006
Date of publication of application Feb 7, 2008
Date of registration Jul 16, 2010
Inventor
  • (In Japanese)安川 美智子
  • (In Japanese)横尾 英俊
  • (In Japanese)内山 智文
Applicant
  • (In Japanese)国立大学法人群馬大学
Title RETRIEVAL SYSTEM AND RETRIEVAL METHOD meetings
Abstract PROBLEM TO BE SOLVED: To enable to indicate retrieval result by a cluster easy to understand to a user.
SOLUTION: The retrieval system acquires a plurality of related words relating to a retrieval word from a retrieval query log (102), performs meta-search corresponding to the retrieval word by a plurality of retrieval engines (104), extracts text data from retrieved Web pages (108), acquires a plurality of vocabularies morphological-analyzing the extracted text data (112), makes a vocabulary frequency matrix to a plurality of Web pages (116), and calculates the degree of similarity of related words attending to only related words (120). Then, the system performs clustering of related words based on the degree of similarity of calculated related words, generates related word clusters of prescribed number (122), performs weighting of the related word clusters based on retrieval number of the related words, sorts the related word cluster systematically (124), and indicates a list of the related word clusters as retrieval result (128).
Outline of related art and contending technology (In Japanese)

従来より、Web検索エンジンを用いて、様々な検索が行われるようになっている。流行している物や現象、人、企業、商品、サービス、テレビ番組などについての情報を検索する際に、検索対象についてあまり詳しく知らないため、適切な関連語で検索結果を絞り込む事が容易でない場合がある。

また、検索対象についてある程度知っている場合であっても検索語で検索される膨大な検索結果を全て閲覧するのではなく、興味のあるページ群だけ概観したいという場合がある。

一般に検索対象となる文書集合の中には類似した文書が含まれることが多いことから、予め文書集合を類似度に応じてグループ化(クラスタリング)しておき、検索時にはこれらのグループ(クラスタ)と検索質問(検索クエリ)との適合度を計算するクラスタ型の検索が知られている(非特許文献1)。ある検索語で検索される検索結果Webページ群には、多数の類似したWebページが含まれるため、適切なクラスタリングを行うことで、検索結果を絞り込むことや、検索結果を概観することが容易になる。
【非特許文献1】
徳永健伸、「情報検索と言語処理」、東京大学出版会、(1999)

Field of industrial application (In Japanese)

本発明は、検索装置及びプログラムにかかり、特に、検索エンジンによって文書データを検索する検索装置及びプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
複数の文書データを記憶した文書データベースから、検索語に適合する複数の文書データを取得する文書データ取得手段と、
前記文書データ取得手段によって取得された複数の文書データの各々を形態素解析することによって得られた単語に基づいて、前記文書データの各々について、前記検索語に関連する複数の関連語の各々の出現頻度を算出する頻度算出手段と、
前記頻度算出手段によって算出された前記複数の関連語の各々の出現頻度に基づいて、各関連語同士の類似度を算出する類似度算出手段と、
前記複数の関連語のクラスタリングを行って、前記類似度算出手段によって算出された類似度が高い組み合わせから前記関連語を組み合わせて、所定数の関連語クラスタを生成するクラスタリング手段と、
前記クラスタリング手段によって生成された関連語クラスタ毎に、前記関連語の出現頻度に基づいて、前記文書データ取得手段によって取得された複数の文書データのうち、該関連語クラスタの関連語によって特徴付けられる文書データを該関連語クラスタに対応付ける対応付け手段と、
前記クラスタリング手段によって生成された関連語クラスタ及び該関連語クラスタに対応付けられた文書データを示す文書データ情報を、前記検索語と同時に検索される回数が多い関連語を含む関連語クラスタから順番に、前記検索語に適合する文書データの検索結果として表示する表示手段と、
を含む検索装置。

【請求項2】
 
少なくとも1つの検索語からなる検索クエリを複数記憶したデータベースに基づいて、前記文書データ取得手段における検索語と同時に検索語となる単語を、前記関連語として複数取得する関連語取得手段を更に含み、
前記頻度算出手段は、前記文書データの各々について、前記関連語取得手段によって取得された複数の関連語の出現頻度を算出する請求項1記載の検索装置。

【請求項3】
 
少なくとも1つの検索語からなる検索クエリを複数記憶したデータベースに基づいて、前記文書データ取得手段における検索語の類義語と同時に検索語となる単語を、前記関連語として複数取得する関連語取得手段を更に含み、
前記頻度算出手段は、前記文書データの各々について、前記関連語取得手段によって取得された複数の関連語の出現頻度を算出する請求項1記載の検索装置。

【請求項4】
 
コンピュータを、
複数の文書データを記憶した文書データベースから、検索語に適合する複数の文書データを取得する文書データ取得手段、
前記文書データ取得手段によって取得された複数の文書データの各々を形態素解析することによって得られた単語に基づいて、前記文書データの各々について、前記検索語に関連する複数の関連語の各々の出現頻度を算出する頻度算出手段
前記頻度算出手段によって算出された前記複数の関連語の各々の出現頻度に基づいて、各関連語同士の類似度を算出する類似度算出手段
前記複数の関連語のクラスタリングを行って、前記類似度算出手段によって算出された類似度が高い組み合わせから前記関連語を組み合わせて、所定数の関連語クラスタを生成するクラスタリング手段
前記クラスタリング手段によって生成された関連語クラスタ毎に、前記関連語の出現頻度に基づいて、前記文書データ取得手段によって取得された複数の文書データのうち、該関連語クラスタの関連語によって特徴付けられる文書データを該関連語クラスタに対応付ける対応付け手段、及び
前記クラスタリング手段によって生成された関連語クラスタ及び該関連語クラスタに対応付けられた文書データを示す文書データ情報を、前記検索語と同時に検索される回数が多い関連語を含む関連語クラスタから順番に、前記検索語に適合する文書データの検索結果として表示する表示手段
として機能させるためのプログラム
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2006199312thum.jpg
State of application right Registered
Please contact us by E-mail or facsimile if you have any interests on this patent.


PAGE TOP

close
close
close
close
close
close
close