TOP > 国内特許検索 > 検索装置及びプログラム

検索装置及びプログラム 新技術説明会

国内特許コード P07P005136
整理番号 IP17-094
掲載日 2008年2月15日
出願番号 特願2006-199312
公開番号 特開2008-027207
登録番号 特許第4547500号
出願日 平成18年7月21日(2006.7.21)
公開日 平成20年2月7日(2008.2.7)
登録日 平成22年7月16日(2010.7.16)
発明者
  • 安川 美智子
  • 横尾 英俊
  • 内山 智文
出願人
  • 国立大学法人群馬大学
発明の名称 検索装置及びプログラム 新技術説明会
発明の概要

【解決課題】ユーザにとって分かりやすいクラスタにより検索結果を表示することができるようにする。
【解決手段】検索クエリログから、検索語に関連する複数の関連語を取得し(102)、複数の検索エンジンによって、検索語に対応してメタサーチを行い(104)、検索されたWebページからテキストデータを抽出し(108)、抽出したテキストデータを形態素解析して複数の単語を取得し(112)、複数のWebページに対する単語頻度行列を作成し(116)、関連語にのみ注目した関連語同士の類似度を算出する。(120)そして、算出された関連語同士の類似度に基づいて、関連語のクラスタリングを行い、所定数の関連語クラスタを生成し(122)、関連語の検索数に基づいて、関連語クラスタの重み付けを行い、関連語クラスタを順序付けてソートし(124)、関連語クラスタのリストを検索結果として表示する(128)。
【選択図】図3

従来技術、競合技術の概要


従来より、Web検索エンジンを用いて、様々な検索が行われるようになっている。流行している物や現象、人、企業、商品、サービス、テレビ番組などについての情報を検索する際に、検索対象についてあまり詳しく知らないため、適切な関連語で検索結果を絞り込む事が容易でない場合がある。



また、検索対象についてある程度知っている場合であっても検索語で検索される膨大な検索結果を全て閲覧するのではなく、興味のあるページ群だけ概観したいという場合がある。



一般に検索対象となる文書集合の中には類似した文書が含まれることが多いことから、予め文書集合を類似度に応じてグループ化(クラスタリング)しておき、検索時にはこれらのグループ(クラスタ)と検索質問(検索クエリ)との適合度を計算するクラスタ型の検索が知られている(非特許文献1)。ある検索語で検索される検索結果Webページ群には、多数の類似したWebページが含まれるため、適切なクラスタリングを行うことで、検索結果を絞り込むことや、検索結果を概観することが容易になる。

【非特許文献1】徳永健伸、「情報検索と言語処理」、東京大学出版会、(1999)

産業上の利用分野


本発明は、検索装置及びプログラムにかかり、特に、検索エンジンによって文書データを検索する検索装置及びプログラムに関する。

特許請求の範囲 【請求項1】
複数の文書データを記憶した文書データベースから、検索語に適合する複数の文書データを取得する文書データ取得手段と、
前記文書データ取得手段によって取得された複数の文書データの各々を形態素解析することによって得られた単語に基づいて、前記文書データの各々について、前記検索語に関連する複数の関連語の各々の出現頻度を算出する頻度算出手段と、
前記頻度算出手段によって算出された前記複数の関連語の各々の出現頻度に基づいて、各関連語同士の類似度を算出する類似度算出手段と、
前記複数の関連語のクラスタリングを行って、前記類似度算出手段によって算出された類似度が高い組み合わせから前記関連語を組み合わせて、所定数の関連語クラスタを生成するクラスタリング手段と、
前記クラスタリング手段によって生成された関連語クラスタ毎に、前記関連語の出現頻度に基づいて、前記文書データ取得手段によって取得された複数の文書データのうち、該関連語クラスタの関連語によって特徴付けられる文書データを該関連語クラスタに対応付ける対応付け手段と、
前記クラスタリング手段によって生成された関連語クラスタ及び該関連語クラスタに対応付けられた文書データを示す文書データ情報を、前記検索語と同時に検索される回数が多い関連語を含む関連語クラスタから順番に、前記検索語に適合する文書データの検索結果として表示する表示手段と、
を含む検索装置。

【請求項2】
少なくとも1つの検索語からなる検索クエリを複数記憶したデータベースに基づいて、前記文書データ取得手段における検索語と同時に検索語となる単語を、前記関連語として複数取得する関連語取得手段を更に含み、
前記頻度算出手段は、前記文書データの各々について、前記関連語取得手段によって取得された複数の関連語の出現頻度を算出する請求項1記載の検索装置。

【請求項3】
少なくとも1つの検索語からなる検索クエリを複数記憶したデータベースに基づいて、前記文書データ取得手段における検索語の類義語と同時に検索語となる単語を、前記関連語として複数取得する関連語取得手段を更に含み、
前記頻度算出手段は、前記文書データの各々について、前記関連語取得手段によって取得された複数の関連語の出現頻度を算出する請求項1記載の検索装置。

【請求項4】
コンピュータを、
複数の文書データを記憶した文書データベースから、検索語に適合する複数の文書データを取得する文書データ取得手段、
前記文書データ取得手段によって取得された複数の文書データの各々を形態素解析することによって得られた単語に基づいて、前記文書データの各々について、前記検索語に関連する複数の関連語の各々の出現頻度を算出する頻度算出手段
前記頻度算出手段によって算出された前記複数の関連語の各々の出現頻度に基づいて、各関連語同士の類似度を算出する類似度算出手段
前記複数の関連語のクラスタリングを行って、前記類似度算出手段によって算出された類似度が高い組み合わせから前記関連語を組み合わせて、所定数の関連語クラスタを生成するクラスタリング手段
前記クラスタリング手段によって生成された関連語クラスタ毎に、前記関連語の出現頻度に基づいて、前記文書データ取得手段によって取得された複数の文書データのうち、該関連語クラスタの関連語によって特徴付けられる文書データを該関連語クラスタに対応付ける対応付け手段、及び
前記クラスタリング手段によって生成された関連語クラスタ及び該関連語クラスタに対応付けられた文書データを示す文書データ情報を、前記検索語と同時に検索される回数が多い関連語を含む関連語クラスタから順番に、前記検索語に適合する文書データの検索結果として表示する表示手段
として機能させるためのプログラム
産業区分
  • 計算機応用
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006199312thum.jpg
出願権利状態 権利存続中
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください


PAGE TOP

close
close
close
close
close
close
close