TOP > 国内特許検索 > 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置

文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置

国内特許コード P09S000310
掲載日 2010年1月29日
出願番号 特願2008-530812
登録番号 特許第5167546号
出願日 平成19年3月16日(2007.3.16)
登録日 平成25年1月11日(2013.1.11)
国際出願番号 JP2007055448
国際公開番号 WO2008023470
国際出願日 平成19年3月16日(2007.3.16)
国際公開日 平成20年2月28日(2008.2.28)
優先権データ
  • 特願2006-224563 (2006.8.21) JP
発明者
  • 白松 俊
  • 駒谷 和範
  • 奥乃 博
出願人
  • 国立大学法人京都大学
発明の名称 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
発明の概要 文単位検索方法を実施するコンピュータ装置は、予め文書集合の文書データを夫々文単位に分別しておく。次に、分別した文単位に、先行の文単位から各文単位に至るまでの文脈上の流れを反映した意味のまとまりを表わす情報、即ち各単語にその文単位での重み値が付与された重み値付き単語群を対応付けて記憶させておく。そして、コンピュータ装置は言葉を受け付けた場合、その発話の会話の流れ上の意味のまとまりを表わす情報、即ち各単語にその文単位での重み値が付与された重み付き単語群を同様に求めて対応付け、言葉に対応付けた重み付き単語群に基づいて、意味のまとまりが類似する文単位を抽出して検索結果として出力する。各単語の重み値は、その文単位での関連語の重み値とその関連語から各単語への関連度とに基づいて影響が反映された値でもよい。
従来技術、競合技術の概要


インターネット上で提供される各種サービスには、ユーザによって入力されたキーワード又は文に基づいて、インターネットで公開されている文書から関連する文書を検索し、一覧にして出力する文書検索サービスがある。



従来の文書検索サービスには、以下のようなものがある。インターネットで公開されている文書を自動的に集めて記憶し、夫々の文書毎に、文書中に出現する単語を文書中での出現確率と共に記憶しておき、キーワード又は文等の言葉を受け付けた場合に、記憶した文書集合から受け付けたキーワード又は文に含まれる単語の出現確率の高い順に優先順位を付与して文書を抽出し、抽出した文書から、当該単語が含まれる文又は段落を出力する。



文書検索サービスを利用するユーザは、知りたい情報を検索するために関連するキーワードを自分で考える必要がある。最近の文書検索サービスでは、自然文を入力文として受け付け、入力文を形態素解析し、入力文のキーワードを識別して検索要求を自動的に作成することができる場合もある。



また、文書検索サービスでは通常、自然文の入力を受け付ける場合でも、入力文に含まれる単語を抽出し、抽出した単語が含まれている文書を検索結果として出力する。したがって、ユーザは、目的の検索結果を得るために入力するキーワードに関連するキーワード又は入力するキーワードの意味付けが変化する単語を更に入力して絞込みをさせる必要があった。例えば、単に「大統領」では、どの国の大統領なのかは不明であるため、「大統領、アメリカ」とキーワードを付加する必要がある。更にアメリカの大統領の何を調べたいかによって、「大統領、アメリカ、出身」、「大統領、アメリカ、政策」等、検索結果を得やすくするための情報を考える必要がある。



したがって、ユーザが得たいと考える検索結果を実際に得るためには、ユーザはキーワードの組み合わせを考え、何回か試行することが必要になる。例えば、ユーザが「アメリカの大統領は、他の国との間で経済面の問題が発生した場合どのような対策をとるのか」という情報を知りたい場合であっても、「アメリカ、大統領、経済」では検索結果が大量に出力され、大量に出力された検索結果からユーザは文書を選択しなければならない。そこで例えば、「政策」というキーワードを付加して絞込み、「アメリカ、大統領、経済、政策」というキーワードを入力する。この場合、「政策」という言葉が意味の広い上位概念であっても、「政策」というキーワード自体で絞込みをすることになるため、内容としては経済政策についての論述が記載された文書も、「政策」という言葉の出現頻度が低い文書は漏れてしまうことがある。このように、ユーザが検索の目的を達するためのキーワードを考えて試行することで検索結果を得るのは難しい。付加的な情報を入力する度に、本来の検索の目的から、検索結果の内容が離れていく場合もある。



また、上述の例でユーザが知りたいのは、経済面での政策であって、しかも国際的な政策についてである。ユーザの入力が自然文によるものであっても、「アメリカ、大統領、他の国、経済、問題、発生、場合、対策」の単語の何れの単語が一番重要であるのかは、人間が読む場合は把握できるが、装置又はコンピュータが扱う情報量として定量的に表現することは難しい。したがって、キーワードは全て含んでいるものの、「アメリカの経済の問題と他国の大統領の対策」とについて論述された文書が出力されることも想定できる。



さらに、検索対象である文書が非常に長い場合は、その文書の中で文脈が動的に変化しているにも拘わらず、その文書を一単位として出現する単語に基づいた検索がされる。したがって、アメリカの大統領の歴史と、他の国の大統領の歴史と、各国の経済のしくみと、各国での失業対策についての内容とが章に分けられて記載されている文書が存在する場合、検索のキーワードをほとんど含むために検索結果として出力される。実際にはそれらの章が文脈的に繋がっていない場合でも、キーワードを含む文又は段落を夫々部分的に抽出した結果が出力されてしまう。そのため、その抽出された部分に至るまでの先行文脈の影響を含む意味と、ユーザの意識の上での検索意図とが、意味的にマッチするか否かは量り得ない。



一方、検索対象である文書に、検索のために入力したキーワードは頻繁に出現してはいないにも拘わらず、入力したキーワードが文脈上重要な意味を持って含まれている場合がある。例えば、主題となる単語ほど指示代名詞又はゼロ代名詞で表現される。したがって、知りたい情報を検索するユーザは、検索のために入力したキーワードが指示代名詞又はゼロ代名詞で表現されている文又は段落こそ、検索結果として得たい情報である場合が考えられる。しかしながら、実際の出現頻度で検索結果に優先順位を付与する場合、ユーザが入力したキーワードの出現頻度が低いために絞込みによって候補から除かれ、検索結果として出力されない。



そこで、文書中の単語を抽出し、当該単語の品詞情報、単語間の係り受け情報、更に指示代名詞又はゼロ代名詞と照応関係にある単語を明示した情報を、文書を形態素解析等により解析した結果に付加して記憶させておき、記憶させた情報に基づいて装置又はコンピュータによる文書の検索、質問応答、機械翻訳を実現する技術が提案されている(非特許文献1)。



単語間の係り受け又は照応等の関係は、自然文であるがために文節の順序が複雑であり、人間が読む場合は意味を判別できても機械的に認識することが難しい。そこで、非特許文献1に記載されている技術では、単語間の係り受け又は照応等の関係をタグによって文又は句毎の情報として文書データに付加して記憶しておく。また、日本語の場合は特に、主語が省略されている文が多いので、機械的に翻訳する際に主語の補完が必要である。そこで非特許文献1に記載されている技術では、文毎に主語又はゼロ代名詞等の補完情報を付加する。これにより、当該情報が付加された文書を利用することによって正確に機械翻訳することが可能となる。文中で省略された単語、又は指示代名詞若しくはゼロ代名詞で表されている単語も、例えば文書を検索する場合の出現頻度の算出等の応用技術に利用することができる。
【非特許文献1】
橋田浩一「大域文書修飾」人工知能学会全国大会(第11回)論文集pp.62-63(1997)

産業上の利用分野


本発明は、検索のためにユーザから受け付けたテキスト、音声等の言葉に基づいて、多数の文書データ記憶されている文書集合からの検索を行う検索方法に関する。特に、文脈の流れの中で意味が動的に変化する文書中の意味のまとまりの単位である文単位から、受け付けた言葉と意味合いが類似する文単位を直接的に検索することができる文単位検索方法、文単位検索装置、コンピュータを前記文単位検索装置として機能させるコンピュータプログラム、該コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体、及び文書記憶装置に関する。

特許請求の範囲 【請求項1】
自然言語からなる複数の文書データが記憶されている文書集合を用い、該文書集合から取得した文書データを一又は複数の文からなる文単位に分別しておく一方、言葉を順次受け付け、受け付けた言葉に基づいて前記文書集合から分別してある文単位を検索する文単位検索方法において、
文書データ中に連なる文単位夫々に、該文単位及び先行文脈に基づき求められる該文単位での顕現性を表わす重み値が付与された複数の単語からなる重み付き単語群を対応付けて予め記憶しておくステップと、
言葉を受け付ける都度、該言葉に、該言葉及び先行文脈に基づき求められる該言葉での顕現性を表わす重み値が付与された複数の単語からなる重み付き単語群を対応付けるステップと、
受け付けた言葉に対応付けた重み付き単語群と類似する重み付き単語群が対応付けて記録されている文単位を、前記文書集合から抽出する類似文単位抽出ステップと、
抽出した文単位を出力するステップと
を含むことを特徴とする文単位検索方法。

【請求項2】
前記類似文単位抽出ステップは、
受け付けた言葉に対応付けた重み付き単語群の内の複数の単語の重み値の分布と、予め分別された文単位に対応付けられている重み付き単語群の内の複数の単語の重み値の分布とが、所定の条件を満たすか否かを判断するステップと、
所定の条件を満たすと判断された重み付き単語群が対応付けられている文単位を抽出するステップと
を含むことを特徴とする請求項1に記載の文単位検索方法。

【請求項3】
前記類似文単位抽出ステップは、
予め分別された文単位から、受け付けた言葉に対応付けた重み付き単語群と同一の単語を含む単語群が対応付けられた文単位を抽出するステップと、
受け付けた言葉と抽出した文単位とで、対応付けられた単語群の内の同一の単語毎に重み値の差分を算出するステップと、
抽出した文単位に、算出した差分が小さい順に優先順位を付与するステップと
を含み、
抽出した文単位を、優先順位に基づいて出力する
ことを特徴とする請求項1又は2に記載の文単位検索方法。

【請求項4】
前記重み付き単語群を、各単語を1次元とし、単語毎に付与される重み値の大きさを各単語に対応する次元方向の要素として持つ多次元ベクトルとして算出するステップを含み、
前記類似文単位抽出ステップは、
分別した文単位毎に記憶してある前記多次元ベクトルと、受け付けた言葉に対応付けた前記多次元ベクトルとの距離を算出するステップと、
文単位に、算出した距離が短い順に優先順位を付与するステップと
を含み、
付与された優先順位に従って出力する
ことを特徴とする請求項1又は2に記載の文単位検索方法。

【請求項5】
文単位又は受け付けた言葉に重み付き単語群を対応付ける際、
各単語が、前記文単位又は前記言葉よりも後続の文単位又は言葉に出現する又は参照される参照確率を算出する参照確率算出ステップを含み、
算出した参照確率を各単語の重み値として付与する
ことを特徴とする請求項1乃至4のいずれかに記載の文単位検索方法。

【請求項6】
前記参照確率算出ステップは、
前記各単語が先行の文単位を含む複数の文単位に出現するパターン、又は前記単語を先行の文単位から参照するパターンを含む特徴パターンを特定するステップと、
前記文書集合から取得された文書データ中で、前記特徴パターンと同一の特徴パターンが特定される単語が、後続の文単位で出現する又は参照される割合を算出するステップと
を含み、
算出した割合を参照確率とする
ことを特徴とする請求項5に記載の文単位検索方法。

【請求項7】
前記文書集合から抽出される単語毎に、該単語が先行の文単位を含む複数の文単位に出現するパターン、又は前記単語を先行の文単位から参照するパターンを含む特徴パターンを特定する特定ステップと、
特定した特徴パターンと同一の特徴パターンが特定される単語が、前記文書データ中で後続の文単位で出現したか又は参照されたかを判定する判定ステップと、
特定した特徴パターンと、該特徴パターンで特定される単語に対して判定した結果との回帰分析を行って前記参照確率に対する前記特徴パターンの回帰係数を算出する回帰ステップと
を含み、
文単位に重み付き単語群を対応付けて記憶しておく際、又は受け付けた言葉に重み付き単語群を対応付ける際、
前記参照確率算出ステップは、
前記文単位又は言葉毎に、該文単位又は言葉での単語の特徴パターンを特定し、
特定した特徴パターンに対する前記回帰係数を使用して参照確率を算出する
ことを特徴とする請求項5に記載の文単位検索方法。

【請求項8】
文単位に対しては、書き言葉からなる第1文書集合から取得された文書データ中で前記割合を算出し、
受け付けた言葉に対しては、話し言葉からなる第2文書集合から取得された文書データ中で前記割合を算出する
ことを特徴とする請求項6に記載の文単位検索方法。

【請求項9】
書き言葉からなる第1文書集合及び話し言葉からなる第2文書集合夫々について、
前記特定ステップ、前記判定ステップ及び前記回帰ステップを実行しておき、
前記参照確率算出ステップは、
前記文単位で特定した単語の特徴パターンに対しては、第1文書集合について実行した前記回帰ステップにより算出された回帰係数を使用して参照確率を算出し、
前記受け付けた言葉で特定した単語の特徴パターンに対しては、第2文書集合について実行した前記回帰ステップで算出された回帰係数を使用して参照確率を算出する
ことを特徴とする請求項7に記載の文単位検索方法。

【請求項10】
前記特徴パターンは、
前記単語を先行の文単位又は言葉から参照している場合の前記先行の文単位又は言葉から前記単語が含まれる文単位又は言葉までの、文単位又は言葉の数、
前記単語が出現又は参照されている直近の先行の文単位又は言葉における前記単語の係り受け情報、
前記単語が含まれる文単位又は言葉までに出現した又は参照された回数、
前記単語が出現又は参照されている直近の先行の文単位又は言葉における前記単語の名詞区別、
前記単語が出現又は参照されている直近の先行の文単位又は言葉中で前記単語が主題であるか否か、
前記単語が出現又は参照されている直近の先行の文単位又は言葉中で前記単語が主語であるか否か、
前記単語が含まれる文単位又は言葉における人称、
及び、
前記単語が含まれる文単位又は言葉における品詞情報、
の内の一又は複数を含む情報で特定される
ことを特徴とする請求項6乃至9のいずれかに記載の文単位検索方法。

【請求項11】
前記特徴パターンは、
前記単語を先行の文単位又は言葉から参照している場合の前記先行の文単位又は言葉から前記単語が含まれる文単位又は言葉までに対応する時間、
前記単語が出現又は参照されている直近の先行の文単位又は言葉中で前記単語に対応する発話速度、
及び、
前記単語が出現又は参照されている直近の先行の文単位又は言葉中で前記単語に対応する音声の周波数
の内の一又は複数を含む情報で特定される
ことを特徴とする請求項6乃至10のいずれかに記載の文単位検索方法。

【請求項12】
前記文章集合から抽出される単語の内の一の単語について、
前記分別された文単位に対応付けられている重み付き単語群の内から、前記一の単語が含まれる単語群であり、且つ前記一の単語の重み値が所定値以上である単語群を抽出する第1ステップと、
該第1ステップで抽出した単語群の各単語の重み値を単語毎に統合した値を、前記一の単語の各単語への関連度として付与した関連単語群を作成する第2ステップと、
作成した関連単語群を前記一の単語に対応付けて記憶する第3ステップと、
前記抽出された単語夫々について前記第1ステップ乃至第3ステップを予め実行するステップと、
文単位毎又は受け付けた言葉毎に対応付けられた重み付き単語群の各単語の重み値夫々を、各単語に対応付けて記憶されている前記関連単語群の各単語の関連度を使用して付与し直す関連度付加ステップと
を含むことを特徴とする請求項1乃至11のいずれかに記載の文単位検索方法。

【請求項13】
前記第2ステップは、
前記抽出した単語群について、各単語群に含まれる各単語の重み値に、前記一の単語の重み値で重み付けした総和を算出するステップと、
算出した総和を平均化するステップと、
作成する関連単語群の各単語の前記関連度として、各単語の重み値の平均化された総和を付与するステップと
を含むことを特徴とする請求項12に記載の文単位検索方法。

【請求項14】
前記関連度付加ステップは、
文単位毎又は受け付けた言葉毎に対応付けられた重み付き単語群の各単語について、
各単語に対応付けて記憶されている前記関連単語群に含まれる各単語の関連度を、前記重み付き単語群の各単語の重み値に乗算するステップと、
乗算結果に基づいて前記重み付き単語群の各単語の重み値として付与し直すステップと
を含むことを特徴とする請求項12又は13に記載の文単位検索方法。

【請求項15】
各単語夫々についての前記関連単語群を、各単語を1次元とし、単語毎に付与される関連度の大きさを各単語に対応する次元方向の要素として持つ多次元の関連度ベクトルとして算出するステップと
を含み、
前記関連度付加ステップは、
分別した文単位毎に記憶してある前記多次元ベクトルを、各単語の関連度ベクトルの列によって変換する
ことを特徴とする請求項12乃至14のいずれかに記載の文単位検索方法。

【請求項16】
自然言語からなる複数の文書データが記憶されている文書集合を用い、言葉を受け付け、受け付けた言葉に基づいて前記文書集合を検索する文単位検索方法において、
前記文書集合から得られる文書データを一又は複数の文からなる文単位に分別しておくステップ、
分別した文単位毎に、該文単位に出現する単語、又は、文書データ中の先行の文単位から参照する単語を抽出するステップ、
前記文単位に対して抽出した単語毎に、各文単位における特徴を特定して記憶しておくステップ、
分別した文単位毎に、該文単位に対して抽出した単語が該文単位及び先行の文単位で出現する場合の前記特徴の組み合わせのパターン、又は先行の文単位から参照する場合の参照のパターンを含む特徴パターンを特定するステップ、
特定した特徴パターンと、該特徴パターンで特定された単語が後続の文単位で出現又は参照されたか否かとを記憶しておくステップ、
前記文書集合から得られる文書中の文単位全体に対し、一の特徴パターンで特定される単語が後続の文単位で出現又は参照される参照確率の回帰分析を行って特徴パターンに対応する回帰係数を得る回帰学習を実行するステップ、
分別した文単位毎に、
文書データ中で先行の文単位から各文単位に至るまでに抽出された各単語について、前記文単位で特定される特徴パターンに対応する前記回帰係数を使用し、前記単語の前記参照確率を算出するステップ、
算出した参照確率を夫々付与した重み付き単語群を対応付けて予め記憶しておくステップ、
言葉を受け付けた場合、受け付けた順に言葉を記憶するステップ、
言葉を受け付けた場合、
受け付けた言葉に出現する単語又は前記言葉よりも先に受け付けた言葉から参照する単語を抽出するステップ、
抽出した各単語の前記受け付けた言葉における特徴を特定するステップ、
先に受け付けた言葉で出現する場合の特徴の組み合わせのパターン、又は先に受け付けた言葉から参照する場合の参照のパターンを含む特徴パターンを特定するステップ、
特定された特徴パターンに対応する前記回帰係数を使用して、前記単語の前記参照確率を算出するステップ、
算出した参照確率を夫々付与した重み付き単語群を前記言葉に対応付けるステップ、
前記受け付けた言葉と、予め分別されてある文単位とで、対応付けられている重み付き単語群の内の同一の単語毎に付与されている参照確率の差分を算出するステップ、
予め分別されてある文単位に、前記参照確率の差分が小さい順に優先順位を付与するステップ、及び、
前記文単位を付与された優先順位に基づいて出力するステップ
を含むことを特徴とする文単位検索方法。

【請求項17】
自然言語からなる複数の文書データが記憶されている文書集合から文書データを取得する手段と、言葉を順次受け付ける手段とを備え、受け付けた言葉に基づいて前記文書集合を検索する文単位検索装置において、
取得した文書データを一又は複数の文からなる文単位に分別する手段と、
取得した文書データ中に連なる文単位夫々に、該文単位及び先行文脈に基づき求められる該文単位での顕現性を表わす重み値が付与された複数の単語からなる重み付き単語群を対応付けて記憶する手段と、
言葉を受け付けた場合に受け付けた順に記憶する手段と、
新たに言葉を受け付ける都度、該言葉に、該言葉及び該先行文脈に基づき求められる該言葉での顕現性を表わす重み値が付与された複数の単語からなる重み付き単語群を対応付ける手段と、
予め分別された文単位から、受け付けた言葉に対応付けた重み付き単語群と類似する重み付き単語群が対応付けて記録されている文単位を抽出する手段と、
抽出した文単位を出力する手段と
を備えることを特徴とする文単位検索装置。

【請求項18】
自然言語からなる複数の文書データが記憶されている文書集合から、文書データを取得することが可能であるコンピュータを、言葉を順次受け付ける手段と、受け付けた言葉に基づいて前記文書集合を検索する手段として機能させることができるコンピュータプログラムにおいて、
取得した文書データを一又は複数の文からなる文単位に分別する手段、
取得した文書データ中に連なる文単位夫々に、該文単位及び先行文脈に基づき求められる該文単位での顕現性を表わす重み値が付与された複数の単語からなる重み付き単語群を対応付けて記憶する手段、
言葉を受け付けた場合に受け付けた順に記憶する手段、
新たに言葉を受け付ける都度、該言葉に、該言葉及び先行文脈に基づき求められる該言葉での顕現性を表わす重み値が付与された複数の単語からなる重み付き単語群を対応付ける手段、及び、
予め分別された文単位から、受け付けた言葉に対応付けた重み付き単語群と類似する重み付き単語群が対応付けて記録されている文単位を抽出する手段
として機能させることを特徴とするコンピュータプログラム。

【請求項19】
請求項18に記載のコンピュータプログラムを記録した、コンピュータで読み取り可能な記録媒体。

【請求項20】
自然言語からなる複数の文書データを記憶する手段と、記憶した文書データを、文書データの先頭から順に一又は複数の文からなる文単位に分別する手段とを備え、分別した文単位毎に、該文単位に出現する単語又は先行する文単位から参照する単語が抽出してあり、分別した文単位毎に抽出した単語が記憶してある文書記憶装置において、
文書データ中に連なる文単位毎に、複数の単語が、該文単位よりも後続の文単位に出現するか又は参照される参照確率を算出する手段と、
前記文単位夫々に、該文単位での顕現性を表わす重み値として前記参照確率が付与された前記複数の単語からなる重み付き単語群を対応付けて記憶する手段
を備えることを特徴とする文書記憶装置。

【請求項21】
抽出されてある単語の内の一の単語について、
文単位夫々に対応付けられている重み付き単語群の内から、前記一の単語が含まれる単語群であり、且つ前記一の単語の重み値が所定値以上である単語群を抽出する抽出手段と、
該抽出手段が抽出した単語群の各単語の重み値を単語毎に統合した値を、前記一の単語の各単語への関連度として付与した関連単語群を作成する作成手段と、
作成した関連単語群を前記一の単語に対応付けて記憶する記憶手段と
を備え、
前記抽出されてある単語夫々について前記抽出手段、前記作成手段及び前記記憶手段の処理を実行するようにしてあり、各単語に対応付けて夫々の関連単語群を記憶するようにしてあること
を特徴とする請求項20に記載の文書記憶装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2008530812thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close