TOP > 国内特許検索 > 同義判定装置、同義学習装置、及びプログラム

同義判定装置、同義学習装置、及びプログラム

国内特許コード P160013311
整理番号 3928
掲載日 2016年9月23日
出願番号 特願2012-274963
公開番号 特開2014-119988
登録番号 特許第5916016号
出願日 平成24年12月17日(2012.12.17)
公開日 平成26年6月30日(2014.6.30)
登録日 平成28年4月15日(2016.4.15)
発明者
  • 泉 朋子
  • 齋藤 邦子
  • 松尾 義博
  • 黒橋 禎夫
  • 河原 大輔
  • 柴田 知秀
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 同義判定装置、同義学習装置、及びプログラム
発明の概要 【課題】述部の同義判定を高精度に行うことができる。
【解決手段】素性構築部222により、入力部210により入力された「項-述部」ペアについて分布類似度と、辞書定義文素性と、意味属性素性と、機能表現素性を抽出し、同義判定部230により、「項-述部」ペアが同義であるか否かを判定するための同義判定モデル記憶部232に記憶されている同義判定モデルと、抽出された分布類似度と、辞書定義文素性と、意味属性素性と、機能表現素性とに基づいて「項-述部」ペアが同義であるか否かを判定する。
【選択図】図22
従来技術、競合技術の概要


現在、Web上のブログや音声対話ログなど大量のテキスト情報から欲しい情報を探し出す検索技術や、有益な情報のみを自動で抽出・集計するテキストマイニング技術の高精度化が求められている。これらを実現するために必要なのが、計算機による自然文の意味理解である。



例えば、(1)「XXのランチに満足だった。」、(2)「XXのランチを堪能しました。」という2つの文があった場合、これらが「同じ事を表している」と判定できなくては、利用者が求める情報を正しく検索できなかったり、テキストマイニングで必要な「同じ情報のまとめ上げ」ができない。



上記(1)の文と(2)の文は同じ事を表しているが、文字列からはこれらが同じ意味(すなわち、同義)であることは認識できない。そのため、ユーザが求める情報検索や情報抽出に障害が起きる。そこで、表層文字列以外を手がかりに自然文の意味理解を行う必要がある。



特に、「満足だった」や「堪能しました」のような文の「どうした」を表す述部は、文の核情報を表しており、これらの同義判定が可能になれば、より精度の高い情報検索・情報抽出が可能となる。



従来の述部の同義判定手法として、「(景気が)冷え込む」と「(景気が)悪化する」の「冷え込む」と「悪化する」のように、組み合わさる要素によって同義になるような述部を含めた同義判定手法が提案されている(以後、「どうした」を表す部分(すなわち「冷え込む」と「悪化する」)を述部、「何が」や「何を」の部分(すなわち、「景気」)を項と呼ぶ。)(非特許文献1)。



この同義判定手法は、「景気が-冷え込む」のように、「何が」や「何を」を表す項と述部をペアにし、分布類似度というものを用いて、同義計算を行う。



分布類似度とは、似た意味の単語はその単語が出現する文脈も似ているという考えに基づき、同義計算の対象となる単語の周辺に出てくる要素を素性として、周辺にどのような要素がどのような頻度で出てきているかをもとに、似た文脈で出てくる単語か否かを計算するものである。



また、上記の同義判定手法は、対象の「項-述部」に対して、それらの周辺に現れる別の「項-述部」、もしくは「述部」を素性とし、周辺に現れる要素の分布類似度を用いて、同義性を判定する。

産業上の利用分野


本発明は、同義判定装置、同義学習装置、及びプログラムに係り、特に、述部ペアの同義性を判定するための同義判定装置、同義学習装置、及びプログラムに関する。

特許請求の範囲 【請求項1】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、
予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、
前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された述部ペアが同義であるか否かを判定する同義判定部と、
を含む同義判定装置。

【請求項2】
前記素性構築部は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、
前記述部ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性
前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記述部ペアの意味属性の重なり度合いである第4の素性
入力された前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語を比較した分布類似度である第5の素性
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記述部ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルである第6の素性、及び
前記述部ペアの前記共通する意味ラベルの重なり度合いである第7の素
うち少なくとも1つの素性を抽出する、
請求項1記載の同義判定装置。

【請求項3】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、
予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、
前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された「項-述部」ペアが同義であるか否かを判定する同義判定部と、
を含む同義判定装置。

【請求項4】
前記素性構築部は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、
前記「項-述部」ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性、
前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記「項-述部」ペアの意味属性の重なり度合いである第4の素性
入力された前記「項-述部」ペアの「項-述部」の各々について、テキストコーパスにおいて前記「項-述部」の周辺に出現する単語を比較した分布類似度、及び前記「項-述部」ペアの述部の各々について、テキストコーパスにおいて前記「項-述部」の述部の周辺に出現する単語を比較した分布類似度のうち少なくとも前記「項-述部」の周辺に出現する単語を比較した分布類似度である第5の素性
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記「項-述部」ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記「項-述部」ペアで共通する意味ラベルである第6の素性、及び
前記「項-述部」ペアの前記共通する意味ラベルの重なり度合いである第7の素
うち少なくとも1つの素性を抽出する、
請求項3記載の同義判定装置。

【請求項5】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1つを、同義か否かの情報が付され、かつ、予め用意された複数の述部ペアの各々について抽出する素性構築部と、
前記素性構築部によって前記複数の述部ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の述部ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、
を含む同義学習装置。

【請求項6】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項-述部」ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1を、同義か否かの情報が付され、かつ、予め用意された複数の「項-述部」ペアの各々について抽出する素性構築部と、
前記素性構築部によって前記複数の「項-述部」ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の「項-述部」ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、
を含む同義学習装置。

【請求項7】
コンピュータを、請求項1~4の何れか1項記載の同義判定装置を構成する各手段として機能させるためのプログラム。

【請求項8】
コンピュータを、請求項5~6の何れか1項記載の同義学習装置を構成する各手段として機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2012274963thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close