TOP > 国内特許検索 > 同義判定装置、同義学習装置、及びプログラム > 明細書

明細書 :同義判定装置、同義学習装置、及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5916016号 (P5916016)
公開番号 特開2014-119988 (P2014-119988A)
登録日 平成28年4月15日(2016.4.15)
発行日 平成28年5月11日(2016.5.11)
公開日 平成26年6月30日(2014.6.30)
発明の名称または考案の名称 同義判定装置、同義学習装置、及びプログラム
国際特許分類 G06F  17/27        (2006.01)
FI G06F 17/27 695
G06F 17/27 615
請求項の数または発明の数 8
全頁数 34
出願番号 特願2012-274963 (P2012-274963)
出願日 平成24年12月17日(2012.12.17)
審査請求日 平成27年2月25日(2015.2.25)
特許権者または実用新案権者 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
発明者または考案者 【氏名】泉 朋子
【氏名】齋藤 邦子
【氏名】松尾 義博
【氏名】黒橋 禎夫
【氏名】河原 大輔
【氏名】柴田 知秀
個別代理人の代理人 【識別番号】110001519、【氏名又は名称】特許業務法人太陽国際特許事務所
審査官 【審査官】成瀬 博之
参考文献・文献 国際公開第2012/153524(WO,A1)
特開2007-079730(JP,A)
特開2012-043294(JP,A)
調査した分野 G06F 17/27-17/28
特許請求の範囲 【請求項1】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、
予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、
前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された述部ペアが同義であるか否かを判定する同義判定部と、
を含む同義判定装置。
【請求項2】
前記素性構築部は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、
前記述部ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性
前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記述部ペアの意味属性の重なり度合いである第4の素性
入力された前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語を比較した分布類似度である第5の素性
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記述部ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルである第6の素性、及び
前記述部ペアの前記共通する意味ラベルの重なり度合いである第7の素
うち少なくとも1つの素性を抽出する、
請求項1記載の同義判定装置。
【請求項3】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、
予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、
前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された「項-述部」ペアが同義であるか否かを判定する同義判定部と、
を含む同義判定装置。
【請求項4】
前記素性構築部は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、
前記「項-述部」ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性、
前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記「項-述部」ペアの意味属性の重なり度合いである第4の素性
入力された前記「項-述部」ペアの「項-述部」の各々について、テキストコーパスにおいて前記「項-述部」の周辺に出現する単語を比較した分布類似度、及び前記「項-述部」ペアの述部の各々について、テキストコーパスにおいて前記「項-述部」の述部の周辺に出現する単語を比較した分布類似度のうち少なくとも前記「項-述部」の周辺に出現する単語を比較した分布類似度である第5の素性
予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記「項-述部」ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記「項-述部」ペアで共通する意味ラベルである第6の素性、及び
前記「項-述部」ペアの前記共通する意味ラベルの重なり度合いである第7の素
うち少なくとも1つの素性を抽出する、
請求項3記載の同義判定装置。
【請求項5】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1つを、同義か否かの情報が付され、かつ、予め用意された複数の述部ペアの各々について抽出する素性構築部と、
前記素性構築部によって前記複数の述部ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の述部ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、
を含む同義学習装置。
【請求項6】
予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項-述部」ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1を、同義か否かの情報が付され、かつ、予め用意された複数の「項-述部」ペアの各々について抽出する素性構築部と、
前記素性構築部によって前記複数の「項-述部」ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の「項-述部」ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、
を含む同義学習装置。
【請求項7】
コンピュータを、請求項1~4の何れか1項記載の同義判定装置を構成する各手段として機能させるためのプログラム。
【請求項8】
コンピュータを、請求項5~6の何れか1項記載の同義学習装置を構成する各手段として機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、同義判定装置、同義学習装置、及びプログラムに係り、特に、述部ペアの同義性を判定するための同義判定装置、同義学習装置、及びプログラムに関する。
【背景技術】
【0002】
現在、Web上のブログや音声対話ログなど大量のテキスト情報から欲しい情報を探し出す検索技術や、有益な情報のみを自動で抽出・集計するテキストマイニング技術の高精度化が求められている。これらを実現するために必要なのが、計算機による自然文の意味理解である。
【0003】
例えば、(1)「XXのランチに満足だった。」、(2)「XXのランチを堪能しました。」という2つの文があった場合、これらが「同じ事を表している」と判定できなくては、利用者が求める情報を正しく検索できなかったり、テキストマイニングで必要な「同じ情報のまとめ上げ」ができない。
【0004】
上記(1)の文と(2)の文は同じ事を表しているが、文字列からはこれらが同じ意味(すなわち、同義)であることは認識できない。そのため、ユーザが求める情報検索や情報抽出に障害が起きる。そこで、表層文字列以外を手がかりに自然文の意味理解を行う必要がある。
【0005】
特に、「満足だった」や「堪能しました」のような文の「どうした」を表す述部は、文の核情報を表しており、これらの同義判定が可能になれば、より精度の高い情報検索・情報抽出が可能となる。
【0006】
従来の述部の同義判定手法として、「(景気が)冷え込む」と「(景気が)悪化する」の「冷え込む」と「悪化する」のように、組み合わさる要素によって同義になるような述部を含めた同義判定手法が提案されている(以後、「どうした」を表す部分(すなわち「冷え込む」と「悪化する」)を述部、「何が」や「何を」の部分(すなわち、「景気」)を項と呼ぶ。)(非特許文献1)。
【0007】
この同義判定手法は、「景気が-冷え込む」のように、「何が」や「何を」を表す項と述部をペアにし、分布類似度というものを用いて、同義計算を行う。
【0008】
分布類似度とは、似た意味の単語はその単語が出現する文脈も似ているという考えに基づき、同義計算の対象となる単語の周辺に出てくる要素を素性として、周辺にどのような要素がどのような頻度で出てきているかをもとに、似た文脈で出てくる単語か否かを計算するものである。
【0009】
また、上記の同義判定手法は、対象の「項-述部」に対して、それらの周辺に現れる別の「項-述部」、もしくは「述部」を素性とし、周辺に現れる要素の分布類似度を用いて、同義性を判定する。
【先行技術文献】
【0010】

【非特許文献1】柴田知秀・黒橋禎夫(2010). 文脈に依存した述語の同義関係獲得. IPSJ SIG Notes 2010-NL-199(13), 1-6.
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかし、上記の非特許文献1に記載の手法では、(3)「棚を撤去する」、(4)「棚を設置する」というまったく逆の事を表す表現である2文についても「意味が類似している」と判定されるという問題がある。
【0012】
また、(5)「テキストを作成する」、(6)「テキストを用いる」という「ある動作の連続」を表す2文(これらの述部関係を、以後「時間経過関係」と呼ぶ。)についても、述部同士が、高い類似性を出してしまうという問題がある。
【0013】
これらの問題は、分布類似度が「文脈の類似性によって同義を判定する」ために起きてしまう。たとえば、非特許文献1の手法では、1文内に対象の「項-述部」もしくは「述部」と一緒に出現する単語を手がかりに同義性を判定する。しかし、反義の述部は、その述部以外はまったく同じ文脈で出現することが可能なために、分布類似度では判定が難しい。同様に、「時間経過」を表す述部同士も、「教師が協力して、テキストを作成し、授業ではそのテキストを用いる。」というように、一文内に時間経過をあらわす述部が存在することが多々ある。その場合、「テキスト-ヲ-作成する」と「テキスト-ヲ-用いる」は両方とも「教師-ガ-協力」という単語を共有するため、結果として類似度が高くなる。
【0014】
このように、非特許文献1の手法では、周辺単語の出現を素性として単語の類似度を測る分布類似度を用いていることにより、周辺単語が似ている「反義関係」や「時間経過関係」も「類似している」と判定されるため、述部の同義判定が高精度にできないという問題がある。
【0015】
品詞が動詞、形容詞、形容動詞、名詞である単語を「内容語」と呼び、助詞・助動詞など述部の内容語の後に現れる文末表現を「機能表現」(非特許文献6:松吉俊, 佐藤理史, 宇津呂武仁(2007)日本語機能表現辞書の編纂 自然言語処理, vol.14, No.5, 123-146.)と呼ぶ。同義判定の対象である述部は、例えば「募集している」というよう述部は、「募集する」という「内容語」と「ている」という動作の継続を表す「機能表現」から構成されている。
【0016】
機能表現は、述部に重要な意味(例えば、「動作の継続を表す」)を与えており、述部を考慮することが同義判定では必要となる。たとえば、(7)「サポーターを募集している」、(8)「サポーターを募っている」((7)と同義)、(9)「サポーターを募っているかもしれない」((7)とは同義ではない)の「募集する」と「募る」という述部はどの機能表現と組み合わされるかによって同義になったり同義にならなかったりする。
【0017】
また、機能表現の出現のパターンそのものが、述部同士が同義か否かを表す重要な特徴となる場合がある。「キッチンが片付いている」の述部の内容語である「片付く」と、「キッチンが整っている」の述部の内容語である「整う」を例に説明する。図2に、ブログ800万文から抽出した内容語「片付く」と「整う」に対する機能表現の出現頻度の一例を示す。「片付く」と「整う」の後に出現する機能表現は、どちらに対しても「継続」を表す「ている」や「ていた」のような表現が多い。これは、「片付く」や「整う」という内容語は、お互い無生物のものを主語(たとえば、「部屋」、「机の上」など)とする動詞である。そのため、「ている」という表現をつけることで、その主語の「状態」を表す表現になりやすい。一方、「片付けたい」や「整いたい」というような願望表現はあまり出現しない。このように、同義の内容語は似たような機能表現と出現しやすい。述部の同義判定を目的とした場合、述部内の機能表現の出現パターンが、同義となるか否かを判定するために重要な特徴となる場合があり、述部の同義判定を行う場合、述部の機能表現を考慮することが必要である。
【0018】
しかし、上記の非特許文献1に記載の手法では、述部の機能表現を考慮して同義判定を行うためには、上記の(7)(8)(9)を例にすると、「募集している」、「募っている」、「募るかもしれない」という3つの異なる述部として、それぞれの分布類似度を計算しなくてはならない。その場合、分布類似度計算のデータがスパースになってしまうため(すなわち、それぞれの述部の出現頻度が、内容語より大幅に減ってしまう)、正しく分布類似度を計算するためには、膨大なデータを必要とするという問題がある。
【0019】
本発明では、上記問題点を解決するために成されたものであり、述部ペアが同義であるか否かを高精度に判定することができる同義判定装置、同義学習装置、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0020】
上記目的を達成するために、第1の発明の同義判定装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された述部ペアが同義であるか否かを判定する同義判定部と、を含んで構成されている。
【0021】
第1の発明によれば、素性構築部によって、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアで共通する意味属性を第2の素性とし、前記第1の素性及び前記第2の素性のうち少なくとも1つを抽出し、同義判定部によって、述部ペアが同義であるか否かを判定するための予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、前記素性構築部によって抽出された前記第1の素性及び前記第2の素性のうち少なくとも1つの素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された述部ペアが同義であるか否かを判定する。
【0022】
このように、入力された述部ペアの述部各々の定義文内にペアとなる述部が存在するか否かを第1の素性とし、入力された述部ペアの述部各々の意味属性で共通する意味属性を第2の素性とし、第1の素性及び第2の素性のうち少なくとも1つを抽出し、入力された述部ペアが同義であるか否かを判定することにより、述部ペアが同義であるか否かを高精度に判定することができる。
【0023】
第2の発明の同義判定装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアで共通する意味属性である第2の素性のうち少なくとも1つを抽出する素性構築部と、予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、前記素性構築部で抽出された素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された「項-述部」ペアが同義であるか否かを判定する同義判定部と、を含んで構成されている。
【0024】
第2の発明によれば、素性構築部によって、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、入力された「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かを第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアで共通する意味属性を第2の素性とし、前記第1の素性及び前記第2の素性のうち少なくとも1つを抽出し、同義判定部によって、「項-述部」ペアが同義であるか否かを判定するための予め求められた同義判定モデルが記憶された同義判定モデル記憶部と、前記素性構築部によって抽出された前記第1の素性及び前記第2の素性のうち少なくとも1つの素性に基づいて前記同義判定モデル記憶部に記憶された前記同義判定モデルを基に前記入力された「項-述部」ペアが同義であるか否かを判定する。
【0025】
このように、入力された「項-述部」ペアの述部各々の定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かを第1の素性とし、入力された「項-述部」ペアの述部各々の意味属性で共通する意味属性を第2の素性とし、第1の素性及び第2の素性のうち少なくとも1つを抽出し、入力された「項-述部」ペアが同義であるか否かを判定することにより、述部ペアが同義であるか否かを高精度に判定することができる。
【0026】
第3の発明の同義判定学習装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1つを、同義か否かの情報が付され、かつ、予め用意された複数の述部ペアの各々について抽出する素性構築部と、前記素性構築部によって前記複数の述部ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の述部ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、を含んで構成されている。
【0027】
第3の発明によれば、素性構築部によって予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、述部ペアの述部各々の定義文に基づいて抽出される、前記述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記述部ペアの述部各々の意味属性で共通する意味属性を第2の素性とし、同義か否かの情報が付され、かつ、予め用意された複数の述部ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも1つを抽出し、前記素性構築部によって前記複数の述部ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の述部ペアについての前記同義か否かの情報とに基づいて前記述部ペアが同義であるか否かを判定するための同義判定モデルを学習する。
【0028】
このように、述部ペアの述部各々の前記定義文内にペアとなる述部が存在するか否かを第1の素性とし、述部ペアの述部各々の意味属性で共通する意味属性を第2の素性とし、同義か否かの情報が付され、かつ、予め用意された複数の述部ペアの各々について、第1の素性及び第2の素性のうち少なくとも1つを抽出し、述部ペアが同義であるか否かを判定するための同義判定モデルを学習することにより、述部ペアが同義であるか否かを高精度に判定することができる。
【0029】
第4の発明の同義判定学習装置は、予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かである第1の素性、及び予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項-述部」ペアの述部各々の意味属性で共通する意味属性である第2の素性のうち少なくとも1を、同義か否かの情報が付され、かつ、予め用意された複数の「項-述部」ペアの各々について抽出する素性構築部と、前記素性構築部によって前記複数の「項-述部」ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の「項-述部」ペアについての前記同義か否かの情報とに基づいて同義判定モデルを学習する同義判定モデル学習部と、を含んで構成されている。
【0030】
第4の発明によれば、素性構築部によって予め用意された複数の述部の各々についての定義文からなる定義文集合から得られる、「項-述部」ペアの述部各々の定義文に基づいて抽出される、前記「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かを第1の素性とし、予め用意された複数の述部の各々についての意味属性からなる意味属性集合から得られる、前記「項-述部」ペアの述部各々の意味属性で共通する意味属性を第2の素性とし、同義か否かの情報が付され、かつ、予め用意された複数の「項-述部」ペアの各々について、前記第1の素性及び前記第2の素性のうち少なくとも1つを抽出し、前記素性構築部によって前記複数の「項-述部」ペアについて抽出された第1の素性及び前記第2の素性のうち少なくとも1つと、前記複数の「項-述部」ペアについての前記同義か否かの情報とに基づいて前記「項-述部」ペアが同義であるか否かを判定するための同義判定モデルを学習する。
【0031】
このように、「項-述部」ペアの述部各々の前記定義文内にペアとなる述部が存在するか否か、及び前記「項-述部」ペアの述部の各々の前記定義文内にペアとなる「項-述部」の項が存在するか否かのうち少なくとも前記述部が存在するか否かを第1の素性とし、「項-述部」ペアの述部各々の意味属性で共通する意味属性を第2の素性とし、同義か否かの情報が付され、かつ、予め用意された複数の「項-述部」ペアの各々について、第1の素性及び第2の素性のうち少なくとも1つを抽出し、「項-述部」ペアが同義であるか否かを判定するための同義判定モデルを学習することにより、「項-述部」ペアが同義であるか否かを高精度に判定することができる。
【0032】
また、上記第1の発明に係る同義判定装置は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、前記述部ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性前記入力された前記述部ペアの述部各々の意味属性に基づいて抽出される前記述部ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記述部ペアの意味属性の重なり度合いである第4の素性入力された前記述部ペアの述部の各々について、テキストコーパスにおいて前記述部の周辺に出現する単語を比較した分布類似度である第5の素性予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記述部ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記述部ペアで共通する意味ラベルである第6の素性、及び前記述部ペアの前記共通する意味ラベルの重なり度合いである第7の素性のうち少なくとも1つの素性を抽出し、前記同義判定部は、前記素性構築部によって抽出された素性に基づいて前記述部ペアが同義であるか否かを判定するようにすることができる。
【0033】
また、上記第2の発明に係る同義判定装置は、前記第1の素性及び前記第2の素性のうち少なくとも1つの素性を抽出すると共に、前記「項-述部」ペアの述部各々の前記定義文の両方に出現する語彙の数である第3の素性、前記入力された前記「項-述部」ペアの述部各々の意味属性に基づいて抽出される前記「項-述部」ペアに共通する意味属性の詳細の度合いに応じた重みを付加した前記「項-述部」ペアの意味属性の重なり度合いである第4の素性入力された前記「項-述部」ペアの「項-述部」の各々について、テキストコーパスにおいて前記「項-述部」の周辺に出現する単語を比較した分布類似度、及び前記「項-述部」ペアの述部の各々について、テキストコーパスにおいて前記「項-述部」の述部の周辺に出現する単語を比較した分布類似度のうち少なくとも前記「項-述部」の周辺に出現する単語を比較した分布類似度である第5の素性予め用意された複数の述部の各々の機能表現の意味ラベルからなる意味ラベル集合から得られる、前記入力された前記「項-述部」ペアの述部各々の機能表現の意味ラベルに基づいて抽出される前記「項-述部」ペアで共通する意味ラベルである第6の素性、及び前記「項-述部」ペアの前記共通する意味ラベルの重なり度合いである第7の素性のうち少なくとも1つの素性を抽出し、前記判定手段は、前記素性抽出手段によって抽出された素性に基づいて前記「項-述部」ペアが同義であるか否かを判定するようにすることができる。
【0034】
また、本発明のプログラムは、コンピュータを、上記の同義判定装置又は同義学習装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0035】
以上説明したように、本発明の同義判定装置、同義学習装置、及びプログラムによれば、述部ペアが同義であるか否かを高精度に判定することができる。
【図面の簡単な説明】
【0036】
【図1】本実施の形態の素性ベクトル構築装置の機能的構成を示すブロック図である。
【図2】ブログ800万文から抽出した、内容語に対する機能表現の出現頻度の一例である。
【図3】基本解析部における解析結果の例を示す図である。
【図4】素性抽出部において抽出される素性の例を示す図である。
【図5】素性ベクトル構築部において構築される素性ベクトルの例を示す図である。
【図6】本実施の形態の同義学習装置の機能的構成を示すブロック図である。
【図7】正解コーパスの例を示す図である。
【図8】分布類似度算出部において算出される分布類似度の例を示す図である。
【図9】定義文抽出部において抽出される定義文の例を示す図である(定義文相互補完性)。
【図10】定義文抽出部において抽出される定義文の例を示す図である(語彙の重なり)。
【図11】本実施の形態の辞書定義文素性抽出部の機能的構成を示すブロック図である。
【図12】辞書定義文素性抽出部で抽出する素性の一覧を示す図である。
【図13】辞書定義文素性抽出部で抽出する素性の例を示す図である。
【図14】用言属性の例を示す図である。
【図15】用言属性の階層の例を示す図である。
【図16】本実施形態の意味属性素性抽出部の機能的構成を示すブロック図である。
【図17】意味属性素性抽出部において抽出される素性の例を示す図である。
【図18】意味ラベル付与部において付与される意味ラベルの例を示す図である。
【図19】本実施形態の機能表現素性抽出部の機能的構成を示すブロック図である。
【図20】機能表現の例を示す図である。
【図21】同義判定モデル学習部において作成される素性の例を示す図である。
【図22】本実施の形態の同義判定装置の機能的構成を示すブロック図である。
【図23】素性構築部において作成される素性の例を示す図である。
【図24】本実施の形態の素性ベクトル構築装置における同義判定モデル学習処理ルーチン中の素性ベクトル構築処理ルーチンを示すフローチャートである。
【図25】本実施の形態の同義学習装置における同義判定モデル学習処理ルーチンを示すフローチャートである。
【図26】本実施の形態の同義学習装置における同義判定モデル学習処理ルーチン中の分布類似度算出処理ルーチンを示すフローチャートである。
【図27】本実施の形態の同義学習装置における同義判定モデル学習処理ルーチン中の辞書定義文素性抽出処理ルーチンを示すフローチャートである。
【図28】本実施の形態の同義学習装置における同義判定モデル学習処理ルーチン中の意味属性素性抽出処理ルーチンを示すフローチャートである。
【図29】本実施の形態の同義学習装置における同義判定モデル学習処理ルーチン中の機能表現素性抽出処理ルーチンを示すフローチャートである。
【図30】本実施の形態の同義判定装置における同義判定処理ルーチンを示すフローチャートである。
【図31】同義判定の結果と入力した素性の例を示す図である。
【図32】同義判定の結果と入力した素性の例を示す図である。
【図33】同義判定の結果と入力した素性の例を示す図である。
【図34】同義判定の結果と入力した素性の例を示す図である。
【発明を実施するための形態】
【0037】
以下、図面を参照して本発明の実施の形態を詳細に説明する。

【0038】
<素性ベクトル構築装置の構成>
本発明の実施の形態に係る素性ベクトル構築装置について説明する。図1に示すように、本発明の実施の形態に係る素性ベクトル構築装置100は、CPUとRAMと後述する素性ベクトル構築処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この素性ベクトル構築装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。

【0039】
入力部10は、キーボードなどの入力装置から自然言語で記載され且つ電子化された複数の文を受け付ける。この複数の文による集合をテキストコーパスと呼ぶ。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

【0040】
演算部20は、基本解析部24と、素性抽出部26と、素性ベクトル生成部28とを備えている。

【0041】
基本解析部24には、入力部10が受け付けたテキストコーパスが入力される。基本解析部24は、入力されたテキストコーパスの各文について、形態素解析及び係り受け解析を行い、形態素毎の表記と標準形と品詞、および文節ごとの係り受け情報が少なくとも含まれる解析結果を素性抽出部26に出力する。図3に「花を植えて、花壇が完成した。」という文に対する基本解析部24の出力の一例を示す。なお、形態素解析、係り受け解析は既存のものを用いて良い。

【0042】
素性抽出部26は、基本解析部24から入力される各文の解析結果を用い、各文に含まれる「項-述部」に対して、その「項-述部」の周辺に現れる単語の情報(文脈情報)を項述部素性として抽出して出力する。また、素性抽出部26は、基本解析部24から入力される各文の解析結果を用い、各文に含まれる述部に対して、その述部の周辺に現れる単語の情報(文脈情報)を述部素性として抽出して出力する。本実施形態では、例えば上記の非特許文献1と同じ方法で項述部素性や述部素性を抽出する。具体的には、対象の「項-述部」に係っている別の「項-述部」、「述部」を項述部素性として抽出する。さらに、「述部」単体に係っている項(格助詞をもつ名詞句)、及び別の「述部」を述部素性として抽出する。本実施形態での素性抽出部26の出力の一例を図4に示す。図4に示す通り、「花壇-ガ-完成する」という「項-述部」に対して、「植える」という「述部」および、「花-ヲ-植える」という別の「項-述部」を項述部素性として抽出する。また、「完成する」という述部に対しては、「花壇-ガ」という項と「植える」という述部を述部素性として抽出する。

【0043】
素性ベクトル生成部28は、基本解析部24から入力される各文の解析結果を用いて、各文に含まれる「項-述部」を素性ベクトル構築対象の「項-述部」として抽出する。そして、素性ベクトル生成部28は、抽出された素性ベクトル構築対象の「項-述部」ごとに素性抽出部26から入力される項述部素性を用いて算出される値を要素とする素性ベクトルを構築し、出力部30に出力する。また、素性ベクトル生成部28は、基本解析部24から入力される各文の解析結果を用いて、各文に含まれる述部を素性ベクトル構築対象の述部として抽出する。そして、素性ベクトル生成部28は、抽出された素性ベクトル構築対象の述部ごとに素性抽出部26から入力される述部素性を用いて算出される値を要素とする素性ベクトルを構築し、出力部30に出力する。本実施形態では、例えば非特許文献1と同じ方法で素性ベクトルを構築する。具体的には、素性ベクトル構築対象の「項-述部」と各項述部素性の相互情報量(MI)をもとに算出されるweightの値を要素の値とする素性ベクトルを構築する。また、素性ベクトル構築対象の述部と各述部素性の相互情報量(MI)をもとに算出されるweightの値を要素の値とする素性ベクトルを構築する。weightは、下記(1)式を用いて算出される。また、相互情報量(MI)は、下記(2)式を用いて算出される。

【0044】
【数1】
JP0005916016B2_000002t.gif



【0045】
素性ベクトル構築対象が「項-述部」の場合の素性ベクトルを項述部素性ベクトルと呼ぶ。素性ベクトル構築対象が「項-述部」の場合、uは「項-述部」を表し、fは項述部素性を表す。P(u)は素性ベクトル構築対象の「項-述部」がテキストコーパスに出現する確率を、P(f)は項述部素性がテキストコーパスに出現する確率、P(u,f)は素性ベクトル構築対象の「項-述部」と項述部素性が同時に現れる確率を表す。MIが0より大きい場合、weightの値は1となる。MIが0以下の場合、weightの値は0となる。図5上の表に構築された項述部素性ベクトルの例を示す。例では、uが「花壇-ガ-完成」、fが「花-ヲ-植える」の場合、MIが0より大きくweightの値が1であることを示している。また、uが「花壇-ガ-出来上がる」、fが「時間-ヲ-かける」の場合、MIが0以下でweightの値が0であることを示している。

【0046】
素性ベクトル構築対象が述部の場合の素性ベクトルを述部素性ベクトルと呼ぶ。素性ベクトル構築対象が述部の場合、uは述部を表し、fは述部素性を表す。P(u)は素性ベクトル構築対象の述部がテキストコーパスに出現する確率を、P(f)は述部素性がテキストコーパスに出現する確率、P(u,f)は素性ベクトル構築対象の述部と述部素性が同時に現れる確率を表す。MIが0より大きい場合、weightの値は1となる。MIが0以下の場合、weightの値は0となる。図5下の表に構築された述部素性ベクトルの例を示す。例では、uが「完成」、fが「花壇-ガ」の場合、MIが0より大きくweightの値が1であることを示している。また、uが「出来上がる」、fが「家-ガ」の場合、MIが0以下でweightの値が0であることを示している。

【0047】
このように、本実施形態では、入力されたテキストコーパスに含まれる各述部を素性ベクトルの構築対象とした述部素性ベクトルと、入力されたテキストコーパスに含まれる各「項-述部」を素性ベクトルの構築対象とした項述部素性ベクトルの2種類(以下、両者を合わせて「素性ベクトル」とする。)を作成する。
本実施形態では、述部素性ベクトルと項述部素性ベクトルの両方を作成したが、後述する同義学習装置及び同義判定装置で使用される素性ベクトルのみを作成すれば良い。

【0048】
<同義学習装置の構成>
次に、本発明の実施の形態に係る同義学習装置の構成について説明する。図6に示すように、本発明の実施の形態に係る同義学習装置200は、CPUとRAMと後述する判定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この同義学習装置200は、機能的には図6に示すように入力部110と、演算部120と、出力部150とを備えている。

【0049】
入力部110は、キーボードなどの入力装置から同義か否かの情報が付与された複数の述部ペア及び複数の「項-述部」ペアを受け付ける。この、同義か否かの情報が付与された複数の述部ペア及び複数の「項-述部」ペアを正解コーパスと呼ぶ。なお、入力部110は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

【0050】
演算部120は、素性ベクトル記憶部124と、分布類似度計算部132と、定義文辞書記憶部134と、辞書定義文素性抽出部136と、意味属性辞書記憶部138と、機能表現辞書記憶部139と、意味属性素性抽出部140と、機能表現素性抽出部141と、素性集合記憶部142と、同義判定モデル学習部144と、を含んだ構成で表すことができる。

【0051】
正解コーパス122(図11に記載)は、入力部110において受け付けた、図7に示すような人手であらかじめ意味関係情報「同義」が付された述部ペア及び「項-述部」ペアである正解データの集合(正例)と、意味関係情報「反義」又は「その他」が付された述部ペア及び「項-述部」ペアである正解データの集合(負例)である。

【0052】
素性ベクトル記憶部124は、素性ベクトル構築装置100により出力された素性ベクトルを記憶している。

【0053】
分布類似度計算部132は、入力された正解コーパス122のすべての述部ペア又は「項-述部」ペア各々に対して、素性ベクトル記憶部124から得られる、対応する素性ベクトルを用いて、分布類似度を計算し、計算結果をその計算対象の述部ペア又は「項-述部」ペアとともに素性集合記憶部142に出力する。述部素性ベクトルを用いて計算される分布類似度を述部分布類似度と呼び、項述部素性ベクトルを用いて計算される分布類似度を項述部分布類似度と呼ぶ。述部ペアに対して分布類似度を計算する場合は、述部に関しての情報のみを使うため、述部分布類似度のみが算出されるが、「項-述部」ペアに対して分布類似度を計算する場合は、「項-述部」に関しての情報のみならず、述部に関する情報も使うことができるため、項述部分布類似度と述部分布類似度の両方を算出することができる。分布類似度の計算は、素性ベクトル構築装置100によってテキストコーパスから得られた述部素性ベクトル及び項述部素性ベクトルの少なくとも一方を用いて分布類似度を計算する処理である。また、本実施形態では、非特許文献1と同じ方法で分布類似度を計算する。具体的には、下記(3)~(5)式を用いて分布類似度を計算し、式(3)のmeasureが分布類似度である。

【0054】
【数2】
JP0005916016B2_000003t.gif



【0055】
ただし、上記(4)式の、JACCARD係数の分子は、項述部素性ベクトルを用いて分布類似度の算出を行う場合、2つの項述部素性ベクトルを要素毎に比較したときに、一方の項述部素性ベクトルの要素の値が1であり、且つ他方の項述部素性ベクトルの要素の値も1である要素の個数である。また、JACCARD係数の分母は、分布類似度の算出に用いるペアの2つの項述部素性ベクトルを要素毎に比較したときに、一方の項述部素性ベクトルの要素および他方の項述部素性ベクトルの要素の少なくとも一方の要素の値が1である要素の個数である。

【0056】
また、上記(5)式の、SIMPSON係数の分子は、JACCARD係数の分子と同様であり、SIMPSON係数の分母は、算出に用いるペアの項述部素性ベクトルにおいて要素の値が1である要素の個数と、他方の項述部素性ベクトルにおいて要素の値が1である要素の個数のうち、少ないほうの個数である。

【0057】
ただし、上記(4)式の、JACCARD係数の分子は、述部素性ベクトルを用いて分布類似度の算出を行う場合、2つの述部素性ベクトルを要素毎に比較したときに、一方の述部素性ベクトルの要素の値が1であり、且つ他方の述部素性ベクトルの要素の値も1である要素の個数である。また、JACCARD係数の分母は、分布類似度の算出に用いるペアの2つの述部素性ベクトルを要素毎に比較したときに、一方の述部素性ベクトルの要素および他方の述部素性ベクトルの要素の少なくとも一方の要素の値が1である要素の個数である。

【0058】
また、上記(5)式の、SIMPSON係数の分子は、JACCARD係数の分子と同様であり、SIMPSON係数の分母は、算出に用いるペアの述部素性ベクトルにおいて要素の値が1である要素の個数と、他方の述部素性ベクトルにおいて要素の値が1である要素の個数のうち、少ないほうの個数である。

【0059】
なお、本実施形態では述部分布類似度と項述部分布類似度の両方を用いる。図8に「花壇-ガ-完成する」と「花壇-ガ-出来上がる」の分布類似度の例を示す。図8の表の上段が項述部分布類似度の例であり、下段が述部分布類似度の例である。述部分布類似度と項述部分布類似度あわせて分布類似度と呼ぶ。また、分布類似度が第5の素性の一例である。

【0060】
<辞書定義文素性抽出部の構成>
辞書定義文素性抽出部136は、入力された正解コーパスのすべての述部ペアの内容語又はすべての「項-述部」ペアの内容語の各々に関して、定義文辞書記憶部134に記憶されている定義文辞書に基づいて「定義文相互補完性」を示す素性と「語彙の重なり」を示す素性を抽出し、抽出対象のペアとともに素性集合記憶部142に出力する。定義文辞書は、複数の述部の内容語の各々に対応する1つ以上の定義文からなり、定義文辞書から抽出される各々の1つ以上の定義文のセットを定義文セットと呼ぶ。なお、定義文相互補完性を示す素性が第1の素性の一例であり、語彙の重なりを示す素性が第3の素性の一例である。また、第1の素性と第3の素性をあわせて辞書定義文素性と呼ぶ。

【0061】
「同義の述部はその語義を説明する相互の定義文セットに類似性がある」という特徴から、辞書定義文素性抽出部136で、「定義文相互補完性」と「語彙の重なり」を示す素性を抽出することによって、従来手法で問題であった「まったく逆のことを表す述部を誤って同義と判定する」という問題が起きるのを回避することができる。

【0062】
ここで、「定義文相互補完性」とは、相手の述部の定義文セット内に自分の述部が出現することをいい、図9に示す「完成する」と「出来上がる」の2つの同義である述部を例にとると、「完成」という述部が、同義である「出来上がる」の辞書定義文セット内に現れており、また「出来上がる」という述部が、同義である「完成」の辞書定義文セット内に出現していることをいう。

【0063】
また、「語彙の重なり」とは、定義文セット同士で語彙が重なっていることをいい、図10に示す「値段-ガ-高値」と「値段-ガ-高い」の2つの同義である述部を例にとると、双方の定義文セットに「値段」という語彙が共通に出現していることをいう。

【0064】
このように、「同義の述部はその語義を説明する相互の定義文セットに類似性がある」という特徴があり、この特徴を「定義文相互補完性」もしくは「語彙の重なり」という形で表現することができる。なお、以後は説明のため、「花壇-ガ-出来上がる」と「花壇-ガ-完成する」のような「項-述部」ペアに対して、最初の「項-述部」の述部(すなわち、「出来上がる」)をPred1、「項」(すなわち、「花壇」)をArg1、2つ目の「項-述部」の述部(すなわち、「完成する」)をPred2、項(すなわち、「花壇」)をArg2とする。同様に、「出来上がる」と「完成する」のような述部ペアに対しても、最初の述部をPred1、2つ目の述部をPred2とする。

【0065】
辞書定義文素性抽出部136の詳細構成を図11に示す。辞書定義文素性抽出部136は、定義文抽出部1360と、定義文相互補完性抽出部1362と、語彙の重なり抽出部1364とから構成される。

【0066】
定義文抽出部1360は、入力された正解コーパスのすべての述部ペア又は「項-述部」ペアの各々の述部の内容語に対して、定義文辞書記憶部134に記憶されている定義文辞書の辞書引きを行い、述部ペア又は「項-述部」ペアごとにそれぞれの述部の定義文セットを抽出する。そして、抽出した定義文セットの形態素解析を行い、形態素毎の表記と標準形と品詞、および読みが少なくとも含まれる解析結果を定義文相互補完性抽出部1362及び語彙の重なり抽出部1364に出力する。

【0067】
定義文相互補完性抽出部1362は、抽出対象のペア(述部ペア又は「項-述部」ペア)ごとに、定義文抽出部1360から入力された定義文セットの形態素解析の結果から、定義文相互補完性を示す素性を抽出し、抽出対象のペアとともに素性集合記憶部142に出力する。具体的には、Pred1の定義文セット内にPred2が出現したか、また、Pred2の定義文セット内にPred1が出現したかを文字列マッチで抽出する。Pred1の定義文セット内にPred2が出現したかどうかをPred1Match、また、Pred2の定義文セット内にPred1が出現したかどうかをPred2Matchとする。本実施形態では、出現した場合には、素性の値を1とする。同様に、Pred1の定義文セット内に、Arg2が出現したか、またPred2の定義文セット内にArg1が出現したかを抽出し、出現した場合には、素性の値を1とする。Pred1の定義文セット内に、Arg2が出現したかどうかをArg1Match、また、Pred2の定義文セット内にArg1が出現したかどうかをArg2Matchとする。なお、これらの値は、重なり回数や重なり回数を定義文セットの総単語数で正規化した値など実数値を入れてもよい。
本実施形態では、第1の素性として、Pred1Match、Pred2Match、Arg1Match、Arg2Matchの全てを使っているが、第1の素性を使う場合において、Arg1MatchとArg2Matchは使わなくてもよい。

【0068】
語彙の重なり抽出部1364は、抽出対象のペア(述部ペア又は「項-述部」ペア)ごとに、定義文抽出部1360から入力した定義文セットの形態素解析の結果から、抽出対象のペアの述部の定義文セット同士に語彙の重なりがあるかを示す素性を抽出し、抽出対象のペアとともに素性集合記憶部142に出力する。本実施形態では、両方の定義文セットに共通して出現する語彙の個数を素性とし、語彙の品詞(非自立性を除く名詞、動詞、形容詞、形容動詞と4種類の品詞)毎に集計する。ここで、両方の定義文セットに共通して出現する名詞の品詞をもつ語彙の個数をNounMatch、動詞の品詞をもつ語彙の個数をVerbMatch、形容詞の品詞をもつ語彙の個数をAdjMatch、及び形容動詞の品詞をもつ語彙の個数をAdjNMatchと呼ぶ(図12)。本実施形態では、第3の素性として、NounMatch、VerbMatch、AdjMatch、AdjNMatchの全てを使っているが、少なくとも1つの素性があれば良い。なお、両方の定義文セットに共通して出現する語彙の個数ではなく、両方の定義文セットに共通して出現する語彙の有無を素性とし、語彙の品詞毎に集計してもよく、有りの場合に値を1にして無の場合に値を0にしてもよい。さらに、両方の定義文セットに共通して出現する語彙の個数を定義文セットの総単語数で正規化した値など用いてもよい。図13に作成された素性の一覧の例を示す。

【0069】
定義文辞書記憶部134は、複数の述部の各々に対応する定義文セットを格納した定義文辞書を記憶している。定義文辞書は、既存の国語辞書や、複数のユーザによって加筆・編集されたWeb上のフリー辞書を用いても良い。なお、定義文辞書が定義文集合の一例である。

【0070】
<意味属性素性抽出部の構成>
意味属性素性抽出部140は、入力された正解コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの述部の内容語の各々の抽象的な意味属性の重なりを示す素性を抽出し、抽出対象のペアとともに素性集合記憶部142に出力する。本実施形態では、抽象的な意味属性の重なりを示す素性として、後述する「重なり用言属性」と「意味属性重み付き重なり率」の二つを抽出する。本実施形態においては、抽出対象の述部の抽象的な意味属性として用言属性を用いる。意味属性辞書は、複数の述部の各々に対応する1つ以上の用言属性からなり、意味属性辞書から抽出される各々の1つ以上の用言属性のセットを用言属性集合と呼ぶ。両方の述語の用言属性集合に共通して出現する用言属性を「重なり用言属性」の素性として抽出する。また、その両方に共通して出現する用言属性が属する階層に重みを付与して算出する「意味属性重み付き重なり率」も素性として抽出することができる。意味属性素性抽出部140は、これらの二つ素性を抽出対象のペアとともに素性集合記憶部142に出力する。

【0071】
「同義の述部同士は、その述部の抽象的な意味属性も似ている」という特徴から、意味属性素性抽出部140で、述部そのものの抽象的な意味属性の重なりと階層的重なりの「深さ」を考慮し素性として抽出することによって、従来手法で問題であった「時間経過を表す述部を誤って同義と判定する」という問題が起きるのを回避することができる。

【0072】
本実施形態において、抽象的な意味属性として、「用言属性」(非特許文献2:池原 悟, 宮崎 正弘, 白井 諭, 横尾 昭男, 中岩 浩巳, 小倉 健太郎, 大山 芳史, 林 良彦 (1999) 日本語語彙大系 CD-ROM版. 岩波書店.)を用いる。用言属性集合の一例を、述部が「完成する」の場合と「出来上がる」の場合を例に図14に示す。図15が示すように、これらの属性はしばし、階層的な構造をもち、階層が下位に進むにつれ、より属性が詳細化される。たとえば、「行動」という上位属性に対して、さらに「物理的行動」という中間属性を経て、「所有的移動」というようなより詳細な属性が明記されている。

【0073】
意味属性素性抽出部140の詳細構成を図16に示す。意味属性素性抽出部140は、意味属性重なり抽出部1400と、意味属性重み付き重なり率計算部1402とから構成される。

【0074】
意味属性重なり抽出部1400は、入力された正解コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの各述部の内容語の意味属性である用言属性集合を意味属性辞書から抽出し、ペア同士の用言属性集合の両方に出現する用言属性を素性として抽出し、抽出対象のペアとともに意味属性重み付き重なり率計算部1402へ出力する。図17に「花壇-ガ-完成する」の「完成する」に対する用言属性集合(属性変化、生成)と、「花壇-ガ-出来上がる」の「出来上がる」に対する用言属性集合(生成)から重なり用言属性として「生成」が抽出された例を示す。なお、重なり用言属性が第2の素性の一例である。

【0075】
意味属性重み付き重なり率計算部1402は、ペア(述部ペア又は「項-述部」ペア)毎に意味属性重なり抽出部1400から入力された全ての用言属性と意味属性辞書から抽出した用言属性の階層情報に基づいて、用言属性の重なり度合いを示す素性としての「意味属性重み付き重なり率」を下記(6)式及び(7)式に従って計算し、意味属性重なり抽出部1400から入力された素性及び抽出対象のペアとともに、素性集合記憶部142に出力する。重なり用言属性と意味属性重み付き重なり率の二つの素性は、それぞれ「よりたくさんの属性を共有するほど、述部同士が類似している」という特徴と、「より詳細な属性を共有するほど、述部同士は類似している」という特徴を表わしている。なお、意味属性重み付き重なり率が第4の素性の一例である。第2の素性と第4の素性をあわせて意味属性素性と呼ぶ。

【0076】
【数3】
JP0005916016B2_000004t.gif



【0077】
例えば、「花壇-ガ-完成する」と「花壇-ガ-出来上がる」の意味属性重み付き重なり率を計算する場合、「完成する」の用言属性集合と「出来上がる」の用言属性集合の両方に出現する用言属性は「生成」という用言属性である。さらに、「生成」は図15に示すとおり一番詳細な階層4の属性であるため、下記の(8)式のように重み付き重なり率が計算される。

【0078】
【数4】
JP0005916016B2_000005t.gif



【0079】
意味属性辞書記憶部138は、複数の述部の内容語の各々に対応する意味属性を格納した意味属性辞書を記憶している。本実施形態においては、意味属性辞書として用言属性辞書が記憶されている。なお、意味属性辞書が意味属性集合の一例である。

【0080】
<機能表現素性抽出部の構成>
機能表現素性抽出部141は、正解コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの述部の機能表現の意味の重なりを示す素性を抽出し
、抽出対象のペアとともに素性集合記憶部142に出力する。本実施形態では、機能表現の意味の重なりを示す素性として、後述する「重なり意味ラベル」と「意味ラベル重なり率」の二つを抽出する。

【0081】
機能表現素性抽出部141で、述部の機能表現の重なりを示す素性を抽出することによって、述部の内容語のみを用いて分布類似度の計算を行なっていても述部の同義判定を高精度に行うことができる。これは、分布類似度のみを用いて機能表現を考慮した同義判定を行う場合に生じる、述部を個々の内容語と機能表現の組み合わせとした分布類似度計算のために膨大なデータを必要とする問題が起きるのを回避することができる。

【0082】
機能表現素性抽出部141の詳細構成を図19に示す。機能表現素性抽出部141は、意味ラベル付与部1500と、重なり意味ラベル抽出部1502と、意味ラベル重なり率計算部1504とから構成される。

【0083】
意味ラベル付与部1500は、入力された正解コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に関して、当該ペアの各述部の機能表現の意味ラベルを機能表現辞書から抽出し、当該ペアとともに重なり意味ラベル抽出部1502へ出力する。本実施形態では、統計的な意味ラベル付与方法を用いる(非特許文献7:今村賢治,泉朋子,菊井玄一郎,佐藤理史 (2011).述部機能表現の意味ラベルタガー 言語処理学会第17回年次大会.518-521)。具体的には、入力された正解コーパスのすべてのペアの各述部の形態素解析を行い、形態素毎の表記と標準形と品詞が少なくとも含まれる解析結果を用いて最も尤もらしい意味ラベル列を付与する。図20に機能表現辞書の例を示す。図18に、「花壇-ガ-出来上がった」と「花壇-ガ-完成した」という「項-述部」ペアが入力された場合に意味ラベル列を付与した例を示す。図18に示される例においては、述部はそれぞれ「出来上がった」と「完成した」であり、それぞれを内容語部分と機能表現部分を識別し、それぞれの機能表現の「た」に「完了」の意味ラベルを付与している。

【0084】
本実施形態では、述部の内容語部分と機能表現部分の識別を意味ラベル付与部1500で行なっているが、出来事の意味に影響を与える機能表現のみを残す事前処理を実施するようにしてもよい。(非特許文献8:Izumi T., Imamura K., Kikui G., & Sato S. (2010). Standardizing Complex Functional Expressions in JapansesePredicates: Applying Theoretically-Based Paraphrasing Rules. Proceedings of the Workshop on Multiword Exressions: From theory to applications (MWE 2010), 63-71)

【0085】
重なり意味ラベル抽出部1502は、意味ラベル付与部1500から入力された抽出対象のペアとそれぞれの意味ラベルから、両方の述部の意味ラベルに共通して出現する意味ラベルを重なり意味ラベルとして抽出し、当該ペアとともに意味ラベル重なり計算部1504に出力する。「花壇-ガ-出来上がった」と「花壇-ガ-完成した」という「項-述部」ペアの例では、述部「出来上がった」の意味ラベル「完了」と述部「完成した」の意味ラベル「完了」から、重なり意味ラベルとして「完了」が抽出される。なお、重なり意味ラベルが第6の素性の一例である。

【0086】
意味ラベル重なり率計算部1504は、重なり意味ラベル抽出部1502から入力された抽出対象のペアと重なり意味ラベルに基づいて、意味ラベル重なり率を下記(9)式に従って計算し、当該ペア及び重なり意味ラベルとともに計算結果を素性集合記憶部142に出力する。なお、意味ラベル重なり率が第7の素性の一例である。第6の素性と第7の素性をあわせて機能表現素性と呼ぶ。

【0087】
【数5】
JP0005916016B2_000006t.gif

【0088】
機能表現辞書記憶部139は、複数の述部の機能表現に対する意味ラベルを格納した機能表現辞書を記憶している。本実施形態では、非特許文献6の辞書を用いているが、これに限られるものではなく、他の文末表現辞書、モダリティ表現辞書を用いてもよい。

【0089】
図6の素性集合記憶部142には、分布類似度計算部132、辞書定義文素性抽出部136、意味属性素性抽出部140、及び機能表現素性抽出部141で得られた各ペア(述部ペア又は「項-述部」ペア)の各素性及び素性の抽出対象のペアが入力され、素性集合記憶部142は、入力された各素性を各ペアごとに記憶している。

【0090】
図6の同義判定モデル学習部144は、入力された正解コーパスのすべてのペア(述部ペア又は「項-述部」ペア)の各々に対し、素性集合記憶部142から入力された各素性をもとに、同義判定モデルの学習を行い、学習した同義判定モデルを出力部150に出力する。同義判定モデルの学習にはSVMを用いる(非特許文献3:Chang, C.-C. and Lin, C.-J.(2011). LIBSVM: a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27, 1-27.)。

【0091】
具体的には、同義である述部ペア又は「項-述部」ペアを「正例(SVMでは+1)」、それ以外の同義ではない述部ペア又は「項-述部」ペアを「負例(SVMでは-1)」として、述部分布類似度及び項述部分布類似度の少なくとも1つと、辞書定義文素性、意味属性素性、機能表現素性を用いて同義判定モデルの学習を行う。図21に「花壇-ガ-完成する」と「花壇-ガ-出来上がる」に対する素性の一覧を示す。

【0092】
<同義判定部の構成>
次に、本発明の実施の形態に係る同義判定装置300の構成について詳細に説明する。図22に示すように、本発明の実施の形態に係る同義判定装置300は、CPUとRAMと後述する同義判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この同義判定装置300は、機能的には図22に示すように入力部210と、演算部220と、出力部250とを備えている。

【0093】
入力部210は、キーボードなどの入力装置から同義判定対象のペア(述部ペア又は「項-述部」ペア)を受け付ける。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

【0094】
演算部220は、素性ベクトル記憶部224と、定義文辞書記憶部226と、意味属性辞書記憶部228と、機能表現辞書記憶部229と、素性構築部222と、同義判定部230と、同義判定モデル記憶部232とを含んだ構成で表すことができる。

【0095】
素性ベクトル記憶部224には、素性ベクトル構築装置100において出力された素性ベクトルが記憶されている。

【0096】
素性構築部222は、入力部210において受け付けた同義判定対象のペア(述部ペア又は「項-述部」ペア)に対して、同義学習装置200と同じ種類の「分布類似度」、「辞書定義文素性」、「意味属性素性」及び「機能表現素性」をそれぞれ抽出し、同義判定部230に出力する。図23に抽出された素性の例を示す。

【0097】
同義判定部230は、素性構築部222から入力された素性に基づいて、同義学習装置200において出力され、予め求められた同義判定モデルが記憶されている同義判定モデル記憶部232に記憶された同義判定モデルを基にSVM識別器を用いて、入力された同義判定対象のペア(述部ペア又は「項-述部」ペア)が「同義か否か」を判定し、出力部250に出力する。

【0098】
<素性ベクトル構築装置の作用>
次に、本発明の実施の形態に係る素性ベクトル構築装置100の作用について説明する。まず、入力部10によりテキストコーパスが入力される。そして、素性ベクトル構築装置100のROMに記憶されたプログラムを、CPUが実行することにより、図24に示す素性ベクトル構築処理ルーチンが実行される。

【0099】
まず、ステップS100において、複数の文の集合であるテキストコーパスを読み込む。

【0100】
まず、ステップS102において、ステップS100において受け付けた複数の文のうちの一つの文について形態素解析を行う。

【0101】
次に、ステップS104において、ステップS100において形態素解析を行った文について係り受け解析を行う。

【0102】
次に、ステップS106において、ステップS102及びステップS104において得られた形態素毎の表記と標準型と品詞、および文節ごとの係り受け情報が少なくとも含まれる解析結果から当該文に含まれる「項-述部」の周辺に現れる単語の情報(文脈情報)を項述部素性として抽出する。また、ステップS106において、ステップS102及びステップS104において得られた形態素毎の表記と標準型と品詞、および文節ごとの係り受け情報が少なくとも含まれる解析結果から当該文に含まれる述部の周辺に現れる単語の情報(文脈情報)を述部素性として抽出する。本実施形態では、例えば上記の非特許文献1と同じ方法で項述部素性や述部素性を抽出する。具体的には、対象の「項-述部」に係っている別の「項-述部」、「述部」を項述部素性として抽出する。さらに、「述部」単体に係っている項(格助詞をもつ名詞句)、及び別の「述部」を述部素性として抽出する。

【0103】
次に、ステップS108において、ステップS100において受け付けた複数の文のすべてについて上記ステップS102~S106の処理を実行したか否かを判定する。すべての文について上記ステップS102~S106の処理を実行した場合にはステップS110に移行し、上記ステップS102~S106の処理を実行していない文が存在する場合には、ステップS102に移行して各処理を繰り返す。

【0104】
次に、ステップS110において、少なくとも一つの文に含まれる「項-述部」についてステップS106において抽出された素性に基づいて素性ベクトルを構築する。また、ステップS110において、少なくとも一つの文に含まれる述部についてステップS106において抽出された素性に基づいて素性ベクトルを構築する。

【0105】
次に、ステップS112において、ステップS100において読み込んだ少なくとも一つの文に含まれるすべての「項-述部」の各々について項述部素性ベクトルを構築したか否かを判定する。また、ステップS112において、ステップS100において読み込んだ少なくとも一つの文に含まれるすべての述部の各々について述部素性ベクトルを構築したか否かを判定する。すべての「項-述部」の各々について項述部素性ベクトルを構築した場合には、ステップS114に移行し、項述部素性ベクトルを構築していない「項-述部」が存在する場合には、ステップS110に移行して各処理を繰り返す。また、すべての述部の各々について述部素性ベクトルを構築した場合には、ステップS114に移行し、述部素性ベクトルを構築していない述部が存在する場合には、ステップS110に移行して各処理を繰り返す。

【0106】
次に、ステップS114において、ステップS110において構築された素性ベクトルの全てを出力部30により出力して処理を終了する。

【0107】
本実施形態では、述部素性ベクトルと項述部素性ベクトルの両方を作成したが、同義学習装置及び同義判定装置で使用される素性ベクトルのみを作成すれば良い。

【0108】
<同義学習装置の作用>
次に、本発明の実施の形態に係る同義学習装置200の作用について説明する。まず、入力部110により、素性ベクトル構築装置100により出力された、素性ベクトルが入力され、素性ベクトル記憶部124に記憶される。また、入力部110により正解コーパスが入力される。そして、同義学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図25に示す同義判定モデル学習処理ルーチンが実行される。

【0109】
まず、ステップS202において、正解コーパスを読み込む。

【0110】
以降のステップにおいては、述部ペアの同義判定モデルを学習する場合には読み込まれた正解コーパスのうち述部ペアの正解データのみを用いて処理が行われ、「項-述部」ペアの同義判定モデルを学習する場合には読み込まれた正解コーパスのうち「項-述部」ペアの正解データのみを用いて処理が行われる。

【0111】
次に、ステップS204において、ステップS202において得られた複数の正解データの各々について、素性ベクトル記憶部124に記憶された当該正解データのペア(述部ペア又は「項-述部」ペア)の各述部素性ベクトルに基づいて、当該正解データのペアの述部分布類似度を算出する。また、ステップS204において、ステップS202において得られた複数の正解データの各々について、素性ベクトル記憶部124に記憶された当該正解データの「項-述部」ペアの各項述部素性ベクトルに基づいて、当該正解データのペアの項述部分布類似度を算出する。本実施形態では、「項-述部」ペアに対しても述部分布類似度を算出したが、項述部分布類似度のみを算出してもよい。

【0112】
次に、ステップS206において、ステップS202において得られた複数の正解データの各々について、当該正解データのペア(述部ペア又は「項-述部」ペア)の辞書定義文素性を抽出する。

【0113】
次に、ステップS208において、ステップS202において得られた複数の正解データの各々について、当該正解データのペア(述部ペア又は「項-述部」ペア)の意味属性素性を抽出する。

【0114】
次に、ステップS209において、ステップS202において得られた複数の正解データの各々について、当該正解データのペア(述部ペア又は「項-述部」ペア)の機能表現素性を抽出する。

【0115】
次に、ステップS210において、ステップS204において得られた分布類似度と、ステップS206において得られた辞書定義文素性と、ステップS208において得られた意味属性素性と、ステップS209において得られた機能表現素性と、ステップS202において得られた複数の正解データの同義か否かの情報とに基づいて、複数の正解データの各々について、当該正解データのペア(述部ペア又は「項-述部」ペア)に対して抽出された全ての素性を含む正例、又は負例の学習データを作成する。

【0116】
次に、ステップS212において、ステップS210において作成された各学習データに基づいて同義判定モデルを学習し、同義判定モデルを出力部150により出力して処理を終了する。

【0117】
上記ステップS204は、図26に示す分布類似度算出ルーチンによって実現される。

【0118】
まず、ステップS250において算出対象の正解データの述部ペアについて、素性ベクトル記憶部124に記憶されている当該ペアの各述部素性ベクトルを読み出す。また、ステップS250において算出対象の正解データの「項-述部」ペアについて、素性ベクトル記憶部124に記憶されている当該ペアの各述部素性ベクトル及び各項述部素性ベクトルを読み出す。本実施形態では、算出対象の正解データの「項-述部」ペアについて述部素性ベクトルを読み出したが、読み出さなくてもよい。

【0119】
次に、ステップS252において、ステップS250において読み出された素性ベクトルに基づいて、当該正解データのペア(述部ペア又は「項-述部」ペア)について分布類似度を算出する。

【0120】
次に、ステップS254において、ステップS202において読み込んだ全ての正解データの各々について、当該正解データのペアの分布類似度が算出されたか否かを判定する。全ての正解データの各々のペア(述部ペア又は「項-述部」ペア)について分布類似度が算出されている場合には処理を終了し、分布類似度が算出されていない正解データのペア(述部ペア又は「項-述部」ペア)が存在する場合には、ステップS250に移行し当該正解データを算出対象の正解データとして各処理を繰り返す。

【0121】
上記、ステップS206は、図27に示す辞書定義文素性の抽出ルーチンによって実現される。

【0122】
まず、ステップS300において、抽出対象の正解データのペア(述部ペア又は「項-述部」ペア)の各述部の定義文セットを定義文辞書記憶部134から抽出する。

【0123】
次に、ステップS302において、ステップS300において抽出された定義文セットの各々の定義文について形態素解析を行う。

【0124】
次に、ステップS304において、ステップS302において得られた形態素毎の表記と標準形と品詞、および読みが少なくとも含まれる形態素解析の結果に基づいて、定義文相互補完性を示す素性を抽出する。定義文相互補完性を示す素性として、Pred1Match、Pred2Matchを抽出する。抽出対象の正解データのペアが「項-述部」ペアの場合、Arg1Match、Arg2Matchをさらに抽出することもできる。

【0125】
次に、ステップS306において、ステップS302において得られた形態素毎の表記と標準形と品詞、および読みが少なくとも含まれる形態素解析の結果に基づいて、語彙の重なりを示す素性を抽出する。語彙の重なりを示す素性として、NounMatch,VerbMatch,AdjMatch,AdjNMatchの少なくとも1つを抽出する。

【0126】
次に、ステップS308において、ステップS304において抽出された定義文相互補完性を示す素性及びステップS306において抽出された語彙の重なりを示す素性に基づいて、辞書定義文素性を構築する。

【0127】
次に、ステップS310において、ステップS202において読み込んだ全ての正解データの各々のペア(述部ペア又は「項-述部」ペア)について辞書定義文素性を構築したか判定する。すべての正解データのペア(述部ペア又は「項-述部」ペア)について辞書定義文素性を構築した場合には、処理を終了し、辞書定義文素性を構築していない正解データのペア(述部ペア又は「項-述部」ペア)が存在する場合には、ステップS300に移行して当該正解データを抽出対象の正解データとして各処理を繰り返す。

【0128】
上記ステップS208は、図28に示す意味属性素性の抽出ルーチンによって実現される。

【0129】
まず、ステップS400において、抽出対象の正解データのペア(述部ペア又は「項-述部」ペア)の各述部の重なり用言属性を抽出する。

【0130】
次に、ステップS402において、ステップS400において得られた重なり用言属性に基づいて、抽出対象の正解データのペア(述部ペア又は「項-述部」ペア)について意味属性重み付き重なり率を計算する。

【0131】
次に、ステップS404において、ステップS400において得られた重なり用言属性、及びステップS402において得られた意味属性重み付き重なり率に基づいて、当該抽出対象の正解データのペア(述部ペア又は「項-述部」ペア)について意味属性素性を構築する。

【0132】
次に、ステップS406において、ステップS202において読み込んだ全ての正解データの各々のペア(述部ペア又は「項-述部」ペア)について意味属性素性の構築をしたか否かを判定する。すべての正解データの各々のペア(述部ペア又は「項-述部」ペア)について意味属性素性の構築をした場合には処理を終了し、意味属性素性の構築をしていない正解データのペア(述部ペア又は「項-述部」ペア)が存在する場合には、ステップS400に移行し、当該正解データを抽出対象の正解データとして各処理を繰り返す。

【0133】
上記ステップS209は、図29に示す機能表現素性の抽出ルーチンによって実現される。

【0134】
まず、ステップS600において、抽出対象の正解データのペア(述部ペア又は「項-述部」ペア)の各述部の形態素解析を行い、形態素毎の表記と標準形と品詞が少なくとも含まれる解析結果を用いて最も尤もらしい意味ラベル列を付与する。

【0135】
次に、ステップS602において、ステップS600において得られたペア各々の述部の意味ラベルの両方に共通して出現する重なり意味ラベルを抽出する。

【0136】
次に、ステップS604において、ステップS602において得られたペアの重なり意味ラベルを用いて、意味ラベル重なり率を計算する。

【0137】
次に、ステップS606において、ステップS602において得られた重なり意味ラベル、及びステップS604において得られた意味ラベル重なり率に基づいて、当該抽出対象の正解データのペア(述部ペア又は「項-述部」ペア)について機能表現素性を構築する。

【0138】
次に、ステップS608において、ステップS202において読み込んだ全ての正解データの各々のペア(述部ペア又は「項-述部」ペア)について機能表現素性の構築をしたか否かを判定する。すべての正解データの各々のペア(述部ペア又は「項-述部」ペア)について機能表現素性の構築をした場合には処理を終了し、機能表現素性の構築をしていない正解データのペア(述部ペア又は「項-述部」ペア)が存在する場合には、ステップS600に移行し、当該正解データを抽出対象の正解データとして各処理を繰り返す。

【0139】
<同義判定装置の作用>
次に、本発明の実施の形態に係る同義判定装置300の作用について説明する。まず、入力部210により、同義学習装置200により出力された同義判定モデルが入力され、同義判定モデル記憶部232に記憶される。また、入力部210により同義判定対象のペア(述部ペア又は「項-述部」ペア)が入力されると、同義判定装置300のROMに記憶されたプログラムを、CPUが実行することにより、図30に示す同義判定処理ルーチンが実行される。

【0140】
まず、ステップS500において、入力された同義判定対象のペア(述部ペア又は「項-述部」ペア)を受け付ける。

【0141】
次に、ステップS502において、上記ステップS250、S252と同様に、同義判定対象のペア(述部ペア又は「項-述部」ペア)の分布類似度を算出する。

【0142】
次に、ステップS504において、上記ステップS300、S302、S304、S306、S308と同様に、同義判定対象のペア(述部ペア又は「項-述部」ペア)の辞書定義文素性を抽出する。

【0143】
次に、ステップS506において、上記ステップS400、S402、S404と同様に、同義判定対象のペア(述部ペア又は「項-述部」ペア)の意味属性素性を抽出する。

【0144】
次に、ステップS507において、上記ステップS600、S602、S604、S606と同様に、同義判定対象のペア(述部ペア又は「項-述部」ペア)の機能表現素性を抽出する。

【0145】
次に、ステップS508において、ステップS502において得られた分布類似度と、ステップS504において得られた辞書定義文素性と、ステップS506において得られた意味属性素性と、ステップS507において得られた機能表現素性とに基づいて、同義判定対象のペア(述部ペア又は「項-述部」ペア)の素性を作成する。

【0146】
次に、ステップS510において、ステップS506において作成された素性と、同義判定モデル記憶部232に記憶された同義判定モデルとに基づいて、同義判定対象のペア(述部ペア又は「項-述部」ペア)が同義か否かを判定する。

【0147】
次に、ステップS512において、ステップS510において同義判定された結果を出力部250により出力して処理を終了する。

【0148】
<同義判定結果の例>
図31~図34を用いて、同義判定処理ルーチンを実行した例を説明する。図31は、「棚-ヲ-設置する」と「棚-ヲ-撤去する」という「項-述部」ペアを入力とした場合の、同義判定の結果と、当該「項-述部」ペアについての素性一覧を示す。

【0149】
図31の例の場合、「同義ではない」と判定されている。これは、非特許文献1の手法である分布類似度のみを用いた場合では判定が困難であった反意関係の述部である。当該「項-述部」ペアについて作成された素性一覧が示しているように、「棚-ヲ-設置する」と「棚-ヲ-撤去する」の場合、算出された述部分布類似度と項述部分布類似度はともに高い値を出しているが(通常、分布類似度0.2以上が「同義」を表す閾値とされる)、抽出された辞書定義文内での語彙の重なりや定義文相互補完性がなかったために、正しく「同義ではない」と判定できている。

【0150】
次に、図32に「テキスト-ヲ-作成する」と「テキスト-ヲ-用いる」との「項-述部」ペアが入力された場合に、作成される素性一覧を示す。図32の「項-述部」ペアでは、算出された項述部分布類似度では比較的高い値を示しているが、述部分布類似度が低い値を示していることと、抽出された辞書定義文内での語彙の重なりや定義文相互補完性がないことと、抽出された意味属性素性に重なりがないために、正しく「同義ではない」と判定できている。

【0151】
次に、図33に「花壇-ガ-出来上がる」と「花壇-ガ-完成する」との「項-述部」ペアが入力された場合に、作成される素性の一覧示す。図33の場合、算出された述部分布類似度及び項述部分布類似度に加え、本発明で提案している抽出された辞書定義文素性と抽出された意味属性素性と機能表現素性が特徴となって、正しく「同義」と判定できる。

【0152】
次に、図34に「サポーター-ヲ-募っている」と「サポーター-ヲ-募集している」との「項-述部」ペアが入力された場合に、作成される素性の一覧を示す。図34の場合、算出された述部分布類似度に加え、本発明で提案している抽出された辞書定義文素性と抽出された意味属性素性と機能表現素性が特徴となって、正しく「同義」と判定できる。この例の場合、機能表現素性を用いないで同義判定モデルを学習し、学習された同義判定モデルを用いて同義判定を行わない場合、「同義ではない」と誤って判定される。

【0153】
上記のように、「同義の述部」に関する複数の言語的特徴を組み込むことで、同義の述部は正しく同義と、それ以外の述部は正しく「同義ではない」と判定できるようになる。

【0154】
なお、図33は学習モデルと同じ素性になっているが、判定結果は、当該述部ペアを除いた正解コーパスで学習した同義判定モデルを用いている。図33の場合、述部分布類似度および項述部分布類似度に加え、本発明で提案している辞書定義文素性と意味属性素性と機能表現素性が特徴となって、正しく「同義」と判定できる。

【0155】
以上説明したように、本発明の実施の形態に係る同義判定装置によれば、述部に焦点をあてることにより、表層は異なるが同じことを表している述部ペア又は「項-述部」ペアについて同義判定を自動で高精度に行うことができる。

【0156】
また、同義判定対象の述部ペア又は「項-述部」ペアの述部同士の辞書定義文セット間の「語彙の重なり」と「定義文相互補完性」、及び述部の抽象的な意味属性の重なりを示す素性である「重なり用言属性」を用い、さらに、「重なり用言属性」の階層情報を考慮して同義判定に反映させるための「意味属性重み付き重なり率」を用い、複数の言語的特徴に基づいて同義判定を行うことにより、反義関係及び時間経過関係が含まれている述部ペア又は「項-述部」ペアであっても、同義判定を自動で高精度に行うことができる。

【0157】
また、同義判定対象の述部ペア又は「項-述部」ペアの述部同士の機能表現の「重なり意味ラベル」と「意味ラベル重なり率」を素性として、「語彙の重なり」と「定義文相互補完性」と「重なり用言属性」と「意味属性重み付き重なり率」と「分布類似度」に追加して用いることにより、膨大なデータで分布類似度を計算する必要なく、機能表現の意味を考慮した同義判定が可能になり、同義判定を自動で高精度に行うことができる。

【0158】
また、本実施形態により、表層は異なるが同じ事を表している述部ペア及び「項-述部」ペアに対して、同義か否かを計算機で判定する同義判定手法において、複数の言語的特徴を素性として用いることで、より正確な述部ペア、「項-述部」ペアの同義判定ができるようになる。結果、大量のテキストから、重要な情報のみを抽出・集計・提示するテキストマイニング技術において、表層が異なる場合においても同じ出来事を正しく集計することができるようになる。

【0159】
また、表層は異なるが同じ事を表している述部ペア及び「項-述部」ペアに対して、同義か否かを計算機で判定する同義判定手法において、複数の言語的特徴を素性として用いることで、より正確な述部ペア及び「項-述部」ペアの同義判定ができるようになる。結果、ユーザが求める情報を探し出す検索技術において、文字列が異なる表現で検索しても同じ事を表すテキストを表示することが可能となり、検索技術の精度を向上させることができる。

【0160】
また、本実施形態では、同義を表す述部ペア及び「項-述部」ペアの述部同士の語義も類似しているという言語的特徴を、辞書定義文の「定義文相互補完性」と「語彙の重なり」という2つの特徴を用いて素性化し、その結果、既存の分布類似度手法では判定が難しかった「反意述部」を正しく判定することができるようになった。

【0161】
また、同義を表す述部ペア及び「項-述部」ペアの述部同士の抽象的な意味属性も類似しているという言語的特徴を、意味属性素性とし、具体的には、「よりたくさんの属性を共有するほど、述部同士が類似している」という特徴と、「より詳細な属性を共有するほど、述部同士は類似している」という特徴をそれぞれ「重なり用言属性」と「意味属性重み付き重なり率」として素性化し、その結果、既存の分布類似度手法では判定が難しかった「時間的経過を表す述部」に対して、「同義ではない」と正しく判定することができるようになった。

【0162】
また、「同義の述部」に関する複数の言語的特徴を素性として同義判定モデルを学習することで、既存の手法よりもより正確に同義を判定できるようになった。

【0163】
また、上記の実施の形態では、分布類似度と、定義文相互補完性を示す素性と、語彙の重なりを示す素性と、重なり用言属性と、意味属性重み付き重なり率と、重なり意味ラベルと、意味ラベル重なり率の7つの素性をすべて抽出したが、これに限定されるものではなく、定義文相互補完性を示す素性及び意味属性の重なりを示す素性の少なくとも一方の素性のみを抽出するようにしてもよい。また、より精度を向上させるために、分布類似度、語彙の重なりを示す素性、重なり用言属性、意味属性重み付き重なり率、重なり意味ラベル、及び意味ラベル重なり率の少なくとも1つを更に抽出してもよい。

【0164】
また、上記の実施の形態では、素性ベクトル構築装置100において、非特許文献1と同じ方法で素性ベクトルを構築しているが、これに限定されるものではなく、他のベクトル構築の手法を用いてもよい。(非特許文献4:Manning, C., & Schutze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT Press.)

【0165】
また、上記の実施の形態では、分布類似度計算部132において、素性ベクトル記憶部124から入力された素性ベクトルを用いて、分布類似度を算出しているが、これに限定されるものではなく、他の類似度計算の手法を用いてもよい。(非特許文献4:Manning, C., & Schutze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT Press.)

【0166】
また、上記の実施の形態では、抽象的な意味属性として、「用言属性」を用いているが、これに限定されるものではなく、LCS構造などを言語リソースとして用いてもよい。(非特許文献5:竹内孔一,乾健太郎,藤田篤(2006).語彙概念構造に基づく日本語動詞の統語・意味特性の記述,レキシコンフォーラム,No.2, pp.85-120.)

【0167】
また、上記の実施の形態では、同義判定モデルの学習にはSVMを用いているが、これに限定されるものではなく、Decision Treeなど別の判定モデルを用いてもよい。

【0168】
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0169】
また、上述の同義判定装置300は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。

【0170】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の同義判定装置300の各部をハードウエアにより構成してもよい。また、正解コーパス、テキストコーパス、素性ベクトル、定義文辞書、意味属性辞書、機能表現辞書、素性集合、判定モデルが記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、同義判定装置内部にデータベースを設けても良いし、外部装置に設けてもよい。
【符号の説明】
【0171】
10,110,210 入力部
20,120,220 演算部
24 基本解析部
26 素性抽出部
28 素性ベクトル生成部
30,150,250 出力部
100 素性ベクトル構築装置
122 正解コーパス
124 素性ベクトル記憶部
132 分布類似度計算部
134 定義文辞書記憶部
136 辞書定義文素性抽出部
138 意味属性辞書記憶部
139 機能表現辞書記憶部
140 意味属性素性抽出部
141 機能表現素性抽出部
142 素性集合記憶部
144 同義判定モデル学習部
200 同義学習装置
222 素性構築部
224 素性ベクトル記憶部
226 定義文辞書記憶部
228 意味属性辞書記憶部
229 機能表現辞書記憶部
230 同義判定部
232 同義判定モデル記憶部
300 同義判定装置
1360 定義文抽出部
1362 定義文相互補完性抽出部
1364 語彙の重なり抽出部
1400 意味属性重なり抽出部
1402 意味属性重み付き重なり率計算部
1500 意味ラベル付与部
1502 重なり意味ラベル抽出部
1504 意味ラベル重なり率計算部
図面
【図1】
0
【図6】
1
【図11】
2
【図16】
3
【図19】
4
【図22】
5
【図25】
6
【図28】
7
【図29】
8
【図30】
9
【図2】
10
【図3】
11
【図4】
12
【図5】
13
【図7】
14
【図8】
15
【図9】
16
【図10】
17
【図12】
18
【図13】
19
【図14】
20
【図15】
21
【図17】
22
【図18】
23
【図20】
24
【図21】
25
【図23】
26
【図24】
27
【図26】
28
【図27】
29
【図31】
30
【図32】
31
【図33】
32
【図34】
33