TOP > 国内特許検索 > 矛盾作成装置、方法、及びプログラム > 明細書

明細書 :矛盾作成装置、方法、及びプログラム

発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2017-054434 (P2017-054434A)
公開日 平成29年3月16日(2017.3.16)
発明の名称または考案の名称 矛盾作成装置、方法、及びプログラム
国際特許分類 G06F  17/28        (2006.01)
G06F  17/27        (2006.01)
G06F  17/24        (2006.01)
FI G06F 17/28 681
G06F 17/27 695
G06F 17/24
請求項の数または発明の数 7
出願形態 OL
全頁数 14
出願番号 特願2015-179839 (P2015-179839)
出願日 平成27年9月11日(2015.9.11)
発明者または考案者 【氏名】東中 竜一郎
【氏名】松尾 義博
【氏名】黒橋 禎夫
【氏名】河原 大輔
【氏名】高畠 悠
出願人 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
個別代理人の代理人 【識別番号】110001519、【氏名又は名称】特許業務法人太陽国際特許事務所
審査請求 未請求
テーマコード 5B091
5B109
Fターム 5B091AA15
5B091AB17
5B091CA12
5B091CA21
5B091CC04
5B109QB14
要約 【課題】新しい矛盾事態ペアを作成できる。
【解決手段】関係抽出部20が、矛盾事態ペアデータベース18と、名詞関係データベース16とを照合することで、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リストを作成する。名詞ペア置換部28が、矛盾事態ペアデータベース18から得られる矛盾事態ペアについて、矛盾事態ペアに含まれる名詞ペアの関係が、関係リスト22に含まれる場合、名詞ペアの関係と同じ関係を持つ名詞ペアを名詞関係データベース16から取得し、取得した名詞ペアによって前記矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する。単一名詞置換部30が、名詞関係データベース16から、取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、取得した同位語により矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する。
【選択図】図1
特許請求の範囲 【請求項1】
矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースと、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースとを照合することで、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リストを作成する関係抽出部と、
前記矛盾事態ペアデータベースから得られる前記矛盾事態ペアについて、前記矛盾事態ペアに含まれる名詞ペアの関係が、前記関係リストに含まれる場合、前記名詞ペアの関係と同じ関係を持つ名詞ペアを前記名詞関係データベースから取得し、前記取得した名詞ペアによって前記矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する名詞ペア置換部と、
を含む矛盾作成装置。
【請求項2】
矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースから、前件と後件とで共通する共有名詞を持つ矛盾事態ペアを取得する矛盾事態ペア取得部と、
名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースから、前記矛盾事態ペア取得部によって取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、前記抽出した同位語により前記矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する単一名詞置換部と、
を含む矛盾作成装置。
【請求項3】
前記作成された矛盾事態ペアに含まれる前記事態を表す文の各々について、大規模テキストコーパスにおける前記事態を表す文の頻度が閾値以上であるかをチェックして、前記作成された矛盾事態ペアに含まれる前記事態を表す文の各々の頻度が閾値以上であれば、前記矛盾事態ペアが適切であると判断するチェック部を更に含む請求項1又は2記載の矛盾作成装置。
【請求項4】
関係抽出部及び名詞ペア置換部を含む矛盾作成装置における矛盾作成方法であって、
前記関係抽出部が、矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースと、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースとを照合することで、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リストを作成し、
前記名詞ペア置換部が、前記矛盾事態ペアデータベースから得られる前記矛盾事態ペアについて、前記矛盾事態ペアに含まれる名詞ペアの関係が、前記関係リストに含まれる場合、前記名詞ペアの関係と同じ関係を持つ名詞ペアを前記名詞関係データベースから取得し、前記取得した名詞ペアによって前記矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する
矛盾作成方法。
【請求項5】
矛盾事態ペア取得部及び単一名詞置換部を含む矛盾作成装置における矛盾作成方法であって、
前記矛盾事態ペア取得部が、矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースから、前件と後件とで共通する共有名詞を持つ矛盾事態ペアを取得し、
前記単一名詞置換部が、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースから、前記矛盾事態ペア取得部によって取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、前記抽出した同位語により前記矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する
矛盾作成方法。
【請求項6】
チェック部が、前記作成された矛盾事態ペアに含まれる前記事態を表す文の各々について、大規模テキストコーパスにおける前記事態を表す文の頻度が閾値以上であるかをチェックして、前記作成された矛盾事態ペアに含まれる前記事態を表す文の各々の頻度が閾値以上であれば、前記矛盾事態ペアが適切であると判断することを更に含む請求項4又は5記載の矛盾作成方法。
【請求項7】
コンピュータを、請求項1~請求項3の何れか1項記載の矛盾作成装置を構成する各部として機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、矛盾作成装置、方法、及びプログラムに係り、特に、新たな矛盾事態ペアを作成するための矛盾作成装置、方法、及びプログラムに関する。
【背景技術】
【0002】
自然言語処理における言語生成の分野では一貫した内容を持つ文章を生成することが重要である。しかし、コンピュータの生成する文章が一貫した内容を持つかを判定することは常識的な知識が必要となり簡単ではない。
【0003】
たとえば、一貫性を欠く場合として、生成された文章に矛盾が含まれる場合がある。たとえば、「パリに行ったことがないが、エッフェル塔に登った」という文は矛盾を含んでいる。「パリに行ったことがない」ことと「エッフェル塔に登ったこと」は矛盾するからである。
【0004】
このような矛盾を含む文章の生成を避けるためには、矛盾の知識を用いてチェックする必要がある。
【0005】
たとえば、「パリに行ったことがない」ことと「エッフェル塔に登ったこと」が矛盾しているという知識をコンピュータが持っていれば、先の例のような文は生成されることはない。
【0006】
このような矛盾知識を取得する方法論として,コーパスから自動獲得する方法(非特許文献1参照)やクラウドソーシング(インターネット上のユーザにデータ作成を依頼する手法)を用いる方法などがある(非特許文献2参照)。
【先行技術文献】
【0007】

【非特許文献1】Chikara Hashimoto, Kentaro Torisawa, Stijn De Saeger, Jong-Hoon Oh, and Jun'ichi Kazama. Excitatory or inhibitory: A new semantic orientation extracts contradiction and causality from the web. In Proceedings of EMNLP2012, pp. 619-630, 2012.
【非特許文献2】高畠悠, 森田一, 河原大輔, 黒橋禎夫, 東中竜一郎, 松尾義博. クラウドソーシングを活用した事態間矛盾の分析と分類, 言語処理学会第21 回年次大会, pp.305-308,2015.
【発明の概要】
【発明が解決しようとする課題】
【0008】
コーパスから自動的に矛盾を抽出するとしても、クラウドソーシングを用いるとしても、獲得できる矛盾知識の量には限界がある。人間が備える常識的知識(矛盾知識を含む)は膨大と考えられ、矛盾知識の量を増やすことは重要な課題である。
【0009】
本発明は上記事情を鑑みてなされたものであり、新しい矛盾事態ペアを作成できる矛盾作成装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、第1の発明に係る矛盾作成装置は、矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースと、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースとを照合することで、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リストを作成する関係抽出部と、前記矛盾事態ペアデータベースから得られる前記矛盾事態ペアについて、前記矛盾事態ペアに含まれる名詞ペアの関係が、前記関係リストに含まれる場合、前記名詞ペアの関係と同じ関係を持つ名詞ペアを前記名詞関係データベースから取得し、前記取得した名詞ペアによって前記矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する名詞ペア置換部と、を含んで構成されている。
【0011】
第2の発明に係る矛盾作成方法は、関係抽出部及び名詞ペア置換部を含む矛盾作成装置における矛盾作成方法であって、前記関係抽出部が、矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースと、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースとを照合することで、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リストを作成し、前記名詞ペア置換部が、前記矛盾事態ペアデータベースから得られる前記矛盾事態ペアについて、前記矛盾事態ペアに含まれる名詞ペアの関係が、前記関係リストに含まれる場合、前記名詞ペアの関係と同じ関係を持つ名詞ペアを前記名詞関係データベースから取得し、前記取得した名詞ペアによって前記矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する。
【0012】
第1の発明及び第2の発明によれば、矛盾に関する名詞ペアの関係を抽出して関係リストを作成し、データベースから得られた矛盾事態ペアに含まれる名詞ペアの関係が、関係リストに含まれる場合、名詞ペアの関係と同じ関係を持つ名詞ペアを名詞関係データベースから取得し、取得した名詞ペアによって矛盾事態ペアの名詞ペアを置き換えることで、新しい矛盾事態ペアを作成できる。
【0013】
第3の発明に係る矛盾作成装置は、矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースから、前件と後件とで共通する共有名詞を持つ矛盾事態ペアを取得する矛盾事態ペア取得部と、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースから、前記矛盾事態ペア取得部によって取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、前記抽出した同位語により前記矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する単一名詞置換部と、を含んで構成されている。
【0014】
第4の発明に係る矛盾作成方法は、矛盾事態ペア取得部及び単一名詞置換部を含む矛盾作成装置における矛盾作成方法であって、前記矛盾事態ペア取得部が、矛盾する事態を表す文のペアである矛盾事態ペアを格納した矛盾事態ペアデータベースから、前件と後件とで共通する共有名詞を持つ矛盾事態ペアを取得し、前記単一名詞置換部が、名詞ペア及び前記名詞ペアの関係を格納した名詞関係データベースから、前記矛盾事態ペア取得部によって取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、前記抽出した同位語により前記矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する。
【0015】
第3の発明及び第4の発明によれば、矛盾事態ペアデータベースから、共有名詞を持つ矛盾事態ペアを取得し、名詞関係データベースから、取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、取得した同位語により矛盾事態ペアの共有名詞を置き換えることで、新しい矛盾事態ペアを作成できる。
【0016】
また、第5の発明に係るプログラムは、コンピュータを、上記の矛盾作成装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0017】
以上説明したように、本発明の矛盾作成装置、方法、及びプログラムによれば、新しい矛盾事態ペアを作成できる、という効果が得られる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施の形態に係る矛盾作成装置の構成を示すブロック図である。
【図2】本発明の実施の形態における矛盾作成処理ルーチンの内容を示すフローチャートである。
【図3】実験結果を示す図である。
【発明を実施するための形態】
【0019】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明の実施の形態では、矛盾事態ペアデータベースに含まれる矛盾事態ペアを拡充する場合を例に説明する。

【0020】
<本実施の形態の概要>
矛盾事態ペアデータベースが存在するときに、データベース中の矛盾事態ペアを、知識ベースから得られる名詞関係データベースを用いて拡張することによって、新しい矛盾事態ペアを獲得する。

【0021】
ここで、矛盾事態ペアデータベースは矛盾事態ペアのリストである。矛盾事態ペアとは矛盾する二つの事態を表す文であり、それぞれの事態を表す文は述語項構造で表現されるとする。述語項構造は、一つの述語と一つ以上の項(名詞句)からなるとする。矛盾事態ペアの例を次に示す。

【0022】
< フランスへ行かない, エッフェル塔に行く>
< 旅行の予定を立てない, 海外ツアーに申し込む>

【0023】
名詞関係データベースとは、2つの名詞と、当該2つの名詞間の関係を示したもので、既存の知識ベースから構築される。

【0024】
既存の知識ベースとは、たとえば、Freebase(登録商標)(https://www.freebase.com/)である。Freebase(登録商標)では、二つの物事とその関係を三つ組みで表したデータが大量に格納されている。そして、Freebase(登録商標)には名詞とその関係として以下のようなものが含まれており、それらを取得して名詞関係データベースとする。

【0025】
(エッフェル塔, contained-by, フランス)
(箱根, contained-by, 神奈川県)

【0026】
ここで、contained-by は「含まれる」という関係であり、エッフェル塔はフランスに含まれるという意味である。また二つ目の例では、箱根が神奈川県に含まれるという意味である。このような2つの名詞とその関係を表す名詞関係データベースを用いて矛盾事態ペアを新しく作成することができる。たとえば、 < フランスへ行かない, エッフェル塔に行く> という矛盾事態ペアには、それぞれ項としてフランスとエッフェル塔が含まれている。そして、これらは名詞関係データベースによるとcontained-by関係にある。よって、同じくcontained-by 関係にある箱根と神奈川県によって置き換えられると仮定し、< 神奈川県へ行かない, 箱根に行く> という新しい矛盾事態ペアを作成することができる。なお、ここでは、contained-by 関係のみに着目した例を示したが、名詞関係データベースに含まれる他の関係を用いてもよい。

【0027】
新しく作られた矛盾事態ペアに含まれる内容は、自動的に作成したものであるため、文法や意味的な誤りなどのノイズが含まれている可能性がある。そこで、大規模テキストコーパスに、矛盾事態ペアに含まれる内容が閾値以上の回数存在するかどうかによって、内容としての適切性をチェックする。

【0028】
<システム構成>
本発明の実施の形態に係る矛盾作成装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する矛盾作成処理ルーチンを実行するための矛盾作成プログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。CPUが矛盾作成プログラムを、内部記憶装置であるROMから読み込んで実行することにより、コンピュータが矛盾作成装置10として機能する。

【0029】
図1に示すように、矛盾作成装置10は、知識ベース群12、名詞関係取得部14、名詞関係データベース16、矛盾事態ペアデータベース18、関係抽出部20、矛盾事態ペア取得部24、矛盾事態ペア作成部26、チェック部32、大規模テキストコーパス34、及びデータベース追加部36を備えている。

【0030】
知識ベース群12は、第1知識ベース12A、第2知識ベース12B、及び第3知識ベース12Cを備えている。

【0031】
本実施の形態では、第1知識ベース12Aとして、Freebase(登録商標)を用い、第2知識ベース12Bとして、Wikipedia(登録商標)を用い、第3知識ベース12Cとして、国語辞典を用いる。なお、これらの知識ベース以外の知識ベースも名詞とそれらの関係が得られるものであれば何でもよい。たとえば、NTT(登録商標)の日本語語彙大系を用いてもよい。

【0032】
名詞関係取得部14は、第1知識ベース12A~第3知識ベース12Cから、名詞ペアと当該名詞ペアの関係とを取得し、名詞関係データベース16に格納する。

【0033】
Freebase(登録商標)には、基本的に2つの名詞とその関係が三つ組みとして格納されているため、これらの三つ組みをすべて抽出すればよい。Wikipedia(登録商標)、国語辞典については、辞書の見出しとその定義文をもとに、上位下位関係にある名詞を取得することが可能である。たとえば、下記の非特許文献3や非特許文献4の手法を使えばよい。例えば、国語辞典に、見出し「三輪車」の定義文として「乗り物の一つ」とあれば、三輪車の上位語が乗り物であることが分かり、「三輪車」と「乗り物」が上位下位関係であるという名詞関係が取得できる。

【0034】
[非特許文献3]:隅田飛鳥, 吉永直樹, 鳥澤健太郎, Wikipedia の記事構造からの上位下位関係抽出, 自然言語処理, vol.16(3), pp.3-24, 2008.

【0035】
[非特許文献4]:大福泰樹, 河原大輔, 黒橋禎夫,大規模コーパスと国語辞典の統合的利用によるシソーラスの自動構築,言語処理学会第10 回年次大会, 2004.

【0036】
Freebase(登録商標)やWikipedia(登録商標)、国語辞典から抽出された名詞関係データベース16に含まれるデータの例は以下の通りである。

【0037】
(エッフェル塔, contained-by, フランス)
(箱根, contained-by, 神奈川県)
(ゴルフ, sports-equipment, ゴルフクラブ)
(野球, sports-equipment, バット)
(海外ツアー, is-a, 旅行)
(国内ツアー, is-a, 旅行)
(TOEIC テスト, is-a, テスト)
(テニス, is-a, 球技)
(ゴルフ, is-a, 球技)

【0038】
最初の4つはFreebase(登録商標)によるものである。contained-by は先に示した通り、「~に含まれる」という関係を表し、sports-equipment はスポーツとそのスポーツにて使われる道具の関係を表す。たとえば、「ゴルフ」と「ゴルフクラブ」はsports-equipment の関係にある。以降のis-a は上位下位関係(左側が下位語,右側が上位語)を表す。たとえば、海外ツアーは旅行の下位語である。

【0039】
また、同じ上位語に対してis-a 関係をもつ下位語集合(下位語間の関係を「同位語」と呼ぶ) についても、名詞関係データベース16に登録しておく。たとえば、「旅行」に対して「海外ツアー」「国内ツアー」など、「球技」に対して「テニス」「ゴルフ」などの同位語が得られる。同位語については、以下の様に名詞関係データベース16に格納されている。

【0040】
(海外ツアー, 同位語, 国内ツアー)
(テニス, 同位語, ゴルフ)

【0041】
矛盾事態ペアデータベース18は、矛盾する事態を表す文のペアである矛盾事態ペアを複数記憶している。

【0042】
矛盾事態ペアデータベース18を、人手で作成してもよいし,非特許文献1や非特許文献2の手法で構築してもよい。

【0043】
関係抽出部20は、矛盾事態ペアデータベース18と名詞関係データベース16を照合し、矛盾事態ペアデータベース18において閾値以上の回数出現する、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リスト22を作成する。

【0044】
具体的には、まず、矛盾事態ペアデータベース18に記憶されている、それぞれの矛盾事態(述語項構造)ペア中の項部分から名詞ペアを抽出する。ここで、名詞ペアのそれぞれの名詞は、異なる述語項構造から抽出することとし、名詞は複合名詞(2つ以上の名詞の連続)も含める。

【0045】
次に、これらの名詞のペアが名詞関係データベース16に存在するかどうかをチェックし、存在するならば、どういう関係で存在するかを検索し、集計する。

【0046】
たとえば、前述の矛盾事態ペアデータベース18からは、(フランス, エッフェル塔)、(旅行, 海外ツアー)、(予定, 海外ツアー) という名詞ペアが抽出され、そのうち(フランス, エッフェル塔)、(旅行, 海外ツアー) の二つが名詞関係データベース16に存在することが分かる。そのため、contained-by、is-aの関係がそれぞれ1回ずつカウントアップされる。このように矛盾事態ペアデータベース18に含まれるすべての矛盾事態ペアにおける名詞ペアについて、名詞関係データベース16を照合し、どの関係が何回照合できたかを数え上げる。

【0047】
なお、照合においては、表記の揺らぎに対処するため、形態素解析器JUMAN の出力する代表表記を用いて行う。もちろん、揺らぎ情報を含むような辞書があればそれを用いる。

【0048】
最後に、見つかった名詞ペアの関係の出現回数が、それぞれ所定の閾値(たとえば、10)を超えているかどうかを確認し、超えていれば、その名詞ペアの関係を矛盾作成に有効な関係として関係リスト22に追加する。ここでの処理は、どのような関係を持つ名詞が矛盾事態ペアに現われやすいかを調べ上げる処理と言える。

【0049】
矛盾事態ペア取得部24は、予め用意された矛盾事態ペアデータベース18から、前件と後件とで項部分に共通する共有名詞を持つ矛盾事態ペアを一つ以上取り出し、後述する単一名詞置換部30へ送る。

【0050】
また、矛盾事態ペア取得部24は、予め用意された矛盾事態ペアデータベース18から、共有名詞をもたない矛盾事態ペアを一つ以上取り出し、後述する名詞ペア置換部28へ送る。

【0051】
ここで取り出された矛盾事態ペアは、一つずつ、後段の名詞ペア置換部28及び単一名詞置換部30で処理される。

【0052】
以下は、矛盾事態ペアデータベース18に含まれる、共有名詞をもたない矛盾事態ペアの例である。

【0053】
< フランスへ行かない, エッフェル塔に行く>
< 旅行の予定を立てない, 海外ツアーに申し込む>

【0054】
矛盾事態ペア作成部26は、名詞ペア置換部28及び単一名詞置換部30を備えている。

【0055】
名詞ペア置換部28は、矛盾事態ペアデータベース18から得られる、共有名詞をもたない矛盾事態ペアの各々について、当該矛盾事態ペアに含まれる名詞ペアの関係が、関係リスト22に含まれる場合、名詞ペアの関係と同じ関係を持つ名詞ペアを名詞関係データベース16から取得し、取得した名詞ペアによって当該矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する。

【0056】
たとえば,< フランスへ行かない, エッフェル塔に行く> が処理対象だとすると、まず、ここから名詞ペアを抽出する。名詞ペアは(フランス, エッフェル塔)である。そして、名詞関係データベース16を参照し、フランスとエッフェル塔の間の関係を探す。そうすると、contained-by の関係であることが分かる。この関係は関係抽出部20が得た関係リスト22に含まれているため、同じ関係をもつ別の名詞ペアを名詞関係データベース16から取得して、当該矛盾事態ペアの名詞ペアと置換し,新しい矛盾事態ペアを生成する。たとえば、この例からは次の新しい矛盾事態ペアとして以下が生成される。

【0057】
< 神奈川県へ行かない, 箱根に行く>

【0058】
ここでは、神奈川県と箱根の関係がcontained-by であることから、フランスを神奈川で、エッフェル塔を箱根で置換している。このように置き換えることで新しい矛盾事態ペアを作成できる。

【0059】
新しく作成された矛盾事態ペアはチェック部32に送られる。

【0060】
単一名詞置換部30は、矛盾事態ペアデータベース18から得られる、共有名詞をもつ矛盾事態ペアの各々について、名詞関係データベース16から、当該矛盾事態ペアが持つ共有名詞の同位語を抽出し、取得した同位語により当該矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する。

【0061】
たとえば、以下の矛盾事態ペアがあったとする。

【0062】
< 動物園の場所を調べない, 動物園に行く>
< テニスに興味がない, テニスをしたい>

【0063】
ここから、単一名詞置換部30は以下の新たな矛盾事態ペアを作成する。

【0064】
< 植物園の場所を調べない, 植物園に行く>
< ゴルフに興味がない, ゴルフをしたい>

【0065】
ここで、「動物園」と「植物園」は同位語であり、「テニス」と「ゴルフ」は、どちらも国語辞典における「球技」を上位語に持つ同位語である。

【0066】
新しく作成された矛盾事態ペアはチェック部32に送られる。

【0067】
チェック部32は、新しく作成された矛盾事態ペアの各々に対し、当該矛盾事態ペアに含まれる事態を表す文の各々について、大規模テキストコーパス34における当該事態を表す文の頻度が閾値以上であるかをチェックして、当該矛盾事態ペアに含まれる事態を表す文の各々の頻度が閾値以上であれば、矛盾事態ペアが適切であると判断し、データベース追加部36に送られる。

【0068】
具体的には、新しく作成された矛盾事態ペアの前件(左側の文)、後件(右側の文)それぞれについて独立に大規模テキストコーパス34における出現回数をチェックし、どちらも閾値以上(たとえば、10回以上)の回数出現しているなら、この矛盾事態ペアが適切であると判断し、新しい矛盾事態ペアとして採用する。出現のチェックは、事態を表す述語項構造表現を一般的なWeb検索エンジン、もしくは、大規模なテキストから作成した検索インデックスでフレーズ検索することによって行う。検索は、表記の揺らぎを吸収するため,述語項構造表現をJUMAN代表表記に正規化して行ってもよい。

【0069】
なお、獲得したい矛盾事態ペアの量と精度との兼ね合いに基づいて、チェック部32の処理ステップはスキップしてもよい。その場合は、矛盾事態ペア作成部26によって新しく作成された矛盾事態ペアはそのままデータベース追加部36に送られる。

【0070】
データベース追加部36は、チェック部32から送られてきた矛盾事態ペアを矛盾事態ペアデータベース18に追加する。

【0071】
<矛盾作成装置の作用>
次に、本実施の形態に係る矛盾作成装置10の作用について説明する。矛盾作成装置10では、図2に示す矛盾作成処理ルーチンが実行される。

【0072】
まず、ステップS100において、第1知識ベース12A~第3知識ベース12Cから、名詞ペアと当該名詞ペアの関係との組み合わせを各々取得して、名詞関係データベース16に記憶する。

【0073】
そして、ステップS102では、矛盾事態ペアデータベース18と名詞関係データベース16を照合し、矛盾事態ペアデータベース18において閾値以上の回数出現する、矛盾に関する名詞ペアの関係を抽出し、抽出した名詞ペアの関係を格納した関係リスト22を作成する。

【0074】
ステップS104では、矛盾事態ペアデータベース18から、共有名詞をもたない矛盾事態ペアを取得する。ステップS106では、上記ステップS104で取得した、共有名詞をもたない矛盾事態ペアについて、当該矛盾事態ペアに含まれる名詞ペアの関係が、関係リスト22に含まれる場合、名詞ペアの関係と同じ関係を持つ名詞ペアを名詞関係データベース16から取得する。

【0075】
そして、ステップS108において、上記ステップS106で取得した名詞ペアによって、上記ステップS104で取得した矛盾事態ペアの名詞ペアを置き換えることで矛盾事態ペアを作成する。

【0076】
ステップS110では、上記ステップS108で作成した矛盾事態ペアに含まれる事態を表す文の各々について、大規模テキストコーパス34における当該事態を表す文の頻度が閾値以上であるかをチェックして、当該矛盾事態ペアに含まれる事態を表す文の各々の頻度が閾値以上であるか否かを判定する。当該矛盾事態ペアに含まれる事態を表す文の何れの頻度も閾値以上である場合には、作成した矛盾事態ペアが適切であると判断し、ステップS112へ移行する。

【0077】
一方、当該矛盾事態ペアに含まれる事態を表す文の少なくとも一方の頻度が閾値未満である場合には、作成した矛盾事態ペアが適切でないと判断し、ステップS114へ移行する。

【0078】
ステップS112では、上記ステップS108で作成した矛盾事態ペアを、矛盾事態ペアデータベース18に追加する。

【0079】
ステップS112では、矛盾事態ペアデータベース18に格納されている、共有名詞をもたない矛盾事態ペアの全てについて、上記ステップS104~S112の処理を実行したか否かを判定し、上記ステップS104~S112の処理を実行していない、共有名詞をもたない矛盾事態ペアが存在する場合には、上記ステップS104へ戻り、当該矛盾事態ペアを取得する。

【0080】
一方、矛盾事態ペアデータベース18に格納されている、共有名詞をもたない矛盾事態ペアの全てについて、上記ステップS104~S112の処理を実行した場合には、ステップS116へ進む。

【0081】
ステップS116では、矛盾事態ペアデータベース18から、共有名詞をもつ矛盾事態ペアを取得する。ステップS118では、名詞関係データベース16から、上記ステップS116で取得した矛盾事態ペアが持つ共有名詞の同位語を取得する。

【0082】
ステップS120では、上記ステップS118で取得した同位語により、上記ステップS116で取得した矛盾事態ペアの共有名詞を置き換えることで、矛盾事態ペアを作成する。

【0083】
ステップS122では、上記ステップS120で作成した矛盾事態ペアに含まれる事態を表す文の各々について、大規模テキストコーパス34における当該事態を表す文の頻度が閾値以上であるかをチェックして、当該矛盾事態ペアに含まれる事態を表す文の各々の頻度が閾値以上であるか否かを判定する。当該矛盾事態ペアに含まれる事態を表す文の何れの頻度も閾値以上である場合には、作成した矛盾事態ペアが適切であると判断し、ステップS124へ移行する。

【0084】
一方、当該矛盾事態ペアに含まれる事態を表す文の少なくとも一方の頻度が閾値未満である場合には、作成した矛盾事態ペアが適切でないと判断し、ステップS126へ移行する。

【0085】
ステップS124では、上記ステップS120で作成した矛盾事態ペアを、矛盾事態ペアデータベース18に追加する。

【0086】
ステップS126では、矛盾事態ペアデータベース18に格納されている、共有名詞をもつ矛盾事態ペアの全てについて、上記ステップS116~S124の処理を実行したか否かを判定し、上記ステップS116~S124の処理を実行していない、共有名詞をもつ矛盾事態ペアが存在する場合には、上記ステップS116へ戻り、当該矛盾事態ペアを取得する。

【0087】
一方、矛盾事態ペアデータベース18に格納されている、共有名詞をもつ矛盾事態ペアの全てについて、上記ステップS116~S124の処理を実行した場合には、矛盾作成処理ルーチンを終了する。

【0088】
<矛盾事態ペアデータベースの拡張実験>
本発明の実施の形態に基づく手法を実行した結果、獲得できた矛盾事態ペアの一例は図3に示す通りである。図3のいずれもが、チェック部32を通過したものであり、それらは,すべて正しい矛盾事態ペアであった。

【0089】
また、チェック部32により除外された例として、< 市が好きでない, 政令指定都市にハマる> がある。これは、< 寿司が好きでない, 回転寿司にハマる>から、(政令指定都市, is-a, 市) の関係によって生成されるが、「政令指定都市にハマる」は大規模テキストコーパス34において出現回数が少なかったため、チェック部32によって除外され、正しく獲得されなかった。

【0090】
以上説明したように、本実施の形態に係る矛盾作成装置によれば、矛盾に関する名詞ペアの関係を抽出して関係リストを作成し、矛盾事態ペアデータベースから得られた矛盾事態ペアに含まれる名詞ペアの関係が、関係リストに含まれる場合、名詞ペアの関係と同じ関係を持つ名詞ペアを名詞関係データベースから取得し、取得した名詞ペアによって矛盾事態ペアの名詞ペアを置き換えることで、新しい矛盾事態ペアを作成できる。

【0091】
また、矛盾事態ペアデータベースから、共有名詞を持つ矛盾事態ペアを取得し、名詞関係データベースから、取得した矛盾事態ペアが持つ共有名詞の同位語を抽出し、取得した同位語により矛盾事態ペアの共有名詞を置き換えることで、新しい矛盾事態ペアを作成できる。

【0092】
また、矛盾事態ペアデータベースが拡張されることにより、言語生成システムにおいて、矛盾しない発話の生成が実現され、ユーザにとって理解しやすい文章がコンピュータによって生成されるようになる。これにより、人間の知的活動を促進することができる.

【0093】
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0094】
例えば、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、外部の記憶装置や記録媒体等に格納されたプログラムを随時読み込んで、またインターネットを介してダウンロードして実行するようにしてもよい。また、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0095】
10 矛盾作成装置
12 知識ベース群
14 名詞関係取得部
16 名詞関係データベース
18 矛盾事態ペアデータベース
20 関係抽出部
22 関係リスト
24 矛盾事態ペア取得部
26 矛盾事態ペア作成部
28 名詞ペア置換部
30 単一名詞置換部
32 チェック部
34 大規模テキストコーパス
36 データベース追加部
図面
【図1】
0
【図2】
1
【図3】
2