TOP > 国内特許検索 > 類推方法、類推システム及び類推プログラム > 明細書

明細書 :類推方法、類推システム及び類推プログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5640258号 (P5640258)
公開番号 特開2011-215898 (P2011-215898A)
登録日 平成26年11月7日(2014.11.7)
発行日 平成26年12月17日(2014.12.17)
公開日 平成23年10月27日(2011.10.27)
発明の名称または考案の名称 類推方法、類推システム及び類推プログラム
国際特許分類 G06F  19/00        (2011.01)
G06F  17/30        (2006.01)
G06F  17/27        (2006.01)
FI G06F 19/00 130
G06F 17/30 180C
G06F 17/27 Z
請求項の数または発明の数 8
全頁数 15
出願番号 特願2010-083666 (P2010-083666)
出願日 平成22年3月31日(2010.3.31)
新規性喪失の例外の表示 特許法第30条第1項適用 平成22年3月19日 日本知能情報ファジィ学会発行の「第35回ファジィ・ワークショップ講演論文集」において発表
審査請求日 平成24年11月12日(2012.11.12)
特許権者または実用新案権者 【識別番号】801000027
【氏名又は名称】学校法人明治大学
発明者または考案者 【氏名】高木 友博
個別代理人の代理人 【識別番号】100092820、【弁理士】、【氏名又は名称】伊丹 勝
審査官 【審査官】本郷 彰
参考文献・文献 特開2009-059323(JP,A)
特開2011-118689(JP,A)
溝口 健二,萩原 将文,領域表現に基づいた四項類推を行なうニューラルネットワーク,電気学会論文誌C Vol.121-C No.7,日本,(社)電気学会,2001年 7月 1日,第121-C巻第7号【ISSN】0385-4221,1261-1267
加藤 誠,大島 裕明,小山 聡,田中 克己,語の共起を用いたWebからの類似関係検索,電子情報通信学会技術研究報告 Vol.108 No.329,日本,社団法人電子情報通信学会,2008年11月24日,第108巻第329号【ISSN】0913-5685,p.9-p.10
調査した分野 G06F 19/00
G06F 17/27-17/28
G06F 17/30
特許請求の範囲 【請求項1】
複数の基底語(base1,base2)の間の関係Rから、目標語(target)との間で関係Rにある解Xを類推する構造写像理論に基づく類推方法であって、
類推に用いられる知識情報として形態素解析された複数の文が蓄積されたコーパスから、前記複数の基底語に基づき前記関係Rを抽出する関係抽出モジュールによって、前記複数の基底語が同時に出現する文を抽出する第1ステップと、
前記関係抽出モジュールによって前記抽出された文に含まれる単語から前記複数の基底語の間の関係Rを表す単語rを抽出する第2ステップと、
前記関係抽出モジュールによって前記抽出された単語rについて、前記関係Rへの所属度gradeR(r)を算出する第3ステップと、
前記関係抽出モジュールにより抽出された関係Rを前記目標語に写像する関係写像モジュールによって、前記目標語と前記単語rとが同時に出現する文を前記コーパスから抽出する第4ステップと、
前記関係写像モジュールによって前記抽出された文に含まれる単語の中から、前記目標語との間で関係Rにある単語xを抽出する第5ステップと、
前記第4ステップ及び前記第5ステップを前記抽出された全ての単語rについて行い、これにより抽出された全ての単語xに対して前記関係写像モジュールにより前記解Xへの所属度gradeX(x)を算出する第6ステップと、
前記算出された所属度gradeX(x)の値が高い所定数の単語xを前記解Xに含まれる前記目標語に関係する候補語として前記関係写像モジュールにより抽出する第7ステップと
を備え、
前記第5ステップでは、前記単語xは前記複数の基底語及び前記単語rの前記文における記載順序に基づき抽出される
ことを特徴とする類推方法。
【請求項2】
前記第4ステップでは、前記所属度gradeR(r)の値が所定値よりも高い単語rと前記目標語とが同時に出現する文のみを抽出する
ことを特徴とする請求項1記載の類推方法。
【請求項3】
前記関係Rは、この関係Rを構成する単語をrとし、メンバーシップ関数の値をgradeR(r)とした場合、
JP0005640258B2_000017t.gifとして表される概念ファジィ集合であり、
前記解Xは、この解Xを構成する単語をxとし、メンバーシップ関数の値をgradeX(x)とした場合、
JP0005640258B2_000018t.gifとして表される概念ファジィ集合である
ことを特徴とする請求項1又は2記載の類推方法。
【請求項4】
前記所属度gradeR(r)の値は、
count(r)を関係Rとして抽出された単語rに対する頻度、N(base1∩base2)を複数の基底語が同時に出現した文の数、N(r)をコーパスに含まれる文中に単語rが現れる文の数、Ndocをコーパスに含まれる全ての文の数とした場合、
JP0005640258B2_000019t.gifとして表される(ただしα、βは調整可能なパラメータ)
ことを特徴とする請求項1~3のいずれか1項記載の類推方法。
【請求項5】
前記所属度gradeX(x)の値は、
gradeX(x|r)を単語rが目標語に写像されたときに単語xが解Xとして正しいかを示す指数、Nrを目標語に代表される単語rの数とした場合、
JP0005640258B2_000020t.gifとして表される
ことを特徴とする請求項1~4のいずれか1項記載の類推方法。
【請求項6】
前記gradeX(x|r)の値は、
count(x|r)を単語rが目標語に写像されたときの解Xの候補として抽出される頻度、N(r∩target)をコーパスに含まれる単語rと目標語とが同時に出現した文の数、N(x)をコーパスに含まれる文中に単語xが現れる文の数、Ndocをコーパスに含まれる全ての文の数とした場合、
JP0005640258B2_000021t.gifとして表される(ただしγ、δは調整可能なパラメータ)
ことを特徴とする請求項5記載の類推方法。
【請求項7】
複数の基底語(base1,base2)の間の関係Rから、目標語(target)との間で関係Rにある解Xを類推する構造写像理論に基づく類推方式を用いた類推システムであって、
類推に用いられる知識情報として形態素解析された複数の文をコーパスとして蓄積する蓄積手段と、
前記コーパスから前記複数の基底語が同時に出現する文を抽出すると共に、抽出された文に含まれる単語から前記複数の基底語の間の関係Rを表す単語rを抽出する第1抽出手段と、
前記抽出された単語rについて、前記関係Rへの所属度gradeR(r)を算出する第1算出手段と、
前記目標語と前記単語rとが同時に出現する文を前記コーパスから抽出すると共に、抽出された文に含まれる単語の中から、前記目標語との間で関係Rにある単語xを抽出することを、前記抽出された全ての単語rについて行う第2抽出手段と、
前記抽出された全ての単語xに対して前記解Xへの所属度gradeX(x)を算出する第2算出手段と、
前記算出された所属度gradeX(x)の値が高い所定数の単語xを前記解Xに含まれる前記目標語に関係する候補語として抽出する第3抽出手段と
を備え、
前記第2抽出手段は、前記単語xを前記複数の基底語及び前記単語rの前記文における記載順序に基づき抽出する
ことを特徴とする類推システム。
【請求項8】
複数の基底語(base1,base2)の間の関係Rから、目標語(target)との間で関係Rにある解Xを類推する構造写像理論に基づく類推方式をコンピュータに実行させる類推プログラムであって、
コンピュータに、
類推に用いられる知識情報として形態素解析された複数の文が蓄積されたコーパスから、前記複数の基底語が同時に出現する文を抽出させる第1処理と、
前記抽出された文に含まれる単語から前記複数の基底語の間の関係Rを表す単語rを抽出させる第2処理と、
前記抽出された単語rについて、前記関係Rへの所属度gradeR(r)を算出させる第3処理と、
前記目標語と前記単語rとが同時に出現する文を前記コーパスから抽出させる第4処理と、
前記抽出された文に含まれる単語の中から、前記目標語との間で関係Rにある単語xを抽出させる第5処理と、
前記第4処理及び前記第5処理を前記抽出された全ての単語rについて行い、これにより抽出された全ての単語xに対して前記解Xへの所属度gradeX(x)を算出させる第6処理と、
前記算出された所属度gradeX(x)の値が高い所定数の単語xを前記解Xに含まれる前記目標語に関係する候補語として抽出させる第7処理と
を実行させ、
前記第5処理では、前記単語xは前記複数の基底語及び前記単語rの前記文における記載順序に基づき抽出される
ことを特徴とする類推プログラム。
発明の詳細な説明 【技術分野】
【0001】
この発明は、構造写像理論に基づく類推方式を用いた類推方法、類推システム及び類推プログラムに関する。
【背景技術】
【0002】
従来より、類推の最も基本的な形として、A:B=C:Xという4項類推が知られている。4項類推は、例えばAとB間の関係を推理し、基底領域(ベース)から目標領域(ターゲット)へ関係を写像し、推理された関係をCとXに適用するというようなアプローチで行われ、その処理過程はベースからターゲットへと関係を写像することが中心となる(非特許文献1及び2)。なお、ここでベースとは、類推する際に用いる既存の知識のことであり、ターゲットとは、解決しなければならない未知の問題を指す。
【0003】
また、関係の写像においては、構造写像理論が知られている(非特許文献3)。この構造写像理論では、写像の際に膨大に生じてしまう無意味な知識を、構造を利用することで排除するアプローチが取られている。この理論によれば、妥当な類推写像は、属性の非写像、構造の一貫性、システム性原理の3つの基準を満たすとされている。
【先行技術文献】
【0004】

【非特許文献1】R.J.Sternberg, “Intelligence, Information Processing and Analogical Reasoning”, Lawrence Erlbaum Associates, 1977
【非特許文献2】R.J.Sternberg, “Component Processes in Analogical Reasoning”, Psychological Review, 1977
【非特許文献3】D.Gentner, “Structure-Mapping: A Theoretical Framework for Analogy”, Cognitive Science, 1983
【発明の概要】
【発明が解決しようとする課題】
【0005】
この発明は、構造写像理論に基づく類推方式によってベースとターゲットが異なる概念に属している場合でも精度良くある程度正しい解を得ることができる類推方法、類推システム及び類推プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る類推方法は、複数の基底語(base1,base2)の間の関係Rから、目標語(target)との間で関係Rにある解Xを類推する構造写像理論に基づく類推方法であって、類推に用いられる知識情報として形態素解析された複数の文が蓄積されたコーパスから、前記複数の基底語が同時に出現する文を抽出する第1ステップと、前記抽出された文に含まれる単語から前記複数の基底語の間の関係Rを表す単語rを抽出する第2ステップと、前記抽出された単語rについて、前記関係Rへの所属度gradeR(r)を算出する第3ステップと、前記目標語と前記単語rとが同時に出現する文を前記コーパスから抽出する第4ステップと、前記抽出された文に含まれる単語の中から、前記目標語との間で関係Rにある単語xを抽出する第5ステップと、前記第4ステップ及び前記第5ステップを前記抽出された全ての単語rについて行い、これにより抽出された全ての単語xに対して前記解Xへの所属度gradeX(x)を算出する第6ステップと、前記算出された所属度gradeX(x)の値が高い所定数の単語xを前記解Xに含まれる前記目標語に関係する候補語として抽出する第7ステップとを備えたことを特徴とする。
【0007】
好ましい実施形態においては、例えば前記第4ステップでは、前記所属度gradeR(r)の値が所定値よりも高い単語rと前記目標語とが同時に出現する文のみを抽出し、例えば前記第5ステップでは、前記単語xは前記複数の基底語及び前記単語rの前記文における記載順序に基づき抽出される。
【0008】
また、前記関係Rは、例えばこの関係Rを構成する単語をrとし、メンバーシップ関数の値をgrade(r)とした場合、
JP0005640258B2_000002t.gifとして表される概念ファジィ集合であり、前記解Xは、例えばこの解Xを構成する単語をxとし、メンバーシップ関数の値をgrade(x)とした場合、
JP0005640258B2_000003t.gifとして表される概念ファジィ集合である。
【0009】
また、前記所属度gradeR(r)の値は、例えばcount(r)を関係Rとして抽出された単語rに対する頻度、N(base1∩base2)を複数の基底語が同時に出現した文の数、N(r)をコーパスに含まれる文中に単語rが現れる文の数、Ndocをコーパスに含まれる全ての文の数とした場合、
JP0005640258B2_000004t.gifとして表される。ただしα、βは調整可能なパラメータである。
【0010】
更に、前記所属度gradeX(x)の値は、例えばgrade(x|r)を単語rが目標語に写像されたときに単語xが解Xとして正しいかを示す指数、Nrを目標語に代表される単語rの数とした場合、
JP0005640258B2_000005t.gifとして表される。
【0011】
なお、前記gradeX(x|r)の値は、例えばcount(x|r)を単語rが目標語に写像されたときの解Xの候補として抽出される頻度、N(r∩target)をコーパスに含まれる単語rと目標語とが同時に出現した文の数、N(x)をコーパスに含まれる文中に単語xが現れる文の数、Ndocをコーパスに含まれる全ての文の数とした場合、
JP0005640258B2_000006t.gifとして表される。ただしγ、δは調整可能なパラメータである。
【0012】
本発明に係る類推システムは、複数の基底語(base1,base2)の間の関係Rから、目標語(target)との間の関係Rにある解Xを類推する構造写像理論に基づく類推方式を用いた類推システムであって、類推に用いられる知識情報として形態素解析された複数の文をコーパスとして蓄積する蓄積手段と、前記コーパスから前記複数の基底語が同時に出現する文を抽出すると共に、抽出された文に含まれる単語から前記複数の基底語の間の関係Rを表す単語rを抽出する第1抽出手段と、前記抽出された単語rについて、前記関係Rへの所属度gradeR(r)を算出する第1算出手段と、前記目標語と前記単語rとが同時に出現する文を前記コーパスから抽出すると共に、抽出された文に含まれる単語の中から、前記目標語との間で関係Rにある単語xを抽出することを、前記抽出された全ての単語rについて行う第2抽出手段と、前記抽出された全ての単語xに対して前記解Xへの所属度gradeX(x)を算出する第2算出手段と、前記算出された所属度gradeX(x)の値が高い所定数の単語xを前記解Xに含まれる前記目標語に関係する候補語として抽出する第3抽出手段とを備えたことを特徴とする。
【0013】
本発明に係る類推プログラムは、複数の基底語(base1,base2)の間の関係Rから、目標語(target)との間で関係Rにある解Xを類推する構造写像理論に基づく類推方式をコンピュータに実行させる類推プログラムであって、コンピュータに、類推に用いられる知識情報として形態素解析された複数の文が蓄積されたコーパスから、前記複数の基底語が同時に出現する文を抽出させる第1処理と、前記抽出された文に含まれる単語から前記複数の基底語の間の関係Rを表す単語rを抽出させる第2処理と、前記抽出された単語rについて、前記関係Rへの所属度gradeR(r)を算出させる第3処理と、前記目標語と前記単語rとが同時に出現する文を前記コーパスから抽出させる第4処理と、前記抽出された文に含まれる単語の中から、前記目標語との間で関係Rにある単語xを抽出させる第5処理と、前記第4処理及び前記第5処理を前記抽出された全ての単語rについて行い、これにより抽出された全ての単語xに対して前記解Xへの所属度gradeX(x)を算出させる第6処理と、前記算出された所属度gradeX(x)の値が高い所定数の単語xを前記解Xに含まれる前記目標語に関係する候補語として抽出させる第7処理とを実行させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、構造写像理論に基づく類推方式によってベースとターゲットが異なる概念に属している場合でも精度良くある程度正しい解を得ることができる類推方法、類推システム及び類推プログラムを提供することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態に係る類推システムの全体概要を説明するための図である。
【図2】同類推システムにおける類推方法による類推処理手順を示すフローチャートである。
【図3】同類推システムにおける類推方法による類推処理手順の一例を説明するための図である。
【発明を実施するための形態】
【0016】
以下に、添付の図面を参照して、この発明に係る類推方法、類推システム及び類推プログラムの実施の形態を詳細に説明する。図1は、本発明の一実施形態に係る類推システムの全体概要を説明するための図である。本実施形態に係る類推システムでは、構造写像理論に基づく類推方式として類推のベースとターゲットとが明確で、最も簡潔なモデルである4項類推を例に挙げて説明する。

【0017】
ここで、4項類推とは、A:B=C:Dという形式の問題を指す。この4項類推の左辺第一項Aを複数の基底語のうちの1つであるベース1(base1)とし、左辺第二項Bを複数の基底語のうちの他の1つであるベース2(base2)とする。また、右辺第一項Cを目標語であるターゲット(target)とし、右辺第二項Dを類推により求めるべき解Xとする。そして、写像対象となるベース1とベース2との関係をRとする。

【0018】
図1に示すように、コーパス10は、類推に用いられる知識情報として形態素解析された複数の文が蓄積されたデータベース(DB)である。関係抽出モジュール(Extract Relation Module:ERM)20は、ベース1及びベース2に基づいて、関係Rを抽出するモジュールである。関係写像モジュール(Mapping Relation Module:MRM)30は、ERM20により抽出された関係Rをターゲットに写像するモジュールである。

【0019】
なお、このように構成された類推システムは、例えばパーソナルコンピュータやワークステーション等のハードウェア上で本発明に係る類推プログラムを実行することにより実現され、類推システムに対して入力されたベース1,2及びターゲットから解Xを類推して出力するように機能する。パーソナルコンピュータやワークステーション等のハードウェア構成については公知であるため、ここでは説明を省略する。

【0020】
具体的には、図2に示すように、まず、コーパス10から入力されたベース1,2が同時に出現する文11(図1参照)を全て抽出する(ステップS100)。例えば、図3に示すように、“fish:scale=bird:X”という問題が与えられた場合、図3中矢印(1)で示すように、ベース1,2である「fish」、「scale」が同時に出現する文「Fish is covered with scale.」や「Fish has scales.」等をコーパス10から全て抽出する。

【0021】
次に、抽出された文に含まれる単語からベース1,2により写像される概念ファジィ集合の要素となる関係Rを表す単語rを抽出する(ステップS102)。例えば、図3中矢印(2)で示すように、「fish」、「scale」の関係Rを表す単語「is」、「has(have)」、「with」、「cover」等の単語rを抽出された文から抽出する。

【0022】
関係Rは、この関係Rを構成する単語をrとし、メンバーシップ関数の値をgrade(r)とした場合、次式(1)として表される。

【0023】
【数1】
JP0005640258B2_000007t.gif
・・・(1)

【0024】
そして、抽出された全ての単語rについて、関係Rへの所属度gradeR(r)を算出する(ステップS104)。この所属度gradeR(r)の値は、count(r)を関係Rとして抽出された単語rに対する頻度、N(base1∩base2)を複数のベース1,2が同時に出現した文の数、N(r)をコーパス10に含まれる文中に単語rが現れる文の数、Ndocをコーパス10に含まれる全ての文の数とした場合、次式(2)として表される。

【0025】
【数2】
JP0005640258B2_000008t.gif
・・・(2)
ここでα、βについて調整し、書き換えると次のように表すことができる。

JP0005640258B2_000009t.gif

【0026】
次に、入力されたターゲットに関係Rを写像して、ターゲットと単語rとが同時に出現する文12(図1参照)をコーパス10から全て抽出する(ステップS106)。例えば、図3中矢印(3)で示すように、ターゲットである「bird」と単語rである「is」、「has(have)」、「with」、「cover」とが同時に出現する文「Bird is covered with feather.」や「Bird has wing.」等をコーパス10から全て抽出する。

【0027】
そして、抽出された文に含まれる単語の中から、関係Rに基づく概念ファジィ集合を構成する解Xの候補となる単語xを抽出する(ステップS108)。例えば、図3中矢印(4)で示すように、「bird」と関係Rのような概念ファジィ集合を構成する解Xの候補となるような単語「wing」、「feather」等の単語xを抽出する。

【0028】
解Xは、この解Xを構成する単語をxとし、メンバーシップ関数の値をgrade(x)とした場合、次式(3)として表される。

【0029】
【数3】
JP0005640258B2_000010t.gif
・・・(3)

【0030】
その後、抽出された全ての単語xについてステップS106及びステップS108の処理が行われたか否かを判断し(ステップS110)、行われていない場合(ステップS110のN)は上記ステップS106に移行して処理を繰り返すと共に、行われた場合(ステップS110のY)は、抽出された全ての単語xに対して解Xへの所属度gradeX(x)を算出する(ステップS112)。

【0031】
この所属度gradeX(x)の値は、grade(x|r)を単語rが目標語に写像されたときに単語xが解Xとして正しいかを示す指数、Nrを目標語に代表される単語rの数とした場合、次式(4)として表される。

【0032】
【数4】
JP0005640258B2_000011t.gif
・・・(4)

【0033】
最後に、例えば算出された所属度gradeX(x)の値が高い所定数の単語xを解Xに含まれるターゲットに関係する候補語として抽出し(ステップS114)、本フローチャートによる処理が終了される。なお、gradeX(x|r)の値は、count(x|r)を単語rがターゲットに写像されたときの解Xの候補として抽出される頻度、N(r∩target)をコーパス10に含まれる単語rとターゲットとが同時に出現した文の数、N(x)をコーパス10に含まれる文中に単語xが現れる文の数、Ndocをコーパス10に含まれる全ての文の数とした場合、次式(5)として表される。

【0034】
【数5】
JP0005640258B2_000012t.gif
・・・(5)
ここでγ、δについて調整し、書き換えると次のように表すことができる。

JP0005640258B2_000013t.gif

【0035】
ここで、上記ステップS106では、所属度gradeR(r)の値が高い単語rについての関係Rのみをターゲットに写像するようにしても良い。このようにすれば、最終的に解Xの候補語として不適当な単語が抽出されることを避けることが可能となる。

【0036】
また、解Xの正しい答えの候補語を得るために、A:B=C:XとB:A=C:Xの違いは考慮される必要があるので、上記ステップS108では、例えば単語xはベース1,2及び単語rの抽出された文における記載順序に基づき抽出するようにしても良い。この場合、単語xは、次の規則の下に抽出される。

【0037】
すなわち、(1)単語rが記載順序「ベース1→単語r→ベース2」の関係下で頻繁に抽出された場合は、単語rの後に記載された単語が単語xとして抽出される。また、(2)単語rが記載順序「ベース2→単語r→ベース1」の関係下で頻繁に抽出された場合は、単語rの前に記載された単語が単語xとして抽出される。更に、(3)単語rが上記(1)及び(2)の関係下でそれぞれ等しく抽出された場合は、単語xは単語rの前後いずれかに記載された単語として抽出される。

【0038】
本実施形態に係る類推システムでは、このような処理により、ベース1,2とターゲットとが異なる概念に属している場合でも、ある程度正しい解Xの候補を精度良く得ることが可能となる。また、得られた解Xを類推による候補として類推システムに備えられた図示しない表示手段に表示したり、印刷手段で印刷出力したり、音声出力手段で報知したりして利用者に提示するようにすれば、類推による推薦を行うことも可能となる。次に、上述した類推システムを用いた本出願人による試験について説明する。

【0039】
この試験においては、フリー百科辞典の英語版Wikipediaに書かれたある時点の全ての文(約3,691,000項目、約43,670,000文)を蓄積したコーパス10を用いた。このWikipediaに書かれた文をコーパス10に記憶する際には、フリーソフトウェアのTree Taggerを用いて形態素解析を行った。また、コーパス10の作成と検索にはフリーソフトウェアのLuceneを使用した。

【0040】
そして、試験では、単語で表記され、且つベース1、ベース2、ターゲット、解Xが全て1単語の名詞である問題のみを対象にした。更に、2つの名詞の関係としては動詞が適切である場合が多いため、関係Rは動詞のみとした。なお、4項類推では絶対的な正解を規定することが困難である。これは4項類推が、回答者の持つ知識や主観に少なからず依存するためである。そこで、次のように類推システムの評価を行うこととした。

【0041】
まず、参加した評価者はそれぞれ4項類推の解Xを求め、次に、同じ4項類推について類推システムが解Xを求めてその候補に当たる上位10個を評価者に提示した。評価者は提示された解Xを基に、類推システムが行った類推がどの程度正しいかを2,1,0の3段階で評価した。このような評価を10人の評価者が、合計20題の問題に対して行うことで、類推システムの評価を行った。

【0042】
以下の表1に「earth:sun=moon:X」という4項類推の問題に対して類推システムが求めた関係Rと解Xの候補上位10個を示す。

【0043】
【表1】
JP0005640258B2_000014t.gif

【0044】
問題「earth:sun=moon:X」は、評価者全員が、類推システムが求めた解Xを正しいと評価した問題である。上記表1を見ると、「earth」と「sun」の関係として「revolve」や「orbit」等が挙げられている。また、解Xの候補1位に「earth」という「earth:sun=moon:X」の解として納得できる単語が挙げられている。

【0045】
この結果から、類推システムは、「earth:sun=moon:X」という問題に関して、「earth」と「sun」の関係Rを正しく理解し、その関係Rを基に正しい解Xを導くことに成功したと言える。

【0046】
また、以下の表2は、「fish:scale=bird:X」という問題と、「fish:fin=bird:X」という問題とについて類推システムが求めた解を比較したものである。この2つの問題は、与えられた3項のうち、ベース2のみが異なる。

【0047】
【表2】
JP0005640258B2_000015t.gif

【0048】
上記表2から、類推システムは、2つの問題に対して適切に異なる解Xを求めたことが分かる。実際に、「fish:fin=bird:X」の解Xでは、「fish:scale=bird:X」の解Xよりも、「wing」や「tail」の順位が上がっている。これは、類推システムが、それぞれの問題に適した関係Rを求め、より解Xとして適した単語を導き出した結果であると言える。

【0049】
なお、表2に示した「fish:scale=bird:X」という問題で、類推システムが求めた解Xの候補1位に「insect」という単語が選ばれているが、これは、ERM20によって、「fish」と「scale」の関係として「feed」という単語が抽出されたためである。これは、正しい関係Rを得られないために、解Xに不適切な単語が含まれた例として挙げられる。

【0050】
最後に、10人の評価者による20問の問題に対する類推システムの評価を表3に示す。

【0051】
【表3】
JP0005640258B2_000016t.gif

【0052】
上記表3では、20問の問題と、類推結果として類推システムが提示した解Xのうち所属度gradeR(x)の値が高い上位3つの要素、類推システムが求めた解Xについて10人の評価者が付けた評価点の合計を示している。また、この試験での評価の満点は20点となっている。

【0053】
表3に挙げられた結果を見ると、10点以上の評価を得た問題が11問あった。そのうち3問が満点の20点の評価を得ていた。また、5点以下の評価を得た問題が5問あった。表3に示された評価の平均は10.6となった。

【0054】
そして、評価者全員が類推システムが求めた解Xが正しいとした3問の問題は、「earth:sun=moon:X」、「snake:frog=cat:X」、「beer:barley=wine:X」であり、それぞれ解Xの1位に「earth」、「mouse」、「grape」を挙げていた。

【0055】
逆に結果が悪かった問題は、「winter:snow=summer:X」という問題で、解Xの候補1位には「winter」が挙げられていた。

【0056】
このように、結果が良かった問題では、関係Rとして正しいと考えられるものが抽出されていた。逆に、結果が悪かった問題では、関係Rとして正しくないと考えられるものが抽出されていた。従って、類推システムでは、関係Rの抽出が類推の可否に大きく影響することが分かったが、本実施形態に係る類推システムによれば、ベースとターゲットが異なる概念に属している場合でも、概ね精度良くある程度正しい解Xを得ることが可能なことが判明した。
【符号の説明】
【0057】
10 コーパス
20 関係抽出モジュール(ERM)
30 関係写像モジュール(MRM)
図面
【図1】
0
【図2】
1
【図3】
2