TOP > 国内特許検索 > 類推装置、類推方法及びプログラム

類推装置、類推方法及びプログラム 実績あり

国内特許コード P130008736
整理番号 2010-P23
掲載日 2013年3月22日
出願番号 特願2011-018787
公開番号 特開2012-159983
登録番号 特許第5569908号
出願日 平成23年1月31日(2011.1.31)
公開日 平成24年8月23日(2012.8.23)
登録日 平成26年7月4日(2014.7.4)
発明者
  • 高木 友博
出願人
  • 学校法人明治大学
発明の名称 類推装置、類推方法及びプログラム 実績あり
発明の概要 【課題】四項類推においてベースとターゲットの属する概念が異なり、かつ、ベースとターゲットの状況が複数の単語により構成されるときでも類推を可能とする。
【解決手段】ベース状況部分組合せ生成部21は、ベースの状況Aを構成する単語から所定数の単語を選択したときの全ての部分組合せAを生成し、ベース結果部分組合せ生成部22は、ベースの結果Bを構成する単語から所定数の単語を選択したときの全ての部分組合せBを生成する。関係集合生成部24は、AとBの全て組合せそれぞれについて、AとBと関係付ける単語rを記事データから抽出する。ターゲット状況部分組合せ生成部26は、ターゲットの状況Cを構成する単語から所定数の単語を選択したときの全ての部分組合せCを生成し、類推結果生成部28は、Cと各単語rの全て組合せそれぞれについて、単語riによってCと関連付けられる単語xを記事データから抽出する。
【選択図】図3
従来技術、競合技術の概要



基本的な類推手法の一つとして、四項類推が知られている。四項類推は、一般に以下の式(1)のように表示する。





A:B=C:X? …(1)





上記は、「AならばB、Cならば何であるか?」を意味しており、Xは類推結果を表している。つまり、A、B、CからX?を求めるのが四項類推である。四項類推では、基本構成要素として、規定領域(ベース)と目標領域(ターゲット)をおく。ベースとは類推する際に用いる既存の知識のことであり、ターゲットとは解決をしなければならない未知の問題のことである。つまり、上記の四項類推の例では、A及びBはベースに属し、C及びXはターゲットに属する。非特許文献1では、この四項類推のアルゴリズムを実現するシステムが提案されている。図13は、そのアルゴリズムの概要を示す図である。





図13に示すアルゴリズムでは、まず、ベースにおけるAとBの間の関係集合Rを求める関係抽出(Relation extraction)処理を行なう。続いて、関係抽出処理において求めた関係集合Rをターゲットに移し、Cにその関係集合Rを適用してXを求める関係マッピング(Relation Mapping)処理を行なう。以後、ベースのAを状況、結果Bをその状況での結果、このAとBの組を1つの事例と呼ぶ。





非特許文献1では、関係抽出処理において得られる関係集合Rを、類似な関係を表す単語rの集合として以下の式(2)のように定義している。





R={r} (iは1以上の整数) …(2)





関係マッピング処理においては、関係集合Rに含まれる各単語rを用いてCから複数の類推結果の候補となる単語xを求め、さらに、求めた単語xそれぞれについて、尤もらしさを定量的に示す値であるscore(x)を算出する。つまり、類推結果は、単語xと、それに付与されたscore(x)とからなる集合であり、以下の式(3)により表される。





X={x} (jは1以上の整数) …(3)





一方、非特許文献2では、次のように類推を行っている。まず、DVDタイトルに対応した説明文から抽出された各単語にTF-IDF値のスコアを付与しておき、ユーザの選択操作に従って当該スコアを修正する。そして、その修正したスコアが上位の単語からなるDVDデータと、入力された単語とに基づいて推薦するDVDデータを選択している。

また、非特許文献3では、次のように類推を行なっている。まず、過去の1週間の記事データからTF-IDF値が上位の単語からなるワードベクトルを生成し、生成したワードベクトルに基づいてその1週間の翌日の記事データから候補語を抽出する。このワードベクトルと、候補語の組合せを記事データの時期をずらしながら複数生成しておく。そして、予想する日にちより前の1週間の記事データから同様にワードベクトルを生成して過去の記事データから生成したワードベクトルとのマッチングを行い、マッチするワードベクトルに対応した候補語を予測結果としている。

産業上の利用分野



本発明は、事例に基づいて類推を行なう類推装置、類推方法及びプログラムに関する。

特許請求の範囲 【請求項1】
ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成部と、
ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成部と、
前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成部と、
ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成部と、
前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成部と、
を備えることを特徴とする類推装置。

【請求項2】
前記関係集合生成部が抽出した前記関連付け単語それぞれについて、前記記事記憶装置に記憶されている前記記事データから得られる当該関連付け単語と前記ベース状況部分組合せデータ及び前記ベース結果部分組合せデータの共起との関連の強さ、当該関連付け単語と前記ベース状況部分組合せデータとの関連の強さ、及び、当該関連付け単語と前記ベース結果部分組合せデータとの関連の強さに基づき、状況と結果の関係付けを行なう単語としての妥当性を定量的に表す関係妥当性スコアを算出する関係妥当性スコア算出部と、
前記類推結果生成部が類推結果として抽出した前記単語のそれぞれについて、前記記事記憶装置に記憶されている前記記事データから得られる当該単語と前記ターゲット状況部分組合せデータ及び前記関連付け単語の共起との関連の強さ、当該単語と前記ターゲット状況部分組合せデータとの関連の強さ、及び、当該単語と前記関連付け単語との関連の強さ、ならびに、前記関連付け単語について算出された前記関係妥当性スコアに基づき、類推結果としての妥当性を定量的に表す類推結果妥当性スコアを算出する類推結果妥当性スコア算出部と、
をさらに備えることを特徴とする請求項1に記載の類推装置。

【請求項3】
ベース状況データ及びベース結果データからなる複数の事例データ毎に、前記ベース状況部分組合せ生成部に、前記事例データを構成する前記ベース状況データからベース状況部分組合せデータを生成させ、前記ベース結果部分組合せ生成部に、前記事例データを構成する前記ベース結果データから前記ベース結果部分組合せデータを生成させ、前記関係集合生成部に、前記ベース状況データから生成された前記ベース状況部分組合せデータのうち1つと、前記ベース結果データから生成された前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて関連付け単語を記事データから抽出させ、前記関係妥当性スコア算出部に、前記関連付け単語それぞれについて関係妥当性スコアを算出させ、前記類推結果生成部に、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて記事データから類推結果の単語を抽出させ、前記類推結果妥当性スコア算出部に、類推結果として抽出された前記単語のそれぞれについて類推結果妥当性スコアを算出させる類推処理制御部と、
前記事例データ毎に得られた前記類推結果の単語に含まれる同一の単語を統合するとともに、統合した前記同一の単語について算出された前記類推結果妥当性スコアを積算する類推結果積算部とをさらに備える、
ことを特徴とする請求項2に記載の類推装置。

【請求項4】
前記関係集合生成部は、前記ベース状況部分組合せデータが示す単語が主語の名詞かつ前記ベース結果部分組合せデータが示す単語が述部の名詞である前記記事データの文から、述部の動詞を前記関連付け単語として抽出し、
前記類推結果生成部は、前記ターゲット状況部分組合せデータが示す複数の単語が主語の名詞かつ前記関連付け単語が述部の動詞である前記記事データの文から、述部の名詞を類推結果として抽出する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の類推装置。

【請求項5】
前記記事記憶装置は、さらに、所定の分野に関する単語を含む辞書データを記憶し、
前記関係集合生成部は、前記ベース状況部分組合せデータにより示される単語及び前記ベース結果部分組合せデータにより示される単語が共起する前記記事データの文から、前記辞書データに含まれる単語を前記関連付け単語として抽出し、
前記類推結果生成部は、前記ターゲット状況部分組合せデータにより示される単語及び前記関連付け単語が共起する前記記事データの文から、前記辞書データに含まれる単語を類推結果として抽出する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の類推装置。

【請求項6】
類推装置が実行する類推方法であって、
ベース状況部分組合せ生成部が、ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成過程と、
ベース結果部分組合せ生成部が、ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成過程と、
関係集合生成部が、前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成過程と、
ターゲット状況部分組合せ生成部が、ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成過程と、
類推結果生成部が、前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成過程と、
を有することを特徴とする類推方法。

【請求項7】
類推装置として用いられるコンピュータを、
ベース状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース状況部分組合せデータを生成するベース状況部分組合せ生成部、
ベース結果データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるベース結果部分組合せデータを生成するベース結果部分組合せ生成部、
前記ベース状況部分組合せデータのうち1つと前記ベース結果部分組合せデータのうち1つとからなる異なる組合せそれぞれについて、前記ベース状況部分組合せデータが示す単語と前記ベース結果部分組合せデータが示す単語とを関係付ける単語である関連付け単語を、記事記憶装置に記憶されている記事データから抽出する関係集合生成部、
ターゲット状況データが示す複数の単語から異なる組合せにより選択した所定単語数の前記単語からなるターゲット状況部分組合せデータを生成するターゲット状況部分組合せ生成部、
前記ターゲット状況部分組合せデータのうち1つと前記関連付け単語のうち1つとからなる異なる組合せそれぞれについて、前記関連付け単語によって前記ターゲット状況部分組合せデータが示す単語と関係付けられる単語を、前記記事記憶装置に記憶されている記事データから類推結果として抽出する類推結果生成部、
として機能させることを特徴とするプログラム。
産業区分
  • 演算制御装置
  • 記憶装置
  • 入出力装置
  • 計算機応用
  • その他情報処理
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2011018787thum.jpg
出願権利状態 登録
掲載中の発明について更に詳しい内容の説明を御希望の際は、お気軽にお問い合せください。


PAGE TOP

close
close
close
close
close
close
close