TOP > 国内特許検索 > データベース、類推エンジン及び類推システム

データベース、類推エンジン及び類推システム

国内特許コード P120007220
整理番号 2009-P46
掲載日 2012年4月5日
出願番号 特願2010-083635
公開番号 特開2011-215897
登録番号 特許第5455060号
出願日 平成22年3月31日(2010.3.31)
公開日 平成23年10月27日(2011.10.27)
登録日 平成26年1月17日(2014.1.17)
発明者
  • 高木 友博
出願人
  • 学校法人明治大学
発明の名称 データベース、類推エンジン及び類推システム
発明の概要 【課題】言語情報に基づく類推システムを提供する。
【解決手段】類推システムのデータベースは、複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語との組からなる事象データが複数記憶されていることを特徴とする。
【選択図】図4
従来技術、競合技術の概要



従来ある類推システムの多くは、様々な要因を数値化した数学モデルによって実現している。この様な類推システムの具体例として、特許文献1記載の予測システムがある。この予測システムは、過去の損失額、過去の気象、及び経済指標データに基づいて事業リスクを予測している。





しかし、経済分野に関して言えば、投資家やエコノミストは、何らかの経済的イベントが他に与える影響を感覚的に判断し、将来の経済動向を予測していることが多い。例えば、「現在の経済状態は、××年(過去)の状況に似ているため、今後○○となる公算が強い」などと予測する。実際、株価は、投資家の市場に対する心理(センチメント)、つまり期待感や不安感の膨らみによって大きく変動する。このような心理変動は言語で表わされていることが多い。





経済分野に限らず、一般的に、ある与えられた前提に対してある結果を類推する場合、言語情報に基づいて処理することは有効であるが、このような言語情報は数式に載せることが困難である。したがって、コンピュータシステムへの実装は困難である。

産業上の利用分野



この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムに関する。

特許請求の範囲 【請求項1】
複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、
結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語と
の組からなる事象データが複数記憶されているデータベースを含む
ことを特徴とするデータベースシステム

【請求項2】
請求項1記載のデータベースを参照する類推エンジンであって、
複数の入力文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である対象ベース語を生成する対象ベース語生成部と、
前記対象ベース語と前記特徴語のマッチングを行い、マッチングスコアの上位の特徴語と事象データを構成する候補語を抽出するマッチング部と、
前記マッチング部で抽出された候補語を統合して前記入力文章を前提とする結論である予測語を生成する予測語生成手段と
を備えることを特徴とする類推エンジン。

【請求項3】
前記マッチング部は、
前記対象ベース語に含まれる複数の単語の組み合わせを生成し、これら複数の単語の重要度を掛け合わせてスコアを算出し、
前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出されたスコアを加算し、新たな事象データのスコアを算出し、
前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
ことを特徴とする請求項2記載の類推エンジン。

【請求項4】
前記マッチング部は、
前記対象ベース語に含まれる複数の単語の組み合わせを生成し、
前記組み合わされた単語全てがデータベース上で出現する確率Q、及び前記組み合わされた各単語がデータベース上で出現する確率をそれぞれ全て掛け合わせた値Qを求め、前記単語の組み合わせの重さをlog(Q/Q)で算出し、
前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出された重みを加算し、新たな事象データのスコアを算出し、
前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
ことを特徴とする請求項2記載の類推エンジン。

【請求項5】
文章、前記文章のインデックス、及び前記文章に含まれる複数の単語の重要度に基づいて算出されたスコアからなる複数の文書データが記録されたデータベースと、
前記データベースに記録されたスコアに基づいて決定する所定数の単語からなる前提単語群を入力とし、前記前提単語群に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する類推エンジンと
を備えることを特徴とする類推システム。

【請求項6】
前記類推エンジンは、前記データベースの文書データの文書に含まれる単語からファジィクラスタリングを用いて複数のクラスタを生成し、これら複数のクラスタ及び前記前提単語群との類似度に基づいて前記データベースに記録された文章データの中から所定数の文書データを選択する
ことを特徴とする請求項5記載の類推システム。

【請求項7】
前記類推エンジンから出力された所定数の文書データは、ユーザによって採否判断され、
前記データベースは、過去に前記類推エンジンに入力された前記前提単語群、その前提単語群によって選択され出力された所定数の文書データからなる過去履歴が記録され、
前記類推エンジンは、前記過去履歴を参照し、新たに入力された前記前提単語群と前記過去履歴の前提単語群とを比較して類似度の高い過去履歴を抽出し、抽出された過去履歴の文章データ及び前記類似度に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する
ことを特徴とする請求項4記載の類推システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2010083635thum.jpg
出願権利状態 登録
掲載中の発明について更に詳しい内容の説明を御希望の際は、お気軽にお問い合せください。


PAGE TOP

close
close
close
close
close
close
close