TOP > 国内特許検索 > データ作成装置、上位語取得装置、データ作成方法、およびプログラム

データ作成装置、上位語取得装置、データ作成方法、およびプログラム コモンズ

国内特許コード P140010656
整理番号 09-14
掲載日 2014年6月17日
出願番号 特願2009-178673
公開番号 特開2011-034262
登録番号 特許第5487781号
出願日 平成21年7月31日(2009.7.31)
公開日 平成23年2月17日(2011.2.17)
登録日 平成26年3月7日(2014.3.7)
発明者
  • 山田 一郎
  • 鳥澤 健太郎
  • 風間 淳一
  • 黒田 航
  • 村田 真樹
  • フランシス ボンド
  • ステイン デ サーガ
  • 隅田 飛鳥
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 データ作成装置、上位語取得装置、データ作成方法、およびプログラム コモンズ
発明の概要 【課題】従来、大規模な上位語と下位語のデータベースを構築できなかった。
【解決手段】2以上の用語を有し、かつ、用語間の階層関係を管理している情報である用語辞書を格納し得る用語辞書格納部と、上位語と下位語との対の情報である用語対情報を受け付ける用語対情報受付部と、用語対情報受付部が受け付けた用語対情報が有する上位語と、用語辞書格納部に格納されている1以上の各用語との類似度を算出する類似度算出部と、類似度算出部が算出した上位k(kは1以上の整数)の類似度に対応するk個の類似用語を取得する類似語取得部と、受け付けた用語対情報が有する下位語の上位語として、k個の類似用語を選択して、用語辞書格納部に下位語を蓄積する下位語付加部とを具備するデータ作成装置により、大規模な上位語と下位語のデータベースを構築できる。
【選択図】図1
従来技術、競合技術の概要



従来、文字列のパターンを用いて、ある用語の上位語を取得する技術があった(非特許文献1から非特許文献5など参照)。ここで、文字列のパターンとは、「<下位語>のような<上位語>」などである。そして、これらのパターンを種として、半自動的に、または自動的に新しいパターンを取得する技術も存在する(例えば、非特許文献1、非特許文献2等を参照)。これらの文字列のパターンを用いる方法は、対象語と上位語との共起を必要とする。





また、従来、文字列のパターンを用いる方法以外の方法として、クラスタリングベースの方法がある。この方法は、用語間の類似度またはHTMLドキュメントの階層関係を用いて自動的に構築された用語クラスのための共通上位語を取得する(例えば、非特許文献6,非特許文献7,非特許文献8など参照)。





さらに、文字列のパターンの方法とクラスタリングベースの方法との両方を用いて、上位語を取得する技術があった(非特許文献9など参照)。

産業上の利用分野



本発明は、大規模な上位語と下位語のデータベースを作成するデータ作成装置等に関するものである。

特許請求の範囲 【請求項1】
2以上の用語を有し、かつ、用語間の階層関係を管理している情報である用語辞書を格納し得る用語辞書格納部と、
上位語と下位語との対の情報である用語対情報を受け付ける用語対情報受付部と、
前記用語対情報受付部が受け付けた用語対情報が有する上位語と、前記用語辞書格納部に格納されている1以上の各用語との類似度を算出する類似度算出部と、
前記類似度算出部が算出した上位k(kは1または2以上の整数)の類似度に対応するk個の類似用語を取得する類似語取得部と、
前記受け付けた用語対情報が有する下位語の上位語として、前記k個の類似用語を選択して、前記用語辞書格納部に前記下位語を蓄積する下位語付加部とを具備するデータ作成装置であって、
前記類似度算出部は、
用語と当該用語が1以上の各クラスに属する確率とを対応付けた情報である確率分布情報を、用語ごとに格納し得る確率分布情報格納手段と、
前記用語対情報受付部が受け付けた用語対情報が有する上位語の確率分布情報、および前記用語辞書格納部に格納されている1以上の各用語の確率分布情報を取得する確率分布情報取得手段と、
前記上位語の確率分布情報、および前記各用語の確率分布情報を用いて、前記上位語と前記各用語の類似度を算出する類似度算出手段とを具備するデータ作成装置

【請求項2】
前記下位語付加部は、
前記受け付けた用語対情報が有する下位語の上位語として、前記用語対情報が有する上位語と同一の文字列を有する類似用語を選択して、前記用語辞書格納部に前記下位語を蓄積する請求項1記載のデータ作成装置。

【請求項3】
受け付けられた用語を2以上の文字列に分割し、最後尾の文字列を含む1以上の文字列を有する上位語を取得する上位語生成部をさらに具備し、
前記用語対情報受付部は、
前記上位語生成部が取得した上位語と、前記受け付けられた用語である下位語との対の情報である用語対情報を受け付ける請求項1または請求項2記載のデータ作成装置。

【請求項4】
前記類似度算出部は、
前記用語対情報受付部が受け付けた用語対情報が有する下位語と、前記用語辞書格納部に格納されている1以上の各用語との類似度をも算出し、
前記類似語取得部は、
前記上位語との類似度、および前記下位語との類似度の両方の類似度を用いて、k個の類似用語を取得する請求項1から請求項3いずれか記載のデータ作成装置。

【請求項5】
請求項1から請求項4いずれか記載のデータ作成装置が構築した用語辞書格納部を用いる上位語取得装置であり、
前記上位語取得装置は、
前記用語辞書格納部と、
上位概念の用語を取得する対象となる用語である対象語を受け付ける受付部と、
前記受付部が受け付けた対象語と、前記用語辞書格納部に格納されている1以上の各用語との類似度を算出する類似度算出部と、
前記類似度算出部が算出した上位k(kは1以上の整数)の類似度に対応するk個の下位語を取得する類似語取得部と、
前記類似語取得部が取得したk個の各下位語に対応する上位語を取得し、前記類似語取得部が取得した類似度をパラメータとする増加関数であるスコア算出の演算式に、前記類似度を代入し、対象語の上位語としての相応しさを示すスコアを、前記上位語ごとに算出し、少なくとも、前記スコアが最も高い上位語を取得する上位語取得部と、
前記上位語取得部が取得した上位語を出力する出力部とを具備する請求項1から請求項4いずれか記載のデータ作成装置が構築した用語辞書格納部を用いる上位語取得装置。

【請求項6】
前記上位語取得部は、
前記類似語取得部が取得したk個の各下位語に対応する上位語を取得する第一上位語取得手段と、
前記第一上位語取得手段が取得した各上位語に対して、当該上位語と当該上位語に対応する下位語との階層差を取得する階層差取得手段と、
前記類似語取得部が取得した類似度をパラメータとする増加関数であり、前記階層差取得手段が取得した階層差をパラメータとする減少関数であるスコア算出の演算式に、前記類似度と前記階層差とを代入し、対象語の上位語としての相応しさを示すスコアを、前記上位語ごとに算出するスコア算出手段と、
少なくとも、前記スコア算出手段が算出したスコアが最も高い上位語を取得する第二上位語取得手段とを具備する請求項5記載の上位語取得装置。

【請求項7】
前記類似度算出部は、
用語と、動詞と助詞とを有する文字列を1以上有する1以上の各クラスに属する確率とを対応付けた情報である確率分布情報を、用語ごとに格納し得る確率分布情報格納手段と、
前記受付部が受け付けた対象語の確率分布情報、および前記用語辞書格納部に格納されている1以上の各用語の確率分布情報を取得する確率分布情報取得手段と、
前記対象語の確率分布情報、および前記各用語の確率分布情報を用いて、前記対象語と前記各用語の類似度を算出する類似度算出手段とを具備する請求項5または請求項6記載の上位語取得装置。

【請求項8】
前記用語辞書を、前記用語辞書格納部に蓄積する用語辞書蓄積装置をさらに具備する請求項5から請求項7いずれか記載の上位語取得装置であって、
前記用語辞書蓄積装置は、
上位語を抽出するための定義文のパターンを示す情報である定義文パターン情報を、1以上格納している定義文パターン情報格納部と、
用語を説明する文章群であり、用語ごとに、定義文と、カテゴリと、用語の階層関係を特定する情報である階層関係定義情報と上位語と下位語とを有する用語説明文章群から、前記1以上の定義文パターン情報のうちのいずれか一の定義文パターン情報を適用して、前記対象語を有する対象語の定義文を取得する定義文取得部と、
前記定義文取得部が取得した定義文から、前記適用された一の定義文パターン情報に従って、前記対象語の上位語の候補である第一の上位語候補と前記対象語の対である第一用語対候補を取得する第一用語対候補取得部と、
前記用語説明文章群から、前記対象語のカテゴリを前記対象語の第二の上位語候補として、前記第二の上位語候補と前記対象語の対である第二用語対候補を取得する第二用語対候補取得部と、
階層関係定義情報を1以上格納し得る階層関係定義情報格納部と、
前記階層関係定義情報を用いて、上位語と下位語との対である1以上の第三用語対候補を取得する第三用語対候補取得部と、
前記第一用語対候補を有する文または文の一部と、前記第二用語対候補を有する文または文の一部と、前記第三用語対候補を有する文または文の一部とから、言語処理した結果である1以上の素性を取得し、前記第一用語対候補と前記第二用語対候補と前記第三用語対候補のそれぞれの素性ベクトルを構成する素性ベクトル構成部と、
前記第一用語対候補と前記第二用語対候補と前記第三用語対候補のそれぞれについて、対応する素性ベクトルを、サポートベクターマシンを用いて、前記第一用語対候補と前記第二用語対候補と前記第三用語対候補のそれぞれが、上位語と下位語の関係にあるか否かを判断する機械学習部と、
前記機械学習部が、上位語と下位語の関係にあると判断した用語対候補が有する上位語および下位語を、前記用語辞書格納部に蓄積する用語対蓄積部とを具備する請求項5から請求項7いずれか記載の上位語取得装置。

【請求項9】
記憶媒体に、
2以上の用語を有し、かつ、用語間の階層関係を管理している情報である用語辞書を格納しており、かつ、
用語と当該用語が1以上の各クラスに属する確率とを対応付けた情報である確率分布情報を、用語ごとに格納しており、
用語対情報受付部、類似度算出部、類似語取得部、および下位語付加部とにより実現されるデータ作成方法であって、
前記用語対情報受付部により、上位語と下位語との対の情報である用語対情報を受け付ける用語対情報受付ステップと、
前記類似度算出部により、前記用語対情報受付ステップで受け付けられた用語対情報が有する上位語と、前記記憶媒体に格納されている1以上の各用語との類似度を算出する類似度算出ステップと、
前記類似語取得部により、前記類似度算出ステップで算出された上位k(kは1または2以上の整数)の類似度に対応するk個の類似用語を取得する類似語取得ステップと、
前記下位語付加部により、前記受け付けた用語対情報が有する下位語の上位語として、前記k個の類似用語を選択して、前記用語辞書格納部に前記下位語を蓄積する下位語付加ステップとを具備し、
前記類似度算出ステップは、
前記用語対情報受付部が受け付けた用語対情報が有する上位語の確率分布情報、および前記記憶媒体に格納されている1以上の各用語の確率分布情報を取得する確率分布情報取得ステップと、
前記上位語の確率分布情報、および前記各用語の確率分布情報を用いて、前記上位語と前記各用語の類似度を算出する類似度算出ステップとを具備するデータ作成方法。

【請求項10】
記憶媒体に、
2以上の用語を有し、かつ、用語間の階層関係を管理している情報である用語辞書を格納しており、かつ、
用語と当該用語が1以上の各クラスに属する確率とを対応付けた情報である確率分布情報を、用語ごとに格納しており、
コンピュータを、
上位語と下位語との対の情報である用語対情報を受け付ける用語対情報受付部と、
前記用語対情報受付部が受け付けた用語対情報が有する上位語と、前記記憶媒体に格納されている1以上の各用語との類似度を算出する類似度算出部と、
前記類似度算出部が算出した上位k(kは1または2以上の整数)の類似度に対応するk個の類似用語を取得する類似語取得部と、
前記受け付けた用語対情報が有する下位語の上位語として、前記k個の類似用語を選択して、前記用語辞書格納部に前記下位語を蓄積する下位語付加部として機能させるためのプログラムであって、
前記類似度算出部は、
前記用語対情報受付部が受け付けた用語対情報が有する上位語の確率分布情報、および前記記憶媒体に格納されている1以上の各用語の確率分布情報を取得する確率分布情報取得手段と、
前記上位語の確率分布情報、および前記各用語の確率分布情報を用いて、前記上位語と前記各用語の類似度を算出する類似度算出手段とを具備するものとして、コンピュータを機能させるためのプログラム
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009178673thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close