TOP > 国内特許検索 > 単語対取得装置、単語対取得方法、およびプログラム

単語対取得装置、単語対取得方法、およびプログラム コモンズ 外国出願あり

国内特許コード P140010657
整理番号 09-15
掲載日 2014年6月17日
出願番号 特願2009-207944
公開番号 特開2011-059917
登録番号 特許第5382651号
出願日 平成21年9月9日(2009.9.9)
公開日 平成23年3月24日(2011.3.24)
登録日 平成25年10月11日(2013.10.11)
発明者
  • ステイン デ サーガ
  • 鳥澤 健太郎
  • 風間 淳一
  • 黒田 航
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 単語対取得装置、単語対取得方法、およびプログラム コモンズ 外国出願あり
発明の概要 【課題】従来、所定の関係にある単語対を適切に取得できなかった。
【解決手段】単語のクラスを特定する単語クラス情報を格納し得る単語クラス情報格納部と、2つのクラスの良さを示すクラス対良好度を格納し得るクラス対良好度格納部と、所定の関係を有する2つの単語対を取得するために利用するシードパターンを1以上格納し得るシードパターン格納部と、1以上の文章群から、シードパターンと共起する1以上の単語対を取得する単語対取得部と、1以上の単語対に対応するクラス対良好度を取得するクラス対良好度取得部と、クラス対良好度を用いて、各単語対のスコアを決定するスコア決定部と、スコアが予め決められた条件を満たすほど高い1以上の単語対を取得する単語対選択部と、単語対選択部が取得した1以上の単語対を出力する単語対出力部とを具備する単語対取得装置により、単語対を適切に取得できる。
【選択図】図2
従来技術、競合技術の概要



従来、取り出したい単語対を少量与えて、当該単語対からパターンを取得する単語対取得装置があった。そして、従来の単語対取得装置は、その取得したパターンと共起する単語対を取得するものであった(例えば、非特許文献1参照)。

産業上の利用分野



本発明は、所定の関係を有する2つの単語対を取得する単語対取得装置等に関するものである。

特許請求の範囲 【請求項1】
1以上の文章群を格納し得る文章群格納部と、
1以上の単語と当該1以上の単語が属するクラスを識別するクラス識別子とを対応づけて有する2以上の単語クラス情報を格納し得る単語クラス情報格納部と、
2つのクラスの良さを示す指標であり、当該2つのクラスに属する単語対が、所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンと良く共起する程度を示すクラス対良好度を格納し得るクラス対良好度格納部と、
2つの単語である単語対を1以上格納し得る単語対格納部と、
前記単語対格納部に格納されている1以上の単語対が有する各単語が属する2つのクラスのクラス対良好度を前記クラス対良好度格納部から取得するクラス対良好度取得部と、
前記クラス対良好度取得部が取得したクラス対良好度を用いて、前記単語対格納部の各単語対のスコアを決定するスコア決定部と、
前記スコア決定部が決定したスコアが予め決められた条件を満たすほど、スコアが高い1以上の単語対を取得する単語対選択部と、
前記単語対選択部が取得した1以上の単語対を出力する単語対出力部とを具備する単語対取得装置。

【請求項2】
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンを1以上格納し得るシードパターン格納部と、
2つの各クラスに属する単語対が、前記文章群格納部の1以上の文章群の中で、前記1以上のシードパターンと共起する回数または割合が多いほどクラス対良好度が大きくなるようにクラス対良好度を算出するクラス対良好度算出部とをさらに具備し、
前記クラス対良好度算出部が算出した2つのクラスのクラス対良好度は、前記クラス対良好度格納部に格納されているクラス対良好度である請求項1記載の単語対取得装置。

【請求項3】
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンではないパターンであり、前記所定の関係を有する2つの単語対を取得するために利用するパターンを1以上格納し得るパターン格納部と、
前記パターン格納部に格納されている1以上の各パターンと前記シードパターンとの類似度を、パターンごとに格納し得るパターン類似度格納部と、
前記シードパターン格納部に格納されている1以上のシードパターン、および前記パターン格納部に格納されている1以上のパターンのいずれかを取得し、前記文章群格納部に格納されている1以上の文章群から、前記シードパターンまたは前記パターンと共起する1以上の単語対を取得する単語対取得部とをさらに具備し、
前記スコア決定部は、
前記パターン類似度格納部に格納されている前記1以上の各パターンと前記シードパターンとの類似度をパラメータとする増加関数を用いて、前記単語対取得部が取得した各単語対のスコアを決定する請求項1または請求項2記載の単語対取得装置。

【請求項4】
前記1以上のシードパターンと共起する単語対に対応するクラス対と、前記パターン格納部に格納されている1以上の各パターンと共起する単語対に対応するクラス対との重なりが大きいほど、大きくなるように類似度を算出するパターン類似度算出部をさらに具備し、
前記パターン類似度算出部が算出した類似度は、前記パターン類似度格納部に格納されている類似度である請求項3記載の単語対取得装置。

【請求項5】
1以上の各単語対と1以上の各パターンとの親和性に関する情報であり、単語対とパターンと良く共起する程度を示す情報である親和性情報を格納し得る親和性情報格納部をさらに具備し、
前記スコア決定部は、
前記親和性情報格納部の親和性情報をもパラメータとする増加関数を用いて、前記単語対取得部が取得した各単語対のスコアを決定する請求項3または請求項4記載の単語対取得装置。

【請求項6】
前記単語対取得部が取得した1以上の単語対と、前記1以上の各パターンとが共起する回数または割合が多いほど、大きくなるように親和性情報を算出する親和性情報算出部をさらに具備し、
前記親和性情報格納部の親和性情報は、前記親和性情報算出部が算出した親和性情報である請求項5記載の単語対取得装置。

【請求項7】
前記スコア決定部は、
前記クラス対良好度、および前記シードパターンとパターンとの類似度、および前記親和性情報の積が最も大きいシードパターンまたはパターンにおけるスコアを、各単語対のスコアとして決定する請求項6記載の単語対取得装置。

【請求項8】
前記文章群格納部に格納されている1以上の文章群の各文に対して、形態素解析および係り受け解析し、一番目に出現する第一の名詞または名詞句を起点として、二番目に出現する第二の名詞または名詞句を終点として、前記起点から前記終点までに至る形態素の繋がりをパターンとして取得し、または、前記起点からの形態素の繋がりと前記終点からの形態素の繋がりが結ばれる形態素までをパターンとして取得するパターン取得部をさらに具備し、
前記パターン格納部のパターンは、前記パターン取得部が取得したパターンである請求項3から請求項7いずれか記載の単語対取得装置。

【請求項9】
最終的に出力しない単語対に対応するクラス対を識別する2つのクラス識別子である除外クラス対を1以上格納し得る除外クラス対格納部と、
前記1以上の除外クラス対に対応する単語対を出力する単語対から除外する単語対除外部とをさらに具備する請求項1から請求項8いずれか記載の単語対取得装置。

【請求項10】
前記1以上の文章群における、各クラスに属する単語の平均出現頻度と、クラス識別子とを対に有するクラス出現頻度情報を、クラス毎に格納し得るクラス出現頻度情報格納部と、
前記平均出現頻度が予め決められた閾値以上の差を有する2つのクラスのクラス識別子を除外クラス対として、前記除外クラス対格納部に蓄積する除外クラス対蓄積部とをさらに具備する請求項9記載の単語対取得装置。

【請求項11】
前記文章群格納部の1以上の文章群を用いて、同一の動詞、または同一の動詞と助詞と共起する回数または割合が多い単語を同一のクラスに属するように、1以上の単語クラス情報を取得する単語クラス情報取得部をさらに具備し、
前記単語クラス情報格納部の単語クラス情報は、前記単語クラス情報取得部が取得した単語クラス情報である請求項1から請求項10いずれか記載の単語対取得装置。

【請求項12】
記憶媒体に、
1以上の文章群を格納し、
1以上の単語と当該1以上の単語が属するクラスを識別するクラス識別子とを対応づけて有する2以上の単語クラス情報を格納し、
2つのクラスの良さを示す指標であり、当該2つのクラスに属する単語対が、所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンと良く共起する程度を示すクラス対良好度を格納し、
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンを1以上格納しており、
単語対取得部、クラス対良好度取得部、スコア決定部、単語対選択部、および単語対出力部により実現される単語対取得方法であって、
前記単語対取得部により、前記記憶媒体に格納されている1以上のシードパターンのいずれかを取得し、前記記憶媒体に格納されている1以上の文章群から、前記取得したシードパターンと共起する1以上の単語対を取得する単語対取得ステップと、
前記クラス対良好度取得部により、前記単語対取得ステップで取得された1以上の単語対が有する各単語が属する2つのクラスのクラス対良好度を前記記憶媒体から取得するクラス対良好度取得ステップと、
前記スコア決定部により、前記クラス対良好度取得ステップで取得されたクラス対良好度を用いて、前記単語対取得ステップで取得された各単語対のスコアを決定するスコア決定ステップと、
前記単語対選択部により、前記スコア決定ステップで決定されたスコアが予め決められた条件を満たすほど、スコアが高い1以上の単語対を取得する単語対選択ステップと、
前記単語対出力部により、前記単語対選択ステップで取得された1以上の単語対を出力する単語対出力ステップとを具備する単語対取得方法。

【請求項13】
記憶媒体に、
1以上の文章群を格納し、
1以上の単語と当該1以上の単語が属するクラスを識別するクラス識別子とを対応づけて有する2以上の単語クラス情報を格納し、
2つのクラスの良さを示す指標であり、当該2つのクラスに属する単語対が、所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンと良く共起する程度を示すクラス対良好度を格納し、
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンを1以上格納しており、
コンピュータを、
前記記憶媒体に格納されている1以上のシードパターンのいずれかを取得し、前記記憶媒体に格納されている1以上の文章群から、前記取得したシードパターンと共起する1以上の単語対を取得する単語対取得部と、
前記単語対取得部が取得した1以上の単語対が有する各単語が属する2つのクラスのクラス対良好度を前記記憶媒体から取得するクラス対良好度取得部と、
前記クラス対良好度取得部が取得したクラス対良好度を用いて、前記単語対取得部が取得した各単語対のスコアを決定するスコア決定部と、
前記スコア決定部が決定したスコアが予め決められた条件を満たすほど、スコアが高い1以上の単語対を取得する単語対選択部と、
前記単語対選択部が取得した1以上の単語対を出力する単語対出力部として機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009207944thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close