Top > Search of Japanese Patents > WORD PAIR ACQUISITION DEVICE, WORD PAIR ACQUISITION METHOD, AND PROGRAM

WORD PAIR ACQUISITION DEVICE, WORD PAIR ACQUISITION METHOD, AND PROGRAM commons foreign

Patent code P140010657
File No. 09-15
Posted date Jun 17, 2014
Application number P2009-207944
Publication number P2011-059917A
Patent number P5382651
Date of filing Sep 9, 2009
Date of publication of application Mar 24, 2011
Date of registration Oct 11, 2013
Inventor
  • (In Japanese)ステイン デ サーガ
  • (In Japanese)鳥澤 健太郎
  • (In Japanese)風間 淳一
  • (In Japanese)黒田 航
  • (In Japanese)村田 真樹
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title WORD PAIR ACQUISITION DEVICE, WORD PAIR ACQUISITION METHOD, AND PROGRAM commons foreign
Abstract PROBLEM TO BE SOLVED: To solve the problem that a word pair in prescribed relation has not been appropriately acquired in a conventional system.
SOLUTION: The word pair is appropriately acquired by a word pair acquisition device including: a word class information storage part for storing word class information specifying a word class; a class pair goodness degree storage part for storing a class pair goodness degree which indicates the goodness of two classes; a seed pattern storage part for storing one or more seed patterns to be used for acquiring the two word pairs in prescribed relation; a word pair acquiring part for acquiring one or more word pairs co-occurring with the seed pattern from one or more sentence groups; a class pair goodness degree acquiring part for acquiring a class pair goodness degree corresponding to the one or more word pairs; a score determining part for determining the score of each word pair through the use of the class pair goodness degree; a word pair selecting part for acquiring one or more word pairs whose score is high enough to satisfy a predetermined condition; and a word pair output part for outputting one or more word pairs acquired by the word pair selecting part.
Outline of related art and contending technology (In Japanese)

従来、取り出したい単語対を少量与えて、当該単語対からパターンを取得する単語対取得装置があった。そして、従来の単語対取得装置は、その取得したパターンと共起する単語対を取得するものであった(例えば、非特許文献1参照)。

Field of industrial application (In Japanese)

本発明は、所定の関係を有する2つの単語対を取得する単語対取得装置等に関するものである。

Scope of claims (In Japanese)
【請求項1】
 
1以上の文章群を格納し得る文章群格納部と、
1以上の単語と当該1以上の単語が属するクラスを識別するクラス識別子とを対応づけて有する2以上の単語クラス情報を格納し得る単語クラス情報格納部と、
2つのクラスの良さを示す指標であり、当該2つのクラスに属する単語対が、所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンと良く共起する程度を示すクラス対良好度を格納し得るクラス対良好度格納部と、
2つの単語である単語対を1以上格納し得る単語対格納部と、
前記単語対格納部に格納されている1以上の単語対が有する各単語が属する2つのクラスのクラス対良好度を前記クラス対良好度格納部から取得するクラス対良好度取得部と、
前記クラス対良好度取得部が取得したクラス対良好度を用いて、前記単語対格納部の各単語対のスコアを決定するスコア決定部と、
前記スコア決定部が決定したスコアが予め決められた条件を満たすほど、スコアが高い1以上の単語対を取得する単語対選択部と、
前記単語対選択部が取得した1以上の単語対を出力する単語対出力部とを具備する単語対取得装置。

【請求項2】
 
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンを1以上格納し得るシードパターン格納部と、
2つの各クラスに属する単語対が、前記文章群格納部の1以上の文章群の中で、前記1以上のシードパターンと共起する回数または割合が多いほどクラス対良好度が大きくなるようにクラス対良好度を算出するクラス対良好度算出部とをさらに具備し、
前記クラス対良好度算出部が算出した2つのクラスのクラス対良好度は、前記クラス対良好度格納部に格納されているクラス対良好度である請求項1記載の単語対取得装置。

【請求項3】
 
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンではないパターンであり、前記所定の関係を有する2つの単語対を取得するために利用するパターンを1以上格納し得るパターン格納部と、
前記パターン格納部に格納されている1以上の各パターンと前記シードパターンとの類似度を、パターンごとに格納し得るパターン類似度格納部と、
前記シードパターン格納部に格納されている1以上のシードパターン、および前記パターン格納部に格納されている1以上のパターンのいずれかを取得し、前記文章群格納部に格納されている1以上の文章群から、前記シードパターンまたは前記パターンと共起する1以上の単語対を取得する単語対取得部とをさらに具備し、
前記スコア決定部は、
前記パターン類似度格納部に格納されている前記1以上の各パターンと前記シードパターンとの類似度をパラメータとする増加関数を用いて、前記単語対取得部が取得した各単語対のスコアを決定する請求項1または請求項2記載の単語対取得装置。

【請求項4】
 
前記1以上のシードパターンと共起する単語対に対応するクラス対と、前記パターン格納部に格納されている1以上の各パターンと共起する単語対に対応するクラス対との重なりが大きいほど、大きくなるように類似度を算出するパターン類似度算出部をさらに具備し、
前記パターン類似度算出部が算出した類似度は、前記パターン類似度格納部に格納されている類似度である請求項3記載の単語対取得装置。

【請求項5】
 
1以上の各単語対と1以上の各パターンとの親和性に関する情報であり、単語対とパターンと良く共起する程度を示す情報である親和性情報を格納し得る親和性情報格納部をさらに具備し、
前記スコア決定部は、
前記親和性情報格納部の親和性情報をもパラメータとする増加関数を用いて、前記単語対取得部が取得した各単語対のスコアを決定する請求項3または請求項4記載の単語対取得装置。

【請求項6】
 
前記単語対取得部が取得した1以上の単語対と、前記1以上の各パターンとが共起する回数または割合が多いほど、大きくなるように親和性情報を算出する親和性情報算出部をさらに具備し、
前記親和性情報格納部の親和性情報は、前記親和性情報算出部が算出した親和性情報である請求項5記載の単語対取得装置。

【請求項7】
 
前記スコア決定部は、
前記クラス対良好度、および前記シードパターンとパターンとの類似度、および前記親和性情報の積が最も大きいシードパターンまたはパターンにおけるスコアを、各単語対のスコアとして決定する請求項6記載の単語対取得装置。

【請求項8】
 
前記文章群格納部に格納されている1以上の文章群の各文に対して、形態素解析および係り受け解析し、一番目に出現する第一の名詞または名詞句を起点として、二番目に出現する第二の名詞または名詞句を終点として、前記起点から前記終点までに至る形態素の繋がりをパターンとして取得し、または、前記起点からの形態素の繋がりと前記終点からの形態素の繋がりが結ばれる形態素までをパターンとして取得するパターン取得部をさらに具備し、
前記パターン格納部のパターンは、前記パターン取得部が取得したパターンである請求項3から請求項7いずれか記載の単語対取得装置。

【請求項9】
 
最終的に出力しない単語対に対応するクラス対を識別する2つのクラス識別子である除外クラス対を1以上格納し得る除外クラス対格納部と、
前記1以上の除外クラス対に対応する単語対を出力する単語対から除外する単語対除外部とをさらに具備する請求項1から請求項8いずれか記載の単語対取得装置。

【請求項10】
 
前記1以上の文章群における、各クラスに属する単語の平均出現頻度と、クラス識別子とを対に有するクラス出現頻度情報を、クラス毎に格納し得るクラス出現頻度情報格納部と、
前記平均出現頻度が予め決められた閾値以上の差を有する2つのクラスのクラス識別子を除外クラス対として、前記除外クラス対格納部に蓄積する除外クラス対蓄積部とをさらに具備する請求項9記載の単語対取得装置。

【請求項11】
 
前記文章群格納部の1以上の文章群を用いて、同一の動詞、または同一の動詞と助詞と共起する回数または割合が多い単語を同一のクラスに属するように、1以上の単語クラス情報を取得する単語クラス情報取得部をさらに具備し、
前記単語クラス情報格納部の単語クラス情報は、前記単語クラス情報取得部が取得した単語クラス情報である請求項1から請求項10いずれか記載の単語対取得装置。

【請求項12】
 
記憶媒体に、
1以上の文章群を格納し、
1以上の単語と当該1以上の単語が属するクラスを識別するクラス識別子とを対応づけて有する2以上の単語クラス情報を格納し、
2つのクラスの良さを示す指標であり、当該2つのクラスに属する単語対が、所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンと良く共起する程度を示すクラス対良好度を格納し、
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンを1以上格納しており、
単語対取得部、クラス対良好度取得部、スコア決定部、単語対選択部、および単語対出力部により実現される単語対取得方法であって、
前記単語対取得部により、前記記憶媒体に格納されている1以上のシードパターンのいずれかを取得し、前記記憶媒体に格納されている1以上の文章群から、前記取得したシードパターンと共起する1以上の単語対を取得する単語対取得ステップと、
前記クラス対良好度取得部により、前記単語対取得ステップで取得された1以上の単語対が有する各単語が属する2つのクラスのクラス対良好度を前記記憶媒体から取得するクラス対良好度取得ステップと、
前記スコア決定部により、前記クラス対良好度取得ステップで取得されたクラス対良好度を用いて、前記単語対取得ステップで取得された各単語対のスコアを決定するスコア決定ステップと、
前記単語対選択部により、前記スコア決定ステップで決定されたスコアが予め決められた条件を満たすほど、スコアが高い1以上の単語対を取得する単語対選択ステップと、
前記単語対出力部により、前記単語対選択ステップで取得された1以上の単語対を出力する単語対出力ステップとを具備する単語対取得方法。

【請求項13】
 
記憶媒体に、
1以上の文章群を格納し、
1以上の単語と当該1以上の単語が属するクラスを識別するクラス識別子とを対応づけて有する2以上の単語クラス情報を格納し、
2つのクラスの良さを示す指標であり、当該2つのクラスに属する単語対が、所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンと良く共起する程度を示すクラス対良好度を格納し、
所定の関係を有する2つの単語対を取得するために利用するパターンであるシードパターンを1以上格納しており、
コンピュータを、
前記記憶媒体に格納されている1以上のシードパターンのいずれかを取得し、前記記憶媒体に格納されている1以上の文章群から、前記取得したシードパターンと共起する1以上の単語対を取得する単語対取得部と、
前記単語対取得部が取得した1以上の単語対が有する各単語が属する2つのクラスのクラス対良好度を前記記憶媒体から取得するクラス対良好度取得部と、
前記クラス対良好度取得部が取得したクラス対良好度を用いて、前記単語対取得部が取得した各単語対のスコアを決定するスコア決定部と、
前記スコア決定部が決定したスコアが予め決められた条件を満たすほど、スコアが高い1以上の単語対を取得する単語対選択部と、
前記単語対選択部が取得した1以上の単語対を出力する単語対出力部として機能させるためのプログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2009207944thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close