Top > Search of Japanese Patents > LANGUAGE ANALYTICAL PROCESSING SYSTEM USING MACHINE LEARNING METHOD, TEACHER DATA GENERATION PROCESSING METHOD, LANGUAGE ANALYTICAL PROCESSING METHOD USING MACHINE LEARNING METHOD AND LANGUAGE OMISSION ANALYTICAL PROCESSING SYSTEM USING MACHINE LEARNING METHOD

LANGUAGE ANALYTICAL PROCESSING SYSTEM USING MACHINE LEARNING METHOD, TEACHER DATA GENERATION PROCESSING METHOD, LANGUAGE ANALYTICAL PROCESSING METHOD USING MACHINE LEARNING METHOD AND LANGUAGE OMISSION ANALYTICAL PROCESSING SYSTEM USING MACHINE LEARNING METHOD commons

Patent code P140010700
File No. 01-91
Posted date Jul 3, 2014
Application number P2001-311453
Publication number P2003-122750A
Patent number P4065936
Date of filing Oct 9, 2001
Date of publication of application Apr 25, 2003
Date of registration Jan 18, 2008
Inventor
  • (In Japanese)村田 真樹
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title LANGUAGE ANALYTICAL PROCESSING SYSTEM USING MACHINE LEARNING METHOD, TEACHER DATA GENERATION PROCESSING METHOD, LANGUAGE ANALYTICAL PROCESSING METHOD USING MACHINE LEARNING METHOD AND LANGUAGE OMISSION ANALYTICAL PROCESSING SYSTEM USING MACHINE LEARNING METHOD commons
Abstract PROBLEM TO BE SOLVED: To realize a language analytical processing system using a machine learning method by which wide ranges and many pieces of information can be used as teacher signals in language analysis.
SOLUTION: A problem expression equivalent part extracting part 11 extracts a part equivalent to problem expression from a raw corpus 2 to which no analytical information is imparted by referring to a problem expression information storage part 12. A problem structure converting part 13 generates an extracted solution and teacher data by converting the extracted part into the problem expression. A pair of solution and background extracting part 17 extracts sets of assembly of the solution and the background from the teacher data stored in a teacher data storage part 15, and a machine learning part 18 stores results by learning what solution is tend to be obtained in the case what background of the extracted sets lies. A background extracting part 21 extracts sets of assembly of background from inputted data 3 and a solution estimation processing part 22 outputs the analytical information 4 by estimating what solution is tend to be obtained in the case what background lies of the assembly of the background, based on a learning result data base 19.
Outline of related art and contending technology (In Japanese)

言語解析処理の分野では、形態素解析、構文解析の次の段階である意味解析処理が重要性を増している。特に意味解析の主要部分である格解析処理、省略解析処理などにおいて、処理にかかる労力の負担軽減や処理精度の向上が望まれている。

格解析処理とは、文の一部が主題化もしくは連体化などをすることにより隠れている表層格を復元する処理を意味する。例えば、「りんごは食べた。」という文において、「りんごは」の部分は主題化しているが、この部分を表層格に戻すと「りんごを」である。このような場合に、「りんごは」の「は」の部分を「ヲ格」と解析する。

また、「昨日買った本はもう読んだ。」という文において、「買った本」の部分が連体化しているが、この部分を表層格に戻すと「本を買った」である。このような場合にも、「買った本」の連体の部分を「ヲ格」と解析する。

省略解析処理とは、文の一部に省略されている表層格を復元する処理を意味する。「みかんを買いました。そして食べました。」という文において、「そして食べました」の部分に省略されている名詞句(ゼロ代名詞)は「みかんを」であると解析する。

本発明に関連する従来技術として、以下のような研究があった。

格解析手法として、以下の参考文献1に示すような既存の格フレームを利用するものがある。

[参考文献1]Sadao Kurohashi and Makoto Nagao, A Method of Case Structure Analysis for Japanse Sentences based on Examples in Case Frame Dictionary, IEICE Transactions on Information and Systems, Vol.E77-D, No.2, (1994), pp227-239

また、以下の参考文献2に示すように、格解析において、解析対象としている分類や情報の付加を行っていないコーパス(以下、「生コーパス」という。)から格フレームを構築し、それを利用するものがある。

[参考文献2]河原大輔, 黒橋禎夫, 用言と直前の格要素の組を単位とする格フレームの自動獲得, 情報処理学会, 自然言語処理研究会, 2000-NL-140-18, (2000)

また、以下の参考文献3に示すように、格解析において、格情報付きコーパスを用いずに生コーパスでの頻度情報を利用して、最尤推定により格を求めるものがある。

[参考文献3]阿部川武, 白井清昭, 田中穂積, 徳永健伸, 統計情報を利用した日本語連体修飾語の解析, 言語処理学会年次大会, (2001), pp269-272

なお、以下の参考文献4に示すように、格情報つきコーパスを用いた機械学習法としてk近傍法の一種のTiMBL法(参考文献5参照)を用いたものなどがある。

[参考文献4]Timothy Baldwin, Making lexical sense of japanese-english machine translation: A disambiguation extravaganza, Technical report,(Tokyo Institute of Technology, 2001), Technical Report, ISSN 0918-2802

[参考文献5]Walter Daelemans, Jakub Zavrel, Ko van der Sloot, and Antal van den Bosch, Timbl: Tilburg memory based learner version 3.0 reference guide, Technical report,(1995), ILK Technical Report-ILK 00-01

なお、参考文献3に示された阿部川らの研究や、参考文献4に示されたBaldwin の研究では、連体化の格解析処理のみを扱うものである。

Field of industrial application (In Japanese)

本発明は、言語解析処理に関し、特に、機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析システムに関する。

Scope of claims (In Japanese)
【請求項1】
 
機械学習法を用いて所定の言語解析を行う言語解析処理システムにおいて、
言語解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
素性の集合と解情報との対で構成したものを規則とし、前記規則を所定の順序でリスト上に並べたものを学習結果とする機械学習手段と、
前記機械学習手段の学習結果として得られた前記規則のリストを記憶する機械学習結果記憶手段と、
前記言語解析の対象である文データであって前記言語解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果を参照して、前記学習結果の前記規則のリストを先頭からチェックしていき、前記入力文データの素性の集合と一致する規則を探し出し、その規則の解情報を、その素性の集合のときになりやすい解として推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項2】
 
機械学習法を用いて所定の言語解析を行う言語解析処理システムにおいて、
言語解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
前記教師データから解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求め、前記確率分布を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として前記確率分布を記憶する機械学習結果記憶手段と、
前記言語解析の対象である文データであって前記言語解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果の前記確率分布を利用して、前記入力文データの素性の集合の場合のそれぞれの解となりうる分類の確率を求めて、もっとも大きい確率値を持つ解となりうる分類を特定し、その特定した分類を前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項3】
 
機械学習法を用いて所定の言語解析を行う言語解析処理システムにおいて、
言語解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組および前記素性の集合と前記問題表現に相当する部分のうち前記解以外のものである解候補との組を生成する素性-解もしくは解候補対抽出手段と、
前記教師データから解となりうる分類を特定し、前記分類を正例と負例に分割し、所定のカーネル関数を用いたサポートベクトルマシン法を実行する関数にしたがって前記素性の集合を次元とする空間上で前記正例と負例の間隔を最大にして前記正例と負例を超平面で分割する超平面を求め、前記超平面を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として、前記超平面を記憶する機械学習結果記憶手段と、
前記言語解析の対象である文データであって前記言語解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された超平面を利用して、前記入力文データの素性の集合が前記超平面で分割された前記空間において正例側か負例側のどちらにあるかを特定し、その特定された結果に基づいて定まる分類を、前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項4】
 
請求項1ないし請求項3のいずれか一項に記載の機械学習法を用いた言語解析処理システムにおいて、
さらに、前記言語解析の対象となる情報に対する解情報を含む文データを記憶する解データ記憶手段と、
所定の解析処理により、前記解データ記憶手段に記憶された文データから切り出した単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記文データの素性の集合と前記解情報との組を生成する解-素性抽出手段とを備え、
前記機械学習手段は、前記教師データ記憶手段に記憶された教師データの素性の集合と解との組を借用型教師信号とし、前記解データ記憶手段に記憶された文データの素性の集合と解情報との組を非借用型教師信号とし、前記借用型教師信号または前記非借用型教師信号の素性の集合と解との組を参照して,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習する
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項5】
 
機械学習法を用いて言語省略解析を行う言語省略解析処理システムにおいて、
言語省略解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語省略解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
素性の集合と解情報との対で構成したものを規則とし、前記規則を所定の順序でリスト上に並べたものを学習結果とする機械学習手段と、
前記機械学習手段の学習結果として得られた前記規則のリストを記憶する機械学習結果記憶手段と、
前記言語省略解析の対象である文データであって前記言語省略解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果を参照して、前記学習結果の前記規則のリストを先頭からチェックしていき、前記入力文データの素性の集合と一致する規則を探し出し、その規則の解情報を、その素性の集合のときになりやすい解として推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語省略解析処理システム。

【請求項6】
 
機械学習法を用いて言語省略解析を行う言語省略解析処理システムにおいて、
言語省略解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語省略解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
前記教師データから解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求め、前記確率分布を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として前記確率分布を記憶する機械学習結果記憶手段と、
前記言語省略解析の対象である文データであって前記言語省略解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果の前記確率分布を利用して、前記入力文データの素性の集合の場合のそれぞれの解となりうる分類の確率を求めて、もっとも大きい確率値を持つ解となりうる分類を特定し、その特定した分類を前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語省略解析処理システム。

【請求項7】
 
機械学習法を用いて言語省略解析を行う言語省略解析処理システムにおいて、
言語省略解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語省略解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組および前記素性の集合と前記問題表現に相当する部分のうち前記解以外のものである解候補との組を生成する素性-解もしくは解候補対抽出手段と、
前記教師データから解となりうる分類を特定し、前記分類を正例と負例に分割し、所定のカーネル関数を用いたサポートベクトルマシン法を実行する関数にしたがって前記素性の集合を次元とする空間上で前記正例と負例の間隔を最大にして前記正例と負例を超平面で分割する超平面を求め、前記超平面を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として、前記超平面を記憶する機械学習結果記憶手段と、
前記言語省略解析の対象である文データであって前記言語省略解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された超平面を利用して、前記入力文データの素性の集合が前記超平面で分割された前記空間において正例側か負例側のどちらにあるかを特定し、その特定された結果に基づいて定まる分類を、前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語省略解析処理システム。

【請求項8】
 
請求項5ないし請求項7のいずれか一項に記載の機械学習法を用いた言語省略解析処理システムにおいて、
さらに、前記言語省略解析の対象となる情報に対する解情報を含む文データを記憶する解データ記憶手段と、
所定の解析処理により、前記解データ記憶手段に記憶された文データから切り出した単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記文データの素性の集合と前記解情報との組を生成する解-素性抽出手段とを備え、
前記機械学習手段は、前記教師データ記憶手段に記憶された教師データの素性の集合と解との組を借用型教師信号とし、前記解データ記憶手段に記憶された文データの素性の集合と解情報との組を非借用型教師信号とし、前記借用型教師信号または前記非借用型教師信号の素性の集合と解との組を参照して,どのような素性の集合ときにどのような解になりやすいかを機械学習法により学習する
ことを特徴とする機械学習法を用いた言語省略解析処理システム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2001311453thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close