Top > Search of Japanese Patents > LANGUAGE ANALYSIS PROCESSING METHOD, SENTENCE CONVERSION PROCESSING METHOD, LANGUAGE ANALYSIS PROCESSING SYSTEM, AND SENTENCE CONVERSION PROCESSING SYSTEM

LANGUAGE ANALYSIS PROCESSING METHOD, SENTENCE CONVERSION PROCESSING METHOD, LANGUAGE ANALYSIS PROCESSING SYSTEM, AND SENTENCE CONVERSION PROCESSING SYSTEM commons

Patent code P140010722
File No. 02-80
Posted date Jul 7, 2014
Application number P2002-337747
Publication number P2004-171354A
Patent number P3780341
Date of filing Nov 21, 2002
Date of publication of application Jun 17, 2004
Date of registration Mar 17, 2006
Inventor
  • (In Japanese)村田 真樹
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title LANGUAGE ANALYSIS PROCESSING METHOD, SENTENCE CONVERSION PROCESSING METHOD, LANGUAGE ANALYSIS PROCESSING SYSTEM, AND SENTENCE CONVERSION PROCESSING SYSTEM commons
Abstract PROBLEM TO BE SOLVED: To provide a processing method capable of highly accurately carrying out a converting process of an electronically converted sentence.
SOLUTION: A solution-origin pair extracting part 101 takes out example data from a solution database 2, and extracts a set of a solution and a collection of origins for every example datum. A mechanical learning part 102 learns what kind of solutions are likely to be obtained under what kind of cases of origins by using the set of the solution and the collection of origins, and a learning result is memorized in a learning result database 103. An origin extracting part 110 extracts the collection of origins from an input sentence 3. A solution prediction processing part 111 predicts what kind of solutions are likely to be obtained in the case of the origin extracted from the input sentence 3 by referring to the learning result database 103, and a predicted solution 4 is output.
Outline of related art and contending technology (In Japanese)

言語解析処理の分野では、形態素解析、構文解析の次の段階である意味解析処理が重要性を増している。特に意味解析の主要部分である格解析処理、省略解析処理などにおいて、処理にかかる労力の負担軽減や処理精度の向上が望まれている。

格解析処理とは、文の一部が主題化もしくは連体化などをすることにより隠れている表層格を復元する処理である。例えば、「りんごは食べた。」という文において、「りんごは」の部分は主題化しているが、この部分を表層格に戻すと「りんごを」である。このように、「りんごは食べた。」の「りんごは」の「は」の部分を「ヲ格」と解析する処理である。また、「昨日買った本はもう読んだ。」という文において、「買った本」の部分が連体化しているが、この部分を表層格に戻すと「本を買った」である。この場合に、「買った本」の連体の部分を「ヲ格」と解析する。

省略解析処理とは、文の一部に省略されている表層格を復元する処理を意味する。例えば、「みかんを買いました。そして食べました。」という文において、「そして食べました」の部分に省略されている名詞句(ゼロ代名詞)は「みかんを」であると解析する。

このような言語解析処理をコンピュータで実現する場合に、処理を行う者の労力の負担を軽減しつつ高い処理精度を得るために、機械学習法を用いて言語解析処理を行う手法を提示した(非特許文献1参照)。

非特許文献1において提示した機械学習法を用いて言語解析処理を行う手法(非借用型機械学習法)は、以下のような利点を備える。

(i) より大きな教師データを持つコーパスを用意することで、さらに高い精度で処理を行えることができると推測できる。

(ii)よりよい機械学習手法が開発されたとき、その機械学習手法を用いることでさらに高い精度を獲得できると予測できる。

さらに、非特許文献1では、借用型機械学習法を用いた言語解析処理方法を提示した。借用型機械学習法とは、機械学習法の解析対象となる情報が付加されていないデータ(以下「教師なしデータ」という。)から生成した教師信号を用いた機械学習方法である。借用型機械学習法によれば、例えば格フレーム辞書など、人手などで解析対象となる情報(解情報)を予め付与しておいたデータを用いることなく、大量に存在する一般的な電子化された文を機械学習の教師なしデータとして利用することができ、大量の教師信号による機械学習の学習精度が向上するため、高い精度の言語解析処理を実現することができる。

さらに、非特許文献1では、併用型機械学習法を用いた言語解析処理方法を提示した。併用型機械学習法とは、通常の機械学習法で用いる教師信号すなわち機械学習法の解析対象となる情報が付加されたデータ(以下「教師ありデータ」という。)と、教師なしデータから生成した教師信号とを用いて機械学習を行う方法である。併用型機械学習法によれば、取得が容易な教師なしデータから生成された大量の教師信号と、通常の学習精度を確保できる教師ありデータの教師信号との両方の利点を活かした言語解析処理を実現することができる。

また、自然言語処理の分野における重要な問題として、受け身文や使役文から能動文への変換処理がある。この文変換処理は、文生成処理、言い換え処理、文の平易化/言語運用支援、自然言語文を利用した知識獲得・情報抽出処理、質問応答システムなど、多くの研究分野で役に立つ。例えば質問応答システムにおいて、質問文が能動文で書かれ回答を含む文が受動文で書かれているような文書がある場合に、質問文と回答を含む文では文構造が異なっているために質問の回答を取り出すのが困難な場合がある。このような問題も、受け身文や使役文から能動文への変換処理を行うことにより解決することができる。

日本語の受け身文や使役文を能動文に文変換処理する際には、文変換後に用いる変換後格助詞を推定することが求められる。例えば、「犬に私が噛まれた。」という受け身文から「犬が私を噛んだ。」という能動文に変換する場合に、「犬に」の格助詞「に」が「が」に、「私が」の「が」が「を」に変換されると推定する処理である。また、「彼が彼女に髪を切らせた。」という使役文を「彼女が髪を切った。」という能動文に変換する場合に、「彼女に」の格助詞「に」が「が」に変換され、「髪を」の「を」は変換しないと推定する処理である。しかし、受け身文や使役文から能動文への変換処理における格助詞の変換は、変換される格助詞が動詞やその動詞の使われ方に依存して変わるので、簡単に自動処理できる問題ではない。

格助詞の変換処理については、例えば、以下の非特許文献2~4に示すような従来手法がいくつかある。非特許文献2~4で開示されている技術では、格助詞の変換処理の問題を、どのように格助詞を変換すればよいかを記載した格フレーム辞書を用いて対処している。

【非特許文献1】

村田真樹、

機械学習手法を用いた日本語格解析-教師信号借用型と非借用型さらには併用型-、

電子情報通信学会、電子情報通信学会技術研究報告NLC-2001-24

2001年7月17日

【非特許文献2】

情報処理振興事業協会技術センター、

計算機用日本語基本動詞辞書IPAL(Basic Verbs) 説明書、

1987

【非特許文献3】

Sadao Kurohashi and Makoto Nagao,

A Method of Case Structure Analysis for Japanese Sentences based on Examples in Case Frame Dictionary,

IEICE Transactions of Information and Systems, Vol.E77-D, No.2, 1994

【非特許文献4】

近藤 恵子、佐藤 理史、奥村 学、

格変換による単文の言い換え、

情報処理学会論文誌、Vol.42, No.3,

2001

Field of industrial application (In Japanese)

本発明は、コンピュータで実現する自然言語処理技術に関する。さらに詳しくは、機械学習法により電子化された文を用いた言語解析処理方法および前記処理方法を実現する処理システムに関する。

特に、本発明は、省略補完処理、文生成処理、機械翻訳処理、文字認識処理、音声認識処理など、語句を生成する処理を含むような極めて広範囲な問題を扱う言語処理に適用することができる。

Scope of claims (In Japanese)
【請求項1】
 
機械学習処理を用いて言語解析処理を行うメイン用処理システムと、前記メイン用処理システムに対して機械学習処理で使用するデータを提供するスタック用処理システムとで構成され、所定の言語解析処理を行う言語解析処理システムであって、
前記スタック用処理システムは、
前記言語解析処理での解析対象であって機械学習処理で扱われる問題に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記問題が示される所定の文表現である問題表現と、前記問題表現に相当する部分とを組にして記憶する問題表現情報記憶手段と、
前記文データ記憶手段に記憶された文データから、前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現相当部抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、問題と解との組である教師なしデータを作成する問題構造変換手段と、
前記作成された教師なしデータを記憶する教師なしデータ記憶手段と、
前記教師なしデータ記憶手段に記憶された教師なしデータの問題から、所定の解析処理によって、少なくとも文字列または単語または品詞を含む所定の情報である素性を抽出し、前記教師なしデータごとに前記素性の集合と解との組を生成するスタック用解-素性対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記素性の集合と解との組について、どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し、学習結果として、前記どのような素性の集合との場合にどのような解になりやすいかということをスタック用学習結果データ記憶手段に保存するスタック用機械学習手段と、
前記メイン用処理システムから、前記スタック用解-素性対抽出手段が行う抽出処理と同様の抽出処理によって抽出された前記所定の情報である素性の集合を受け取った場合に、前記スタック用学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて、前記素性の集合の場合になりやすい解を推定し、前記推定した解をスタック用出力解として出力するスタック用解推定処理手段とを備え、
前記メイン用処理システムは、
問題と解とで構成された文データであって、前記言語解析処理での解析対象であって機械学習処理で扱われる問題に対する解情報が付与された解データを記憶する解データ記憶手段と、
前記解データ記憶手段に記憶された解データの問題から、前記スタック用解-素性対抽出手段が行う抽出処理と同様の抽出処理によって前記所定の情報である素性を抽出し、前記解データごとに前記素性の集合と解との組を生成するメイン用解-素性対抽出手段と、
前記メイン用解-素性対抽出手段で生成された前記素性の集合に対して前記スタック用解推定処理手段において推定され出力された前記スタック用出力解を、前記メイン用解-素性対抽出手段によって生成された素性の集合に素性として追加し、第1の素性の集合とする第1素性追加手段と、
所定の機械学習アルゴリズムにもとづいて、前記第1の素性の集合と解との組について、どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し、学習結果として、前記どのような素性の集合の場合にどのような解になりやすいかということをメイン用学習結果データ記憶手段に保存するメイン用機械学習手段と、
前記言語解析処理の対象として入力された入力文データから、前記スタック用解-素性対抽出手段が行う抽出処理と同様の抽出処理によって前記所定の情報である素性として抽出する素性抽出手段と、
前記素性抽出手段で生成された前記素性の集合に対して前記スタック用解推定処理手段において推定され出力されたスタック用出力解を、前記素性抽出手段によって生成された素性の集合に素性として追加し、第2の素性の集合とする第2素性追加手段と、
前記メイン用学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて、前記第2の素性の集合の場合になりやすい解を推定する解推定処理手段とを備え、
前記所定の機械学習アルゴリズムとして決定リスト法または最大エントロピー法またはサポートベクトルマシン法のいずれかのアルゴリズムを使用し、
前記決定リスト法では、前記スタック用機械学習手段および前記メイン用機械学習手段によって、前記教師なしデータの素性の集合と解との組を規則とし、前記規則を所定の優先順位により格納したリストが前記学習結果として記憶され、前記スタック用解推定処理手段および前記解推定処理手段によって、前記学習結果であるリストに格納された規則を優先順位の高い順に前記入力データの素性の集合と比較し、素性が一致した規則の解が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記最大エントロピー法では、前記スタック用機械学習手段および前記メイン用機械学習手段によって、前記教師なしデータの素性の集合と解との組から、前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布が前記学習結果として記憶され、前記スタック用解推定処理手段および前記解推定処理手段によって、前記学習結果である確率分布をもとに、前記入力データの素性の集合の場合の各分類の確率が求められ、前記確率が最大の確率値を持つ分類が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記サポートベクトルマシン法では、前記スタック用機械学習手段および前記メイン用機械学習手段によって、前記教師なしデータの素性の集合と解との組を用いて、所定のサポートベクトルマシン法による超平面を求め、前記超平面および前記超平面により分割された空間の分類が前記学習結果として記憶され、前記スタック用解推定処理手段および前記解推定処理手段によって、前記学習結果である超平面をもとに、前記入力文データの素性の集合が前記超平面で分割された空間のいずれかに属するかが求められ、前記素性の集合が属する空間の分類が、前記入力文データの素性の集合の場合になりやすい解として推定される処理が行われる
ことを特徴とする言語解析処理システム。

【請求項2】
 
前記スタック用処理システムは、問題と解とで構成され、前記言語解析処理での解析対象であって機械学習処理で扱われる問題に対する解情報が付与された解データを記憶する解データ記憶手段を備えるとともに、
前記スタック用解-素性対抽出手段は、前記解データ記憶手段に記憶された解データの問題から、前記抽出処理によって前記所定の情報である素性を抽出し、前記解データごとに前記素性の集合と解との組を生成し、
前記スタック用機械学習手段は、前記文データおよび前記解データから生成された素性の集合と解との組について、どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理する
ことを特徴とする請求項1記載の言語解析処理システム。

【請求項3】
 
機械学習処理を用いて言語解析処理を行うメイン用処理システムと、前記メイン用処理システムに対して機械学習処理で使用するデータを提供するスタック用処理システムとで構成され、所定の言語解析処理を行う言語解析処理システムであって、
前記スタック用処理システムは、
前記言語解析処理での解析対象であって機械学習処理で扱われる問題に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記問題が示される所定の文表現である問題表現と、前記問題表現に相当する部分とを組にして記憶する問題表現情報記憶手段と、
前記文データ記憶手段に記憶された文データから、前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現相当部抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解または解候補として、問題と解または解候補との組である教師なしデータを作成する問題構造変換手段と、
前記作成された教師なしデータを記憶する教師なしデータ記憶手段と、
前記教師なしデータ記憶手段に記憶された教師なしデータの問題から、所定の解析処理によって、少なくとも文字列または単語または品詞を含む所定の情報である素性を抽出し、前記教師なしデータごとに前記素性の集合と解または解候補との組を生成するスタック用素性-解対・素性-解候補対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記素性の集合と解または解候補との組について、どのような素性の集合と解または解候補との組の場合に所定の二分類先である正例もしくは負例である確率を機械学習処理し、学習結果として、前記素性の集合と解または解候補との組の場合に正例もしくは負例である確率をスタック用学習結果データ記憶手段に保存するスタック用機械学習手段と、
前記メイン用処理システムから、前記スタック用素性-解対・素性-解候補対抽出手段が行う抽出処理と同様の抽出処理によって抽出された前記所定の情報である素性とする素性の集合と解または解候補との組を受け取った場合に、前記学習結果データ記憶手段に学習結果として記憶された前記素性の集合と解または解候補の組の場合に正例もしくは負例である確率にもとづいて、前記素性の集合と解候補との組の場合に正例もしくは負例である確率を求め、全ての解候補の中から正例である確率が最大の解候補をスタック用出力解として出力するスタック用解推定処理手段とを備え、
前記メイン用処理システムは、
問題と解とで構成された文データであって、前記言語解析処理での解析対象であって機械学習処理で扱われる問題に対する解情報が付与された解データを記憶する解データ記憶手段と、
前記解データ記憶手段に記憶された解データの問題から、前記スタック用素性-解対・素性-解候補対抽出手段が行う抽出処理と同様の抽出処理によって前記所定の情報である素性を抽出し、前記素性の集合と前記解または解候補との組を生成するメイン用素性-解対・素性-解候補対抽出手段と、
前記メイン用素性-解対・素性-解候補対抽出手段で生成された前記素性の集合と解または解候補との組に対して前記スタック用解推定処理手段において推定され出力されたスタック用出力解を、前記メイン用解-素性対抽出手段によって生成された素性の集合に素性として追加し、第1の素性の集合とする第1素性追加手段と、
所定の機械学習アルゴリズムにもとづいて、前記解と第1の素性の集合と解または解候補との組について、前記素性の集合と解または解候補の場合に正例もしくは負例である確率を機械学習処理し、学習結果として、前記素性の集合と解または解候補の場合に正例もしくは負例である確率をメイン用学習結果データ記憶手段に保存するメイン用機械学習手段と、
前記言語解析処理の対象として入力された入力文データから、前記スタック用素性-解対・素性-解候補対抽出手段が行う抽出処理と同様の抽出処理によって前記所定の情報である素性として抽出する素性抽出手段と、
前記素性抽出手段で生成された前記素性の集合と解または解候補の組に対して前記スタック用解推定処理手段において推定され出力されたスタック用出力解を、前記素性抽出手段によって生成された素性の集合に素性として追加し、第2の素性の集合とする第2素性追加手段と、
前記メイン用学習結果データ記憶手段に学習結果として記憶された前記素性の集合と解または解候補との組の場合に正例もしくは負例である確率にもとづいて、前記第2の素性の集合と解候補との組の場合に正例もしくは負例である確率を求め、全ての解候補の中から正例である確率が最大の解候補を解として推定する解推定処理手段とを備え、
前記所定の機械学習アルゴリズムとして決定リスト法または最大エントロピー法またはサポートベクトルマシン法のいずれかのアルゴリズムを使用し、
前記決定リスト法では、前記スタック用機械学習手段および前記メイン用機械学習手段によって、前記教師なしデータの素性の集合と解との組を規則とし、前記規則を所定の優先順位により格納したリストが前記学習結果として記憶され、前記スタック用解推定処理手段および前記解推定処理手段によって、前記学習結果であるリストに格納された規則を優先順位の高い順に前記入力データの素性の集合と比較し、素性が一致した規則の解が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記最大エントロピー法では、前記スタック用機械学習手段および前記メイン用機械学習手段によって、前記教師なしデータの素性の集合と解との組から、前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布が前記学習結果として記憶され、前記スタック用解推定処理手段および前記解推定処理手段によって、前記学習結果である確率分布をもとに、前記入力データの素性の集合の場合の各分類の確率が求められ、前記確率が最大の確率値を持つ分類が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記サポートベクトルマシン法では、前記スタック用機械学習手段および前記メイン用機械学習手段によって、前記教師なしデータの素性の集合と解との組を用いて、所定のサポートベクトルマシン法による超平面を求め、前記超平面および前記超平面により分割された空間の分類が前記学習結果として記憶され、前記スタック用解推定処理手段および前記解推定処理手段によって、前記学習結果である超平面をもとに、前記入力文データの素性の集合が前記超平面で分割された空間のいずれかに属するかが求められ、前記素性の集合が属する空間の分類が、前記入力文データの素性の集合の場合になりやすい解として推定される処理が行われる
ことを特徴とする言語解析処理システム。

【請求項4】
 
前記スタック用処理システムは、問題と解とで構成され、前記言語解析処理での解析対象であって機械学習処理で扱われる問題に対する解情報が付与された解データを記憶する解データ記憶手段を備えるとともに、
前記スタック用解-素性対抽出手段は、前記解データ記憶手段に記憶された解データの問題から、前記抽出処理によって前記所定の情報である素性を抽出し、前記解データごとに前記素性の集合と解との組を生成し、
前記スタック用機械学習手段は、前記文データおよび前記解データから生成された素性の集合と解または解候補との組について、前記素性の集合と解または解候補との組の場合に正例もしくは負例である確率を機械学習処理する
ことを特徴とする請求項3記載の言語解析処理システム。

【請求項5】
 
前記スタック用処理システムおよび前記メイン用処理システムでは、前記言語解析処理の対象となる文データが受け身文または使役文である場合に、前記文データから能動文への文変換処理における変換後の格助詞を解析する
ことを特徴とする請求項1ないし請求項4のいずれか一項に記載の言語解析処理システム。

【請求項6】
 
機械学習処理を用いて、受け身文または使役文である文データを能動文の文データへ変換する場合の変換後の格助詞を推定する文変換処理システムであって、
問題と解とで構成されたデータであって、文データを問題とし、前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と、
前記解データ記憶手段に記憶された解データの問題から、所定の解析処理によって、少なくとも文字列または単語または品詞を含む所定の情報である素性を抽出し、前記解データごとに前記素性の集合と解との組を生成する解-素性対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記素性の集合と解との組について、どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し、学習結果として、前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と、
前記変換処理の対象として入力された入力文データから、前記解-素性対抽出手段が行う抽出処理と同様の抽出処理によって前記所定の情報である素性として抽出する素性抽出手段と、
前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて、前記素性の集合の場合になりやすい解を推定する解推定処理手段とを備え、
前記所定の機械学習アルゴリズムとして決定リスト法または最大エントロピー法またはサポートベクトルマシン法のいずれかのアルゴリズムを使用し、
前記決定リスト法では、前記機械学習手段によって、前記教師なしデータの素性の集合と解との組を規則とし、前記規則を所定の優先順位により格納したリストが前記学習結果として記憶され、前記解推定処理手段によって、前記学習結果であるリストに格納された規則を優先順位の高い順に前記入力データの素性の集合と比較し、素性が一致した規則の解が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記最大エントロピー法では、前記機械学習手段によって、前記教師なしデータの素性の集合と解との組から、前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布が前記学習結果として記憶され、前記解推定処理手段によって、前記学習結果である確率分布をもとに、前記入力データの素性の集合の場合の各分類の確率が求められ、前記確率が最大の確率値を持つ分類が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記サポートベクトルマシン法では、前記機械学習手段によって、前記教師なしデータの素性の集合と解との組を用いて、所定のサポートベクトルマシン法による超平面を求め、前記超平面および前記超平面により分割された空間の分類が前記学習結果として記憶され、前記解推定処理手段によって、前記学習結果である超平面をもとに、前記入力文データの素性の集合が前記超平面で分割された空間のいずれかに属するかが求められ、前記素性の集合が属する空間の分類が、前記入力文データの素性の集合の場合になりやすい解として推定される処理が行われる
ことを特徴とする文変換処理システム。

【請求項7】
 
機械学習処理を用いて、受け身文または使役文である文データを能動文の文データへ変換する場合の変換後の格助詞を推定する文変換処理システムであって、
問題と解とで構成されたデータであって、文データを問題とし、前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と、
前記解データ記憶手段に記憶された前記解データの問題から、所定の解析処理によって、少なくとも文字列または単語または品詞を含む所定の情報である素性を抽出し、前記解データごとに前記素性の集合と解または解候補との組を生成する素性-解対・素性-解候補対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記素性の集合と解または解候補との組について、どのような素性の集合と解または解候補との組の場合に正例もしくは負例である確率を機械学習処理し、学習結果として、前記素性の集合と解または解候補との組の場合に正例もしくは負例である確率を学習結果データ記憶手段に保存する機械学習手段と、
前記変換処理の対象として入力された入力文データから、前記素性-解対・素性-解候補対抽出手段が行う抽出処理と同様の抽出処理によって前記所定の情報である素性を抽出し、前記素性の集合と解候補との組を生成する素性-解候補対抽出手段と、
前記学習結果データ記憶手段に学習結果として記憶された前記素性の集合と解または解候補との組の場合に正例もしくは負例である確率にもとづいて、前記素性の集合と解候補との組の場合に正例もしくは負例である確率を求め、全ての解候補の中から正例である確率が最大の解候補を解として推定する解推定処理手段とを備え、
前記所定の機械学習アルゴリズムとして決定リスト法または最大エントロピー法またはサポートベクトルマシン法のいずれかのアルゴリズムを使用し、
前記決定リスト法では、前記機械学習手段によって、前記教師なしデータの素性の集合と解との組を規則とし、前記規則を所定の優先順位により格納したリストが前記学習結果として記憶され、前記解推定処理手段によって、前記学習結果であるリストに格納された規則を優先順位の高い順に前記入力データの素性の集合と比較し、素性が一致した規則の解が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記最大エントロピー法では、前記機械学習手段によって、前記教師なしデータの素性の集合と解との組から、前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布が前記学習結果として記憶され、前記解推定処理手段によって、前記学習結果である確率分布をもとに、前記入力データの素性の集合の場合の各分類の確率が求められ、前記確率が最大の確率値を持つ分類が、前記入力データの素性の集合のときになりやすい解として推定される処理が、または、
前記サポートベクトルマシン法では、前記機械学習手段によって、前記教師なしデータの素性の集合と解との組を用いて、所定のサポートベクトルマシン法による超平面を求め、前記超平面および前記超平面により分割された空間の分類が前記学習結果として記憶され、前記解推定処理手段によって、前記学習結果である超平面をもとに、前記入力文データの素性の集合が前記超平面で分割された空間のいずれかに属するかが求められ、前記素性の集合が属する空間の分類が、前記入力文データの素性の集合の場合になりやすい解として推定される処理が行われる
ことを特徴とする文変換処理システム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2002337747thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close