TOP > 国内特許検索 > 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム

機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム コモンズ

国内特許コード P140010700
整理番号 01-91
掲載日 2014年7月3日
出願番号 特願2001-311453
公開番号 特開2003-122750
登録番号 特許第4065936号
出願日 平成13年10月9日(2001.10.9)
公開日 平成15年4月25日(2003.4.25)
登録日 平成20年1月18日(2008.1.18)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム コモンズ
発明の概要 【課題】 言語解析において、広範かつ多数の情報を教師信号として用いることができる機械学習法を用いた言語解析処理システムを実現する。
【解決手段】 問題表現相当部抽出部11は問題表現情報記憶部12を参照して解析情報が付与されていない生コーパス2 から問題表現に相当する部分を抽出し、問題構造変換部13は、当該抽出部分を問題表現に変換して抽出した解と教師データを生成する。解-素性対抽出部17は教師データ記憶部15に保存された教師データから解と素性の集合の組を抽出し、機械学習部18は抽出した組からどのような素性のときにどのような解となりやすいかを学習した結果を保存する。素性抽出部21は入力されたデータ3 から素性の集合を抽出し、解推定処理部22は学習結果データベース19をもとに素性の集合からその素性の場合にどのような解になりやすいかを推定した解析情報 4を出力する。
従来技術、競合技術の概要



言語解析処理の分野では、形態素解析、構文解析の次の段階である意味解析処理が重要性を増している。特に意味解析の主要部分である格解析処理、省略解析処理などにおいて、処理にかかる労力の負担軽減や処理精度の向上が望まれている。





格解析処理とは、文の一部が主題化もしくは連体化などをすることにより隠れている表層格を復元する処理を意味する。例えば、「りんごは食べた。」という文において、「りんごは」の部分は主題化しているが、この部分を表層格に戻すと「りんごを」である。このような場合に、「りんごは」の「は」の部分を「ヲ格」と解析する。





また、「昨日買った本はもう読んだ。」という文において、「買った本」の部分が連体化しているが、この部分を表層格に戻すと「本を買った」である。このような場合にも、「買った本」の連体の部分を「ヲ格」と解析する。





省略解析処理とは、文の一部に省略されている表層格を復元する処理を意味する。「みかんを買いました。そして食べました。」という文において、「そして食べました」の部分に省略されている名詞句(ゼロ代名詞)は「みかんを」であると解析する。





本発明に関連する従来技術として、以下のような研究があった。





格解析手法として、以下の参考文献1に示すような既存の格フレームを利用するものがある。

[参考文献1]Sadao Kurohashi and Makoto Nagao, A Method of Case Structure Analysis for Japanse Sentences based on Examples in Case Frame Dictionary, IEICE Transactions on Information and Systems, Vol.E77-D, No.2, (1994), pp227-239

また、以下の参考文献2に示すように、格解析において、解析対象としている分類や情報の付加を行っていないコーパス(以下、「生コーパス」という。)から格フレームを構築し、それを利用するものがある。

[参考文献2]河原大輔, 黒橋禎夫, 用言と直前の格要素の組を単位とする格フレームの自動獲得, 情報処理学会, 自然言語処理研究会, 2000-NL-140-18, (2000)

また、以下の参考文献3に示すように、格解析において、格情報付きコーパスを用いずに生コーパスでの頻度情報を利用して、最尤推定により格を求めるものがある。

[参考文献3]阿部川武, 白井清昭, 田中穂積, 徳永健伸, 統計情報を利用した日本語連体修飾語の解析, 言語処理学会年次大会, (2001), pp269-272

なお、以下の参考文献4に示すように、格情報つきコーパスを用いた機械学習法としてk近傍法の一種のTiMBL法(参考文献5参照)を用いたものなどがある。

[参考文献4]Timothy Baldwin, Making lexical sense of japanese-english machine translation: A disambiguation extravaganza, Technical report,(Tokyo Institute of Technology, 2001), Technical Report, ISSN 0918-2802

[参考文献5]Walter Daelemans, Jakub Zavrel, Ko van der Sloot, and Antal van den Bosch, Timbl: Tilburg memory based learner version 3.0 reference guide, Technical report,(1995), ILK Technical Report-ILK 00-01

なお、参考文献3に示された阿部川らの研究や、参考文献4に示されたBaldwin の研究では、連体化の格解析処理のみを扱うものである。

産業上の利用分野



本発明は、言語解析処理に関し、特に、機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析システムに関する。

特許請求の範囲 【請求項1】
機械学習法を用いて所定の言語解析を行う言語解析処理システムにおいて、
言語解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
素性の集合と解情報との対で構成したものを規則とし、前記規則を所定の順序でリスト上に並べたものを学習結果とする機械学習手段と、
前記機械学習手段の学習結果として得られた前記規則のリストを記憶する機械学習結果記憶手段と、
前記言語解析の対象である文データであって前記言語解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果を参照して、前記学習結果の前記規則のリストを先頭からチェックしていき、前記入力文データの素性の集合と一致する規則を探し出し、その規則の解情報を、その素性の集合のときになりやすい解として推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項2】
機械学習法を用いて所定の言語解析を行う言語解析処理システムにおいて、
言語解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
前記教師データから解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求め、前記確率分布を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として前記確率分布を記憶する機械学習結果記憶手段と、
前記言語解析の対象である文データであって前記言語解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果の前記確率分布を利用して、前記入力文データの素性の集合の場合のそれぞれの解となりうる分類の確率を求めて、もっとも大きい確率値を持つ解となりうる分類を特定し、その特定した分類を前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項3】
機械学習法を用いて所定の言語解析を行う言語解析処理システムにおいて、
言語解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組および前記素性の集合と前記問題表現に相当する部分のうち前記解以外のものである解候補との組を生成する素性-解もしくは解候補対抽出手段と、
前記教師データから解となりうる分類を特定し、前記分類を正例と負例に分割し、所定のカーネル関数を用いたサポートベクトルマシン法を実行する関数にしたがって前記素性の集合を次元とする空間上で前記正例と負例の間隔を最大にして前記正例と負例を超平面で分割する超平面を求め、前記超平面を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として、前記超平面を記憶する機械学習結果記憶手段と、
前記言語解析の対象である文データであって前記言語解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された超平面を利用して、前記入力文データの素性の集合が前記超平面で分割された前記空間において正例側か負例側のどちらにあるかを特定し、その特定された結果に基づいて定まる分類を、前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項4】
請求項1ないし請求項3のいずれか一項に記載の機械学習法を用いた言語解析処理システムにおいて、
さらに、前記言語解析の対象となる情報に対する解情報を含む文データを記憶する解データ記憶手段と、
所定の解析処理により、前記解データ記憶手段に記憶された文データから切り出した単語または品詞を含む要素であって前記言語解析の対象の文脈を構成する素性を抽出し、前記文データの素性の集合と前記解情報との組を生成する解-素性抽出手段とを備え、
前記機械学習手段は、前記教師データ記憶手段に記憶された教師データの素性の集合と解との組を借用型教師信号とし、前記解データ記憶手段に記憶された文データの素性の集合と解情報との組を非借用型教師信号とし、前記借用型教師信号または前記非借用型教師信号の素性の集合と解との組を参照して,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習する
ことを特徴とする機械学習法を用いた言語解析処理システム。

【請求項5】
機械学習法を用いて言語省略解析を行う言語省略解析処理システムにおいて、
言語省略解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語省略解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
素性の集合と解情報との対で構成したものを規則とし、前記規則を所定の順序でリスト上に並べたものを学習結果とする機械学習手段と、
前記機械学習手段の学習結果として得られた前記規則のリストを記憶する機械学習結果記憶手段と、
前記言語省略解析の対象である文データであって前記言語省略解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果を参照して、前記学習結果の前記規則のリストを先頭からチェックしていき、前記入力文データの素性の集合と一致する規則を探し出し、その規則の解情報を、その素性の集合のときになりやすい解として推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語省略解析処理システム。

【請求項6】
機械学習法を用いて言語省略解析を行う言語省略解析処理システムにおいて、
言語省略解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語省略解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組を生成する解-素性抽出手段と、
前記教師データから解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求め、前記確率分布を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として前記確率分布を記憶する機械学習結果記憶手段と、
前記言語省略解析の対象である文データであって前記言語省略解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された前記学習結果の前記確率分布を利用して、前記入力文データの素性の集合の場合のそれぞれの解となりうる分類の確率を求めて、もっとも大きい確率値を持つ解となりうる分類を特定し、その特定した分類を前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語省略解析処理システム。

【請求項7】
機械学習法を用いて言語省略解析を行う言語省略解析処理システムにおいて、
言語省略解析の対象となる情報に対する解情報を含まない文データを記憶する文データ記憶手段と、
前記言語省略解析の対象であることを示す問題表現と所定の前記問題表現に相当する部分とを組にして記憶する問題表現記憶手段と、
前記文データ記憶手段から取り出した文データから、前記問題表現記憶手段に記憶された前記問題表現に相当する部分に合致する部分を抽出して問題表現相当部とする問題表現抽出手段と、
前記文データの問題表現相当部を前記問題表現で変換した変換文を問題とし、前記問題表現相当部を解として、前記問題と解との組である教師データを作成する問題構造変換手段と、
前記教師データを記憶する教師データ記憶手段と、
所定の解析処理により、前記教師データ記憶手段から取り出した前記教師データの問題から単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記素性の集合と解との組および前記素性の集合と前記問題表現に相当する部分のうち前記解以外のものである解候補との組を生成する素性-解もしくは解候補対抽出手段と、
前記教師データから解となりうる分類を特定し、前記分類を正例と負例に分割し、所定のカーネル関数を用いたサポートベクトルマシン法を実行する関数にしたがって前記素性の集合を次元とする空間上で前記正例と負例の間隔を最大にして前記正例と負例を超平面で分割する超平面を求め、前記超平面を学習結果とする機械学習手段と、
前記機械学習手段の学習結果として、前記超平面を記憶する機械学習結果記憶手段と、
前記言語省略解析の対象である文データであって前記言語省略解析の対象となる情報に対する解情報を含まないものを入力データとして入力し、所定の解析処理により前記入力文データから単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出する素性抽出手段と、
前記機械学習結果記憶手段に記憶された超平面を利用して、前記入力文データの素性の集合が前記超平面で分割された前記空間において正例側か負例側のどちらにあるかを特定し、その特定された結果に基づいて定まる分類を、前記入力文データの素性の集合の場合になりやすい解と推定する解推定手段とを備える
ことを特徴とする機械学習法を用いた言語省略解析処理システム。

【請求項8】
請求項5ないし請求項7のいずれか一項に記載の機械学習法を用いた言語省略解析処理システムにおいて、
さらに、前記言語省略解析の対象となる情報に対する解情報を含む文データを記憶する解データ記憶手段と、
所定の解析処理により、前記解データ記憶手段に記憶された文データから切り出した単語または品詞を含む要素であって前記言語省略解析の対象の文脈を構成する素性を抽出し、前記文データの素性の集合と前記解情報との組を生成する解-素性抽出手段とを備え、
前記機械学習手段は、前記教師データ記憶手段に記憶された教師データの素性の集合と解との組を借用型教師信号とし、前記解データ記憶手段に記憶された文データの素性の集合と解情報との組を非借用型教師信号とし、前記借用型教師信号または前記非借用型教師信号の素性の集合と解との組を参照して,どのような素性の集合ときにどのような解になりやすいかを機械学習法により学習する
ことを特徴とする機械学習法を用いた言語省略解析処理システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2001311453thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close