TOP > 国内特許検索 > 複数言語入力での言語処理装置

複数言語入力での言語処理装置 コモンズ

国内特許コード P140010703
整理番号 01-89
掲載日 2014年7月3日
出願番号 特願2001-331458
公開番号 特開2003-141110
登録番号 特許第4088681号
出願日 平成13年10月29日(2001.10.29)
公開日 平成15年5月16日(2003.5.16)
登録日 平成20年3月7日(2008.3.7)
発明者
  • 村田 真樹
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 複数言語入力での言語処理装置 コモンズ
発明の概要 【課題】 大量の変換規則を用意する必要がなく、複数の自然言語で記述された変換対象文から他の自然言語及び/又は同じ自然言語で記述された変換結果文への言語変換及び/又は複数の自然言語における言語解析を行うことができる複数言語入力での言語処理方法及び言語処理装置を提供する。
【解決手段】 複数の自然言語で記述された処理対象文から、他の自然言語及び/又は同じ自然言語で記述された処理結果文への処理を行う言語処理方法であって、前記処理を行う際に、前記他の自然言語及び/又は前記同じ自然言語への言語変換及び/又は前記同じ自然言語で記述されたどのような文又は文章になり易いかなどの言語解析を学習させる機械学習手法を用いたものである。
従来技術、競合技術の概要



言語処理には、各言語の形態素解析、構文解析、格解析等を行う言語解析と他の言語への翻訳を行う言語変換とがある。ある自然言語から他の自然言語言語変換する従来の言語処理技術として、機械翻訳がある。機械翻訳では、ある自然言語で記述された文又は文章等を他の自然言語で記述された文又は文章等に言語変換する。また、同一の言語間における文又は文章の言語変換、例えば、要約文を自動生成あるいは文章を推敲する言語処理技術も用いられるようになってきている。





前記機械翻訳では、例えば、図3に示すように、CPU(中央演算処理装置)、メモリ、データ保存装置等からなるコンピュータ本体と周辺機器とから構成される言語処理装置30において、先ず、対象とする問題の答えである解のデータベースを作成して解データベース部31に保存しておく。前記解のデータベースには、入力されたある自然言語のデータに前記解の情報が付与されている。





次に、前記解データベース部31から各事例毎に、解素性対抽出部32で解と素性の集合の組を抽出する。前記素性は、解析に用いる情報の細かい1単位を意味し、前後の単語自体及び品詞、解析する単語自体及び品詞、解の単語及び品詞などである。





次に、前記解と素性の集合の組から、どのような素性の時にどのような解になり易いかを機械学習部33で学習する。この学習結果を解学習結果データベース部34に保存する。





ここまでは、予め準備しておく。ここから、先ず、解を求めたい文又は文章である変換対象文35を入力する。入力された変換対象文35から、素性抽出部36において素性の集合を取り出し、それらを解推定処理部37に渡す。





解推定処理部37では、渡された素性の集合の場合、どのような解になり易いかを前記解学習結果から特定する。最後に、特定された解を変換結果文38として出力する。





以上で示したように、機械翻訳では、機械学習を用い、ある自然言語で記述された文又は文章等から他の自然言語で記述されるどのような文又は文章になり易いかを特定して変換する。





また、前記形態素解析、構文解析、格解析等を行う言語解析においても同様に、解析に用いる素性を設定し、機械学習を用いてどのような解析結果になりやすいかを学習させることが行われている。





また、ここで示した機械学習に基づく方法の他に人手でパターンマッチ規則を作成し、これを用いて機械翻訳、言語解析を行うこともある。現状の実運用されている機械翻訳、言語解析ではむしろ、この人手で作成した規則に基づいて行っているものの方が主である。





また、同一自然言語間での文の言語変換処理では、一般に、変換前の語・句・文などのパターンと変換後の語・句・文などのパターンとの対からなる変換規則を大量に用意し、いわゆるパターン・マッチングによって入力文中に現れる処理前のパターンを探し出し、該当するパターンがあれば、それを処理後の語・句・文などのパターンに置き換える処理を行っている。

産業上の利用分野



この発明は、ある自然言語で記述された変換対象文を、他の自然言語及び/又は同じ自然言語で記述された処理結果文に言語変換及び/又は特定の言語現象を明らかにする言語解析を行う言語処理に関し、特に、複数の自然言語で記述された処理対象文を他の自然言語及び/又は同じ自然言語で記述された処理結果文に言語変換をする際及び/又は特定の言語現象を明らかにする言語解析をする際に、機械学習手法を用いる複数言語入力での言語処理装置に関するものである。

特許請求の範囲 【請求項1】
複数の自然言語で記述された処理対象文に対して、他の自然言語及び/又は同じ自然言語で記述された変換結果文への言語変換及び/又は特定の言語現象を明らかにする言語解析を行う言語処理装置であって、
日本語と英語の2つの自然言語データから、日本語の処理対象文の形態素解析を行う構成において、
前記複数の自然言語で記述された処理対象文を入力する入力手段と、
前記入力手段により入力された前記複数の自然言語のデータに、前記他の自然言語及び/又は前記同じ自然言語への言語変換結果である解の情報が付与された解データ及び/又は特定の言語現象を明らかにする言語解析結果である解の情報が付与された解データを保存する解データベース部と、
前記解データから、前記解と、予め行う解析に応じてその種類が定義されており、解析に用いられる細かい情報の1単位である素性の集合との組を、該当する種類の素性の集合を得る素性抽出解析処理によって抽出する解素性対抽出部と、
サポートベクトルマシンを用いた機械学習モデルに前記解の候補と素性の集合との組を入力することにより、少なくともそれらが解と素性との組(正例)となる確率を学習する機械学習部と、
前記機械学習部で学習した結果を保存する学習結果データベース部と、
入力された複数の自然言語で記述された処理対象文から、素性の集合を取り出す素性抽出部と、
前記素性抽出部から取り出された素性の集合に対して、前記学習結果データベース部に保存された前記学習結果を参照し、前記サポートベクトルマシンを用いた機械学習モデルに基づき、素性の集合に対応する解が少なくとも正例となる確率を求めると共に、その中で最も正例となる確率が高い解を選択する解推定処理部と、
を備えると共に、
前記解素性対抽出部における、
前記予め定義される素性の種類が、少なくとも前の単語自体、前の単語の品詞、後の単語自体、後の単語の品詞、解析する単語自体、解析する単語のとりうる品詞、解の単語、解の品詞、日本語文と英語文の単語の一致数、英語単語列、解析する単語のとりうる品詞に解の品詞が含まれるか、のいずれかを含むものであり、
前記素性抽出解析処理が、解データからの単語抽出処理、形態素解析処理、単語辞書からのとりうる品詞の抽出処理、日本語と英語の対訳辞書に基づく一致する単語数の計数処理、の少なくともいずれかである
ことを特徴とする複数言語入力での言語処理装置。

【請求項2】
複数の自然言語で記述された処理対象文に対して、他の自然言語及び/又は同じ自然言語で記述された変換結果文への言語変換及び/又は特定の言語現象を明らかにする言語解析を行う言語処理装置であって、
日本語と英語の2つの自然言語データから、英語の処理対象文の構文解析を行う構成において、
前記複数の自然言語で記述された処理対象文を入力する入力手段と、
前記入力手段により入力された前記複数の自然言語のデータに、前記他の自然言語及び/又は前記同じ自然言語への言語変換結果である解の情報が付与された解データ及び/又は特定の言語現象を明らかにする言語解析結果である解の情報が付与された解データを保存する解データベース部と、
前記解データから、前記解と、予め行う解析に応じてその種類が定義されており、解析に用いられる細かい情報の1単位である素性の集合との組を、該当する種類の素性の集合を得る素性抽出解析処理によって抽出する解素性対抽出部と、
サポートベクトルマシンを用いた機械学習モデルに前記解の候補と素性の集合との組を入力することにより、少なくともそれらが解と素性との組(正例)となる確率を学習する機械学習部と、
前記機械学習部で学習した結果を保存する学習結果データベース部と、
入力された複数の自然言語で記述された処理対象文から、素性の集合を取り出す素性抽出部と、
前記素性抽出部から取り出された素性の集合に対して、前記学習結果データベース部に保存された前記学習結果を参照し、前記サポートベクトルマシンを用いた機械学習モデルに基づき、素性の集合に対応する解が少なくとも正例となる確率を求めると共に、その中で最も正例となる確率が高い解を選択する解推定処理部と
を備えると共に、
前記解素性対抽出部における、
前記予め定義される素性の種類が、少なくとも解析するフレーズの意味的主辞の単語、解析するフレーズの意味的主辞の単語の意味カテゴリ、解析するフレーズの構文的主辞の単語、解析するフレーズの構文的主辞の単語の意味カテゴリ、解の係り先の単語、解の係り先の単語の意味カテゴリ、解の係り先の単語の品詞、日本語単語列、日本語文と英語文の対応する2つのフレーズのかかり受けの一致数、のいずれかであり、
前記素性抽出解析処理が、予め文法により定めた意味的主辞の単語を抽出する処理、単語辞書からの意味カテゴリの抽出処理、構文解析処理、構文解析処理に基づくかかり受けの一致数の計数処理、の少なくともいずれかである
ことを特徴とする複数言語入力での言語処理装置。

【請求項3】
複数の自然言語で記述された処理対象文に対して、他の自然言語及び/又は同じ自然言語で記述された変換結果文への言語変換及び/又は特定の言語現象を明らかにする言語解析を行う言語処理装置であって、
日本語と英語の2つの自然言語データから、日本語の処理対象文の格解析を行う構成において、
前記複数の自然言語で記述された処理対象文を入力する入力手段と、
前記入力手段により入力された前記複数の自然言語のデータに、前記他の自然言語及び/又は前記同じ自然言語への言語変換結果である解の情報が付与された解データ及び/又は特定の言語現象を明らかにする言語解析結果である解の情報が付与された解データを保存する解データベース部と、
前記解データから、前記解と、予め行う解析に応じてその種類が定義されており、解析に用いられる細かい情報の1単位である素性の集合との組を、該当する種類の素性の集合を得る素性抽出解析処理によって抽出する解素性対抽出部と、
サポートベクトルマシンを用いた機械学習モデルに前記解の候補と素性の集合との組を入力することにより、少なくともそれらが解と素性との組(正例)となる確率を学習する機械学習部と、
前記機械学習部で学習した結果を保存する学習結果データベース部と、
入力された複数の自然言語で記述された処理対象文から、素性の集合を取り出す素性抽出部と、
前記素性抽出部から取り出された素性の集合に対して、前記学習結果データベース部に保存された前記学習結果を参照し、前記サポートベクトルマシンを用いた機械学習モデルに基づき、素性の集合に対応する解が少なくとも正例となる確率を求めると共に、その中で最も正例となる確率が高い解を選択する解推定処理部と
を備えると共に、
前記解素性対抽出部における、
前記予め定義される素性の種類が、少なくとも体言の単語自体、体言の単語の意味カテゴリ、用言の単語自体、用言の単語の意味カテゴリ、英語の単語が2つ連続する表現、体言-用言に対応する英語表現の構文パターン、のいずれかを含むものであり、
前記素性抽出解析処理が、解データからの単語抽出処理、単語辞書からの意味カテゴリの抽出処理、形態素解析処理、構文解析処理、の少なくともいずれかである
ことを特徴とする複数言語入力での言語処理装置。

【請求項4】
複数の自然言語で記述された処理対象文に対して、他の自然言語及び/又は同じ自然言語で記述された変換結果文への言語変換及び/又は特定の言語現象を明らかにする言語解析を行う言語処理装置であって、
日本語と英語の2つの自然言語データから、日本語の処理対象文の単文の時制又はモダリティ表現の推定を行う構成において、
前記複数の自然言語で記述された処理対象文を入力する入力手段と、
前記入力手段により入力された前記複数の自然言語のデータに、前記他の自然言語及び/又は前記同じ自然言語への言語変換結果である解の情報が付与された解データ及び/又は特定の言語現象を明らかにする言語解析結果である解の情報が付与された解データを保存する解データベース部と、
前記解データから、前記解と、予め行う解析に応じてその種類が定義されており、解析に用いられる細かい情報の1単位である素性の集合との組を、該当する種類の素性の集合を得る素性抽出解析処理によって抽出する解素性対抽出部と、
サポートベクトルマシンを用いた機械学習モデルに前記解の候補と素性の集合との組を入力することにより、少なくともそれらが解と素性との組(正例)となる確率を学習する機械学習部と、
前記機械学習部で学習した結果を保存する学習結果データベース部と、
入力された複数の自然言語で記述された処理対象文から、素性の集合を取り出す素性抽出部と、
前記素性抽出部から取り出された素性の集合に対して、前記学習結果データベース部に保存された前記学習結果を参照し、前記サポートベクトルマシンを用いた機械学習モデルに基づき、素性の集合に対応する解が少なくとも正例となる確率を求めると共に、その中で最も正例となる確率が高い解を選択する解推定処理部と、
を備えると共に、
前記解素性対抽出部における、
前記予め定義される素性の種類が、少なくとも日本語文末文字列、英語主節の動詞句表現の単語列、日本語単語列、英語単語列、のいずれかを含むものであり、
前記素性抽出解析処理が、解データからの単語列抽出処理、形態素解析処理、構文解析処理、の少なくともいずれかである
ことを特徴とする複数言語入力での言語処理装置。

【請求項5】
前記解素性対抽出部は、解と素性の集合との組及び、解になりうる候補の中で解以外のものである解候補と素性の集合との組を抽出すると共に、
前記機械学習部は、サポートベクトルマシンを用いた機械学習モデルに前記解と素性の集合との組及び解候補と素性の集合との組を入力することにより、それぞれの解と素性の集合との組(正例)となる確率又はそれぞれの解候補と素性の集合との組(負例)となる確率を学習すると共に、
前記機械学習部で学習した結果を学習結果データベース部に保存する一方、
前記解推定処理部は、処理対象文から素性抽出部で抽出されたそれぞれの素性の集合に対して、解素性対抽出部から解の候補と素性の集合の組を抽出し、該学習結果を参照して前記サポートベクトルマシンを用いた機械学習モデルに基づき該解の候補と素性の組について少なくとも正例である確率を求めると共に、その中で最も正例である確率が高い解の候補を解として出力する
ことを特徴とする請求項1ないし4のいずれかに記載の複数言語入力での言語処理装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2001331458thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close