Top > Search of Japanese Patents > PROCESSING METHOD FOR TRANSLATION OF TENSE, ASPECT AND MODALITY, AND SYSTEM THEREFOR > Specification

Specification :(In Japanese)テンス・アスペクト・モダリティ翻訳処理装置

Country (In Japanese)日本国特許庁(JP)
Gazette (In Japanese)特許公報(B2)
Patent Number P3870251
Publication number P2003-016067A
Date of registration Oct 27, 2006
Date of issue Jan 17, 2007
Date of publication of application Jan 17, 2003
Title of the invention, or title of the device (In Japanese)テンス・アスペクト・モダリティ翻訳処理装置
IPC (International Patent Classification) G06F  17/28        (2006.01)
FI (File Index) G06F 17/28 Z
G06F 17/28 C
Number of claims or invention 1
Total pages 19
Application Number P2001-201010
Date of filing Jul 2, 2001
Exceptions to lack of novelty of invention (In Japanese)特許法第30条第1項適用 2001年3月9日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報Vol.100,No.698」に発表
Appeal or trial number (In Japanese)不服 2003-003101(P2003-003101/J1)
Date of request for substantive examination Jul 2, 2001
Date of appeal or demand for trial Feb 27, 2003
Patentee, or owner of utility model right (In Japanese)【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
Inventor, or creator of device (In Japanese)【氏名】村田 真樹
【氏名】馬 青
【氏名】内元 清貴
【氏名】井佐原 均
Representative (In Japanese)【識別番号】100119161、【弁理士】、【氏名又は名称】重久 啓子
【識別番号】100087848、【弁理士】、【氏名又は名称】小笠原 吉義
Document or reference (In Japanese)特許第3022511(JP,B1)
「99-NL-130 用例ベースによるモダリティの日英翻訳」情報処理学会研究報告,Vol.99,No.22,p.121-p.128(19999.03.05)
「用例ベースによるテンス・アスペクト・モダリティの日英翻訳」人工知能学会誌,Vol.16,No.1,p.148(2001.01.01)
「2001-NLC-2 種々の機械学習方法を用いた多義性解消実験」電子情報通信学会技術研究報告,Vol.101,No.40,p.7-p.14(2001.05.04)
Field of search G06F17/28
Scope of claims (In Japanese)【請求項1】
デジタル化された文について一の言語から他の言語へ翻訳処理をする際に,変換元言語から変換先言語のテンス・アスペクト・モダリティを翻訳する処理装置であって,
予め備えられた変換元言語の事例と当該事例の変換先言語におけるテンス・アスペクト・モダリティとの組を記憶するテンス・アスペクト・モダリティ・データベースと,
前記テンス・アスペクト・モダリティ・データベースの各事例ごとに,テンス・アスペクト・モダリティと当該テンス・アスペクト・モダリティに対応する事例から抽出した単語素性および文字列素性を含む複数の形式の素性の集合とからなるテンス-素性組を抽出するテンス-素性抽出手段と,
前記テンス-素性組を教師データとして用いて複数の素性の出現パターンについて,それぞれのパターンのときになりやすいテンス・アスペクト・モダリティを,決定リスト法,最大エントロピー法,またはサポートベクトルマシン法のいずれか一の機械学習アルゴリズムにより学習する機械学習手段と,
前記機械学習手段における学習結果を,入力文の変換先言語のテンス・アスペクト・モダリティを判定するための学習データとして学習結果データベースに保存する学習結果データベースと,
変換元言語の入力文から,当該入力文の素性の集合を抽出する素性抽出手段と,
前記入力文の素性の集合をもとに,前記機械学習アルゴリズムにより,前記学習データベースに保存された学習データを参照して前記素性の集合の素性の出現のパターンについて,最もなりやすいテンス・アスペクト・モダリティを特定し,前記特定したテンス・アスペクト・モダリティを前記入力文のテンス・アスペクト・モダリティの推定解として出力する変換先テンス・アスペクト・モダリティ推定処理手段とを備える
ことを特徴とするテンス・アスペクト・モダリティ翻訳処理装置。
Detailed description of the invention (In Japanese)
【0001】
【発明の属する技術分野】
本発明は,コンピュータによる翻訳システムの分野において,特に,機械学習アルゴリズムを用いてテンス(時制),アスペクト(相),またはモダリティ(様相)を翻訳する翻訳処理装置に関するものである。
【0002】
【従来の技術】
近年,WWW(World Wide Web)などのインターネットの発展とともに機械翻訳の必要性が高まり続けている。この機械翻訳において,テンス・アスペクト・モダリティは翻訳が難しい問題として知られている。
【0003】
テンス・アスペクト・モダリティとは,動詞部分の時制(テンス),進行形や完了形などの相(アスペクト),または英文における助動詞相当句である様相(モダリティ)についての情報である。
【0004】
従来,テンス・アスペクト・モダリティの表現は,人手により作成されたルールによって扱われていた。しかしながら,近年では,用例ベース(k近傍法)の方法などのコーパスデータにもとづくアプローチでも処理されるようになってきた。用例ベースの方法では,集めた実例ごとに,どの場合にどの時制などを使うかを記したデータを対応づけた用例データベースを用意しておき,入力された文と良く似た実例に基づいてテンス・アスペクト・モダリティを翻訳するといったことが行なわれていた。
[参考文献1]村田真樹 馬青 内元清貴 井佐原均,用例ベースによるテンス・アスペクト・モダリティの日英翻訳,人工知能学会誌,Vol.16,No.1,2001
参考文献1に記載されている研究では,日本文から英文への機械翻訳のテンス・アスペクト・モダリティの判定の際に,日本文のテンス・アスペクト・モダリティは文末に表されることに着目して,入力された日本文の文末の所定の長さの文字列と,予め用意したコーパスデータとの類似度をk近傍法により判断してテンス・アスペクト・モダリティを決定する手法を用いている。k近傍法とは,最もよく似た一つの事例の代わりに,最もよく似たk個の事例を用い,このk個の事例での多数決によって分類先を求める手法である。
【0005】
【発明が解決しようとする課題】
しかし,人手でルールを記述し,このルールをもとにテンス・アスペクト・モダリティを分類する方法では,人的資源の問題や,人手による作業の精度などの問題がある。
【0006】
また,入力文とよく似た実例を使う手法では,入力文と実例の類似度を定義する必要があり,例えば文末の文字列のように類似度を定義することができるような平易な情報しか扱うことができなかった。そのため,参考文献1に記載された研究の手法において,文末の文字列の情報のみによってテンス・アスペクト・モダリティの分類を判定することで,判定結果の精度が低くなる場合が生じる。
【0007】
例えば,実例データ「もう行きました。」のテンス・アスペクト・モダリティが「過去完了」である場合に,「昨日行きました。」という文が入力されたとする。この入力文の正しいテンス・アスペクト・モダリティは「過去」であるにもかかわらず,文字列「ました$($=文末)」の表示の類似度から,実例データと同様に「過去完了」と判定されてしまう場合がある。
【0008】
したがって,参考文献1の研究の手法のように文末の一致する文字列だけでなく,例えば,この場合の「昨日」のように,文末の文字列とは異なる形式の情報を合わせて用いることが有効であると考えられる。
【0009】
しかし,テンス・アスペクト・モダリティを解析するための情報(素性)として,形態素情報(形態素素性),意味解析情報(単語素性など),構文解析情報(構文解析素性)などの異なる形式の素性を組み合わせて用いることが有効であるとしても,参考文献1の研究で用いたk近傍法のような類似度を定義する必要がある判定手法では,複数の形式の素性を用いることができないという問題があった。
【0010】
本発明は,上記問題点の解決を図り,変換元言語の事例やその事例に関連するデータから抽出した異なる形式の素性を取り扱うことができる機械学習手法を用いて,どのような素性の場合にどのようなテンス・アスペクト・モダリティになるかを学習し,その学習結果を用いて入力文の変換先のテンス・アスペクト・モダリティを精度よく翻訳できる手段を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するため,本発明は,デジタル化された文について一の言語から他の言語へ翻訳処理をする際に,変換元言語から変換先言語のテンス・アスペクト・モダリティを翻訳する処理装置であって,予め備えられた変換元言語の事例と当該事例の変換先言語におけるテンス・アスペクト・モダリティとの組を記憶するテンス・アスペクト・モダリティ・データベースと,前記テンス・アスペクト・モダリティ・データベースの各事例ごとに,テンス・アスペクト・モダリティと当該テンス・アスペクト・モダリティに対応する事例から抽出した単語素性および文字列素性を含む複数の形式の素性の集合とからなるテンス-素性組を抽出するテンス-素性抽出手段と,前記テンス-素性組を教師データとして用いて複数の素性の出現パターンについて,それぞれのパターンのときになりやすいテンス・アスペクト・モダリティを,決定リスト法,最大エントロピー法,またはサポートベクトルマシン法のいずれか一の機械学習アルゴリズムにより学習する機械学習手段と,前記機械学習手段における学習結果を,入力文の変換先言語のテンス・アスペクト・モダリティを判定するための学習データとして学習結果データベースに保存する学習結果データベースと,変換元言語の入力文から,当該入力文の素性の集合を抽出する素性抽出手段と,前記入力文の素性の集合をもとに,前記機械学習アルゴリズムにより,前記学習データベースに保存された学習データを参照して前記素性の集合の素性の出現のパターンについて,最もなりやすいテンス・アスペクト・モダリティを特定し,前記特定したテンス・アスペクト・モダリティを前記入力文のテンス・アスペクト・モダリティの推定解として出力する変換先テンス・アスペクト・モダリティ推定処理手段とを備えることを特徴としている。
【0012】
本発明では,従来の手法のように,文末の文字列のように単一の種類の素性だけを用いてテンス・アスペクト・モダリティの解析を行うのでなく,文字列の他,一文全体の形態素素性,意味的素性,構文的素性,前文のテンス・アスペクト・モダリティ,または対訳データの該当する構成部分データなど,二以上の異なる形式の素性を任意に用いて解析処理を行う点が,従来の手法と異なる。
【0013】
また,本発明では,多くの形式の素性を自由に用いることができる,類似度を設定する必要のない種々の機械学習手法を用いて解析処理を行う点が,類似度の定義を必要とする従来のk近傍法のような手法による判定と異なる。
【0014】
以上の本発明は,その処理手段,構成,要素をコンピュータに実行させるプログラムによっても実現することができる。このプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または通信インタフェースを介して種々の通信網を利用した送受信により提供される。
【0015】
【発明の実施の形態】
以下に,本発明の実施の形態を図を用いて説明する。本実施の形態では,日本文から英文への翻訳に際しテンス・アスペクト・モダリティを翻訳する場合を例とする。
【0016】
図1に,本発明のシステム構成例を示す。図1中,1は本発明に係るテンス・アスペクト・モダリティ翻訳システムを表す。テンス・アスペクト・モダリティ翻訳システム1はCPU,メモリなどで構成され,テンス・アスペクト・モダリティ・データベース11,テンス-素性組抽出部12,機械学習部13,学習結果データベース14,素性抽出部15,変換先テンス・アスペクト・モダリティ推定処理部16を持つ。
【0017】
テンス-素性組抽出部12は,予め用意しておいたテンス・アスペクト・モダリティ用コーパスであるテンス・アスペクト・モダリティ・データベース11から,事例ごとに,テンス・アスペクト・モダリティと事例の素性の集合との組を抽出する手段である。
【0018】
機械学習部13は,テンス-素性組抽出部12で抽出されたテンス・アスペクト・モダリティと素性の集合との組から,どのような素性のときに,どのようなテンス・アスペクト・モダリティになりやすいかを機械学習法により学習し,その学習結果を学習結果データベース14に保存する手段である。
【0019】
素性抽出部15は,入力された日本文3から素性の集合を抽出し,それらを変換先テンス・アスペクト・モダリティ推定処理部16へ渡す手段である。
【0020】
変換先テンス・アスペクト・モダリティ推定処理部16は,学習結果データベース14を参照して,渡された素性の集合の場合に,変換先の言語においてどのようなテンス・アスペクト・モダリティになりやすいかを推定し,日本文3の変換先のテンス・アスペクト・モダリティ4を出力する手段である。
【0021】
本発明の処理の流れの概略を説明する。図2は,図1に示すシステムの処理フローチャートである。
【0022】
図2に示す処理を開始する前に,テンス・アスペクト・モダリティ・データベース11を予め用意しておく。テンス・アスペクト・モダリティ・データベース11は,機械翻訳用の日英の対訳コーパスであり,日本語と英語の対訳データにテンス・アスペクト・モダリティの情報が付与されている。
【0023】
日英の対訳データに付与するテンス・アスペクト・モダリティの分類として,例えば以下のものを用いる。以下の分類は,対訳の英語文の動詞がどのような形になっているかによって定められる。
(1)各助動詞相当語句 (be able to, be going to, can, have to, had better, may, must, need, ought, shall, used to, will の12種類) がつくかどうかと,{現在形,過去形}と{進行形,進行形でない}と{完了,完了でない}のすべての組み合わせ(助動詞相当語句が複数つく場合も許している。) : 215種類
(2)命令形 (1種類)
(3)名詞句 (1種類)
(4)分詞構文 (1種類)
(5)動詞省略 (1種類)
(6)間投詞,挨拶文など (1種類)
(7)日本語と英語で動詞の対応がとれない場合 (1種類)
(8)作業不可 (1種類)
ただし,上記の分類のうち,「(3)名詞句」から「(8)作業不可」までの6つの分類はテンス・アスペクト・モダリティの分類としては扱う必要がないか,もしくはテンス・アスペクト・モダリティの翻訳を行なう必要がないと思われるので,本形態では省略している。
【0024】
また,これらの分類は,「英語の主節の動詞部分」と「日本語の主節の動詞に対応する英語の動詞部分」の二か所にふられる。しかし,日英翻訳において日本語のテンス・アスペクト・モダリティに対応するのは「英語の主節の動詞部分」であろうと考えられるので,本発明に係るテンス・アスペクト・モダリティ翻訳システム1では,日本文3を与えて変換先の「英語の主節の動詞部分」のテンス・アスペクト・モダリティの分類を推定し,推定結果であるテンス・アスペクト・モダリティ4を出力することとしている。
【0025】
ステップS1:まず,テンス-素性組抽出部12により,用意されたテンス・アスペクト・モダリティ・データベース11から,各事例ごとに,テンス・アスペクト・モダリティと事例の素性の集合との組を抽出する。
【0026】
テンス-素性組抽出部12では,素性の集合として,文字列素性,形態素素性,単語素性,構文的素性,一前文のテンス・アスペクト・モダリティの情報,英文対訳データの動詞部分など,種々の形式の素性のうち,所定の素性を抽出することができる。
【0027】
図3に抽出する素性の集合とテンス・アスペクト・モダリティの組を示す。図3に示すように,テンス-素性組抽出部12により,テンス・アスペクト・モダリティ・データベース11の事例「もう登録しました。」から,テンス・アスペクト・モダリティと,文字列素性「もう登録しました$」,「う登録しました$」,・・・,「た$」,単語素性「もう」,「登録」「し」「まし」「た」などの素性の集合との組を抽出する。なお,ここでは,抽出した文字列素性には入力された文全体の形態素列と区別できるように末尾に$をつけている。また,文末表現の正規化のため,句点などは消している。
【0028】
ステップS2:続いて,機械学習部13により,抽出されたテンス・アスペクト・モダリティと素性の集合との組から,どのような素性のときにどのようなテンス・アスペクト・モダリティになりやすいかを機械学習し,その学習結果を学習結果データベース14に保存する。
【0029】
機械学習では,例えば,所定の長さの文末の文字列素性,事例の全文の形態素素性,単語素性のうち,いくつかの素性を用いて処理を行ってもよい。
【0030】
機械学習の手法は,種々の形式の素性の集合を扱うことができるような機械学習法であればよく,例えば,以下に示すような決定リスト法,最大エントロピー法,サポートベクトルマシン法などを用いる。
【0031】
(1)決定リスト法
決定リスト法は,あらかじめ設定しておいた素性fj ( ∈F, 1≦j≦k)のうち,いずれか一つの素性のみを文脈として各分類の確率値を求めて,その確率値が最も大きい分類を求める分類とする方法である。
【0032】
ある文脈bで分類aを出力する確率は以下の式によって与えられる。
【0033】
p(a|b)=p(a|fmax ) (1)
ただし,fmax は以下の式によって与えられる。
【0034】
【数1】
JP0003870251B2_000002t.gif
【0035】
また,
【0036】
【数2】
JP0003870251B2_000003t.gif
【0037】
は,素性fj を文脈に持つ場合の分類ai の出現の割合である。
【0038】
具体的には,各素性ごとに,どのようなテンス・アスペクト・モダリティの分類になるのかの確率を求めておき,入力文のすべての素性のうち最大確率の素性の分類を用いてテンス・アスペクト・モダリティの分類を推定する。
【0039】
決定リスト法にもとづく分類は簡便ではあるが,ある一つの素性のみを文脈としてテンス・アスペクト・モダリティの分類の推定を行なうので,機械学習の手法としては少々貧弱なものとなっている。
【0040】
(2)最大エントロピー法
最大エントロピー法は,あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき,以下の式(3)を満足しながらエントロピーを意味する式(4)を最大にするときの確率分布p(a,b)を求め,その確率分布にしたがって求まる各分類の確率のうち,もっとも大きい確率値を持つ分類を求める分類とする方法である。
【0041】
【数3】
JP0003870251B2_000004t.gif
【0042】
ただし,A,Bは分類と文脈の集合を意味し,gj (a,b)は文脈bに素性fj があって,なおかつ分類がaの場合1となり,それ以外で0となる関数を意味する。また,
【0043】
【数4】
JP0003870251B2_000005t.gif
【0044】
は,既知データでの(a,b)の出現の割合を意味する。
【0045】
式(3) は確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており,右辺の既知データにおける期待値と,左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として,エントロピー最大化( 確率分布の平滑化) を行なって,出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については,以下の参考文献2および参考文献3を参照されたい。
[参考文献2]Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program,Madrid,,1997)
[参考文献3]Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta,(http://www.mnemonic.com/software/memt,1998)
本手法の利用は,もともと訳出対象となる入力データの素性と同一な素性が既知のコーパス中に多数存在することは稀であり,コーパスでの素性の出現確率をそのまま使用することはできないが,等価な状態は等価な確率を持つことを前提に確率分布を平滑化すれば,コーパスにおける素性出現の期待値を用いることができると考えられることによる。
【0046】
(3)サポートベクトルマシン法
サポートベクトルマシン法は,空間を超平面で分割することにより,2つの分類からなるデータを分類する手法である。
図4にサポートベクトルマシン法のマージン最大化の概念を示す。図4において,白丸は正例,黒丸は負例を意味し,実線は空間を分割する超平面を意味し,破線はマージン領域の境界を表す面を意味する。図4(A)は,正例と負例の間隔が狭い場合(スモールマージン)の概念図,図4(B)は,正例と負例の間隔が広い場合(ラージマージン)の概念図である。
【0047】
このとき,2 つの分類が正例と負例からなるものとすると,学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ,図4(B)に示すように,このマージンを最大にする超平面を求めそれを用いて分類を行なう。
【0048】
基本的には上記のとおりであるが,通常,学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や,超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。この拡張された方法は,以下の識別関数を用いて分類することと等価であり,その識別関数の出力値が正か負かによって二つの分類を判別することができる。
【0049】
【数5】
JP0003870251B2_000006t.gif
【0050】
ただし,xは識別したい事例の文脈(素性の集合) を,xi とyj (i=1,…,l,yj ∈{1,-1})は学習データの文脈と分類先を意味し,関数sgnは,
JP0003870251B2_000007t.gifであり,また,各αi は式(8)と式(9)の制約のもと式(7)を最大にする場合のものである。
【0051】
【数6】
JP0003870251B2_000008t.gif
【0052】
また,関数Kはカーネル関数と呼ばれ,様々なものが用いられるが,本形態では以下の多項式のものを用いる。
【0053】
K(x,y)=(x・y+1)d (10)
C,dは実験的に設定される定数である。後述する具体例ではCはすべての処理を通して1に固定した。また,dは,1と2の二種類を試している。ここで,αi >0となるxi は,サポートベクトルと呼ばれ,通常,式(5) の和をとっている部分はこの事例のみを用いて計算される。つまり,実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
【0054】
なお,拡張されたサポートベクトルマシン法の詳細については,以下の参考文献4および参考文献5を参照されたい。
[参考文献4]Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
[参考文献5]Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は,分類の数が2個のデータを扱うもので,通常これにペアワイズ手法を組み合わせて用いることで,分類の数が3個以上のデータを扱うことになる。
【0055】
ペアワイズ手法とは,N個の分類を持つデータの場合,異なる二つの分類先のあらゆるペア(N(N-1)/2個) を作り,各ペアごとにどちらがよいかを2 値分類器(ここではサポートベクトルマシン法によるもの)で求め,最終的にN(N-1)/2個の2値分類器の分類先の多数決により,分類先を求める方法である。
【0056】
本形態における2値分類器としてのサポートベクトルマシンは,サポートベクトルマシン法とペアワイズ手法を組み合わせることによって実現するものであり,以下の参考文献6により工藤氏が作成したTinySVMを利用している。
[参考文献6]工藤拓 松本裕治,Support vector machineを用いたchunk 同定, 自然言語処理研究会, 2000-NL-140,(2000)
具体的には,テンス・アスペクト・モダリティの各分類ごとに最大マージンの超平面を求めておく。そして,入力された未知の素性が,例えばテンスが現在(正例)であるか過去(負例)であるかなどについて,それぞれについて正例の領域と負例の領域のどちらに属するかを判定していき,その判定結果の多数決により,最終的にテンス・アスペクト・モダリティを推定する。
【0057】
ステップS3:テンス・アスペクト・モダリティを訳出したい日本文3が入力される。
【0058】
ステップS4:素性抽出部15では,テンス-素性組抽出部12での処理とほぼ同様に,入力された日本文3から素性の集合を取り出し,それらを変換先テンス・アスペクト・モダリティ推定処理部16へ渡す。
図5に,抽出した素性の集合の例を示す。入力された日本文「もう行きました。」から,文字列素性「もう行きました$」,「う行きました$」,・・・,「た$」および単語素性「もう」,「行き」,「まし」,「た」などが抽出される。
【0059】
ステップS5:変換先テンス・アスペクト・モダリティ推定処理部16では,学習結果データベース14をもとに,渡された素性の集合の場合にどのようなテンス・アスペクト・モダリティになりやすいかを特定し,特定したテンス・アスペクト・モダリティ4を出力する。例えば,「過去,完了」,「過去,完了,進行形」,「現在,shall 付」,「過去;be able to付」などのデータを出力する。
【0060】
入力された日本文「もう行きました。」の素性の集合について,学習結果データベース14に記憶された学習結果を使用すると「過去完了」でよいとわかるので,テンス・アスペクト・モダリティ4として「過去完了」を出力する。この場合に,従来のように単純に文末の文字列だけを用いて推定したときは,「ました$」の表現の一致からテンスが「現在完了」と推定されてしまう。しかし,本発明では,文字列以外に全文の単語素性のうちのいくつかの素性を用いて学習した結果を参照することにより「過去完了」と正しく推定できる。
【0061】
また,入力された日本文3が「昨日行きました」である場合には,同様に,従来の手法では「ました$」の表現の一致からテンスが「現在完了」と推定されてしまう。しかし,学習結果データベース14に「昨日登録しました。」にテンスが「過去」であるという学習結果が記憶されていれば,「昨日」という単語素性をもとに正しく「過去」と推定することができる。
【0062】
以上では,主に素性の集合として形態素素性と単語素性を用いた場合を例に説明したが,テンス-素性組抽出部12では,形態素素性や単語素性だけでなく,一前文(事例)のテンス・アスペクト・モダリティを素性として抽出してもよい。これは,テンス(時制)は継続しやすいという性質を利用するものである。すなわち,一前文に付与されたテンスが「現在」であれば,対象事例も「現在」で記述したほうがよいと学習するものである。特に論文の実験の記述で時制を統一する必要がある場合には有用である。
【0063】
また,テンス-素性組抽出部12では,事例の英文対訳データの該当する語句(動詞部分)などを素性として抽出してもよい。これは,訳出される英語文の構造がかわると用いるべきモダリティも変化する場合があることにもとづく。
【0064】
以下の事例で説明する。
JP0003870251B2_000009t.gif例えば,例文1の「送っている」のモダリティは「現在形」であるが,例文2の「送っている」のモダリティは「進行形」である。これらはほとんど意味の同じ文であり同じモダリティを持っていると考えてもよいものだが,訳出に用いる動詞を「live」と「lead」とかえただけでこのような違いが出てくる。
【0065】
なお,この場合に,入力される日本文3に仮訳された英文が付与されることになり,素性抽出部15では,日本文3に付与された英文の動詞部分が素性として抽出される。
【0066】
高品質な処理を行ないたい場合,このように,素性の取り出しの際に,日本語側だけでなく英文対訳データのうち機械翻訳システムの構造解析部が想定している英語側の構造(あるいは動詞) を取り出すということが,テンス・アスペクト・モダリティの翻訳の向上に有効である。
【0067】
以下,本発明を一実施例によりさらに詳細に説明する。
【0068】
〔テンス・アスペクト・モダリティ・データベース〕
図6に,実施例で用いるテンス・アスペクト・モダリティ・データベース11である対訳コーパスの一部を示す。この対訳コーパスは,例えば,以下の参考文献7にもとづいて作成する。
[参考文献7]村田真樹 内山将夫 内元清貴 馬青 井佐原均,機械学習を用いた機械翻訳用モダリティコーパスの修正,言語処理学会第7回年次大会,(2001)
図6中,英語側の文には以下の二か所のタグが付与されている。
・英語の主節の動詞部分を<v>,</v>のタグで囲む。
・日本語の主節の動詞に対応する英語の動詞部分を<vj>,</vj>のタグで囲む。
【0069】
また,日本語側の文の先頭に“c”や“d”といった記号がふられているが,これらはこの対訳データのテンス・アスペクト・モダリティを意味する。例えば,“c”はcanを,“d”は過去形を意味する。
【0070】
図6に示すコーパスの一つめのデータには“,”があるが,これは<vj>を用いるときに使われるもので,“,”の左に<v>で囲まれた動詞に対するテンス・アスペクト・モダリティが,右に<vj>で囲まれた動詞に対するテンス・アスペクト・モダリティが記述される。なお,このコーパスでは現在形の出現が多いのでその場合はタグをふらなかった。このため,“,”の左右が空欄となってこの部分には“,”だけが付与されている。
【0071】
また,「日本語に対応する英語の動詞部分」と「英語の主節の動詞部分」が一致する場合は「英語の主節の動詞部分」のタグのみ付与した。また,「日本語に対応する英語の動詞部分」の方はそれほど綿密にタグ付与は行なっておらず,「日本語に対応する英語の動詞部分」と「英語の主節の動詞部分」が一致しない場合にもタグ付与をしなかった場合もある。
【0072】
日英の対訳データに付与するテンス・アスペクト・モダリティの分類として,前述した分類のうち,以下の(1)および(2)を用いた。
(1)各助動詞相当語句 (be able to, be going to, can, have to, had better, may, must, need, ought, shall, used to, will の12種類) がつくかどうかと,{現在形,過去形}と{進行形,進行形でない}と{完了,完了でない}のすべての組み合わせ(助動詞相当語句が複数つく場合も許している。) : 215種類
(2)命令形 (1種類)
本発明に係るシステムで扱うテンス・アスペクト・モダリティの分類は英語の表層表現に基づいて定めたものであり,日本語文だけを与えてこの分類を推定できれば,モダリティ表現の日英翻訳ができあがる。このため,本例では,原則として,テンス・アスペクト・モダリティの分類を示すタグと日本語文のみを用いている。また,前述したように,これらの分類は,「英語の主節の動詞部分」と「日本語の主節の動詞に対応する英語の動詞部分」の二か所にふられるが,日本文3を与えて「英語の主節の動詞部分」のテンス・アスペクト・モダリティの分類を推定することを問題設定としている。
【0073】
本例では,テンス・アスペクト・モダリティ・データベース11として,以下の二種類の対訳コーパスを用いた。
・K社和英辞典の例文 (事例総数は39,660個,分類の総数は46個)
・白書データ (事例総数は5,805 個,分類の総数は30個)
これらのコーパスは,人手により確認しながらタグづけを行ない,さらに参考文献7および以下の参考文献8に示すコーパス修正の方法を利用して作成しており,非常に高精度なものとなっている。
[参考文献8]村田真樹 内山将夫 内元清貴 馬青 井佐原均,決定リスト,用例ベース手法を用いたコーパス誤り検出・誤り訂正,自然言語処理研究会,2000-NL-136(2000)
【0074】
〔抽出する素性〕
本例では,日本文3の入力を与えられたときにテンス・アスペクト・モダリティ4として分類を出力する。このため,素性は入力される日本文3から取り出すことになる。ここでは,素性集合として以下の三種類のものに対して処理を行った。
(1)素性集合F1
日本語文末の1~10gramの文字列と入力された文全体の形態素列を素性の集合とする。
例:「ない$」「しなかった$」「今日」「は」「走る」
この場合に,素性の数は,K社データで230,134個,白書データで25,958個となる。
(2) 素性集合F2
日本語文末の1~10gramの文字列を素性の集合とする。
例:「ない$」「しなかった$」
この場合に,素性の数は,K社データで199,199個,白書データで16,610個となる。
(3)素性集合F3
入力された文全体の形態素列を素性の集合とする。
例:「今日」「は」「走る」
この場合に,素性の数は,K社データで30,935個,白書データで9,348個となる。
【0075】
入力された文を形態素列に分解するのには,JUMANを用いた。JUMANの詳細な説明については,以下の参考文献9に記載されている。
[参考文献9]黒橋禎夫 長尾真,日本語形態素解析システムJUMAN使用説明書,version 3.6 (京都大学大学院工学研究科,1998)
素性集合F1は,素性集合F2と素性集合F3との組合わせである。
素性集合F2は,上記の参考文献1の研究を参考にして作成したものであり,日本語文においてテンス・アスペクト・モダリティを示す表現は文末の動詞にあらわれることが多いことから,日本語文の文末の文字列を素性としている。
素性集合F3は,「明日」「昨日」などの副詞もテンス・アスペクト・モダリティを示す表現であり,用いるべきだと考えて作成したもので,入力された文全体の形態素列とするものである。
〔機械学習によるテンス・アスペクト・モダリティの分類〕
本例では,機械学習の手法として,決定リスト法,最大エントロピー法,サポートベクトルマシン法を用いた。さらに,本発明に係るシステムで用いる機械学習法と従来の手法との処理結果の比較のためにk近傍法を用いた処理も行った。
【0076】
k近傍法は,素性集合だけでなく事例同士の類似度を定義する必要がある。しかし,本例では素性集合F1と素性集合F3は入力された文全体の形態素列をも素性の集合とするので,類似度の定義が困難である。そのため,k近傍法では素性集合F2だけを用いることにする。素性集合F2での類似度の定義としては,事例間で一致した文字列の最長がx-gramのとき,類似度をxとすることにした。
【0077】
なお,他の機械学習の手法としては,他にC4.5などの決定木学習を利用する方法があるが,本例では,種々の問題で決定木学習手法が他の手法に比べて劣っていること,また,本例で扱う問題は属性の種類の数が多くC4.5が実行できるまで属性の数を減らすと精度が落ちるであろうことの二つの理由により用いていない。
【0078】
〔第1の例〕
まず,K社和英辞典の例文のデータを用いた処理を行なった。その処理結果の精度を図7に示す。本例では,クローズとオープンの二種類の処理を行なった。オープンの実験は10分割のクロスバリデーションで行なった。図7の括弧内の数字はクローズでの精度を意味する。
【0079】
この処理結果から以下のことがわかる。
・決定リスト法は素性集合F2を用いるときに,k近傍法と同程度の精度を得ている。
・最大エントロピー法は,k近傍法または決定リスト法に比べて高い精度を得ている。
・サポートベクトルマシン法は,常に他の手法に比べて高い精度をあげている。・素性集合の比較としては,最大エントロピー法および決定リスト法では,素性集合F2が最も精度が高く,素性集合F1のように形態素の情報を追加すると逆に精度が下がる結果となっている。これは,素性が増えても不要な素性も増えるために精度が低下したものと思われる。
・サポートベクトルマシン法での素性集合の比較では,素性集合F1で最も高い精度をあげている。これは,サポートベクトルマシン法では形態素の情報の追加が効果があったことを意味する。他の手法では形態素の情報の追加では逆に精度が下がったので,サポートベクトルマシン法では不要な素性を除去し有用な素性を選択する素性選択の能力も他の手法に比べて高いと推測される。
【0080】
この結果に対し,手法の理論的な側面からは以下のような説明をつけることができる。
・決定リスト手法は,ある一つの素性のみから解を求める方法のため,不要な素性が多い場合その不要な素性のみを文脈として解を求めてしまいがちになり,不要な素性が多い場合精度が低下する。
・最大エントロピー法は,常にほとんどすべての素性を用いるので,不要な素性が多い場合には精度が低下する。
・これらに対し,サポートベクトルマシン法では,サポートベクトルとなる事例のみを用いそれ以外の事例を用いないといった事例を捨てる操作があるため,多くの不要な素性をこの事例とともに捨てることになり,不要な素性が多くてもそれほど精度低下を招かない傾向がある。
【0081】
以上のように,全手法通じて最も精度が高かったのは,d=1, 素性集合F1のときのサポートベクトルマシン法であった。
【0082】
上記の結果のうち,サポートベクトルマシン法において,素性集合F1を用いる方が素性集合F2を用いるよりも良かった,すなわち,形態素の情報の追加が効果があった,という結果が有意なことなのかを調べるために符合検定を行なった。これは,d=1の方が精度がよかったのでd=1で行なった。全事例39,660個のうち,素性集合F1で正しく素性集合F2で誤った事例は648個であり,素性集合F2で正しく素性集合F1で誤った事例は427個であったが,これを符合検定にかけると0.00000001%(計算では8桁で切っていたため,実際の値はこの値よりももっと小さい可能性がある。)以下の危険率で有意な差があると判定された。このことにより,サポートベクトルマシン法において,形態素の情報を追加する効果があったことは,ほぼ間違いないと考えてよい。
【0083】
次に形態素の情報といっても,実際にどのような素性が有効に働いているかを調べることにした。これは,素性集合F1で正しく素性集合F2で誤った事例は,648個に偏って出現している素性を調べることによって行なうことにした。ここでは二項検定を利用して,全事例39,660個での出現確率よりも有意水準1%で大きいと判断されたものを偏って出現しているものとした。
【0084】
この有効に働いたと思われる形態素素性の頻度の大きいもの上位20個を図8に示す。図8では,「もう」「最近」「だろう」「まだ」「なければ」「ましょう」「あす」など,テンス・アスペクト・モダリティの推定に役立ちそうな形態素素性が得られており,実際にこういった素性によって精度が向上したものと推測される。
【0085】
〔第2の例〕
次に白書データを用いて処理を行った。この場合には,精度の良かったサポートベクトルマシン法を用いて行なった。本例でも10分割のクロスバリデーションを行なうことでオープンでの精度を求めている。処理結果の精度を図9に示す。
【0086】
この処理結果より以下のことがわかる。
・白書データの精度は,最大で64.67%であった。
・白書データでも文末文字列のみを用いる素性集合F2よりも一文全体の形態素情報も加えて用いる素性集合F1の方が高い精度を得ている。また,白書データでは素性集合F2よりも,一文全体の形態素情報を用いる素性集合F3の方が精度が高い。これらの結果はさらに,一文全体の形態素情報の素性としての有効性を確かめるものとなっている。
【0087】
〔第3の例〕
次に,K社データを学習データとして,白書データをテストデータとしたような場合,すなわち異分野のデータを教師データとした処理を行なった。本例により,異なる分野のデータを用いると精度がどのようにかわるのかを調べることができた。この処理では精度の良かったd=1およびd=2のデータを対象として, 素性集合F1のサポートベクトルマシン法を用いて行なった。この処理でも学習データとテストデータが重なる場合は重なった部分において10分割のクロスバリデーションを行なうことでオープンでの精度を求めている。処理結果の精度を図10に示す。
【0088】
この処理結果により以下のことがわかる。
・異なる分野のデータを用いると精度が非常に下がった。( 白書データを学習データとしてK社データを解析したり,K社データを学習データとして白書データを解析したりすると,精度は10%~20%程度に落ちた。) このことから,入力されるデータと同分野の学習データを用いることが有効であることがわかる。
【0089】
人手で書いた規則を用いる手法では異分野に適応したシステムを作るのが難しい。これに対して本発明のような機械学習を用いる方法であれば,学習データをかえて学習し直すことにより,分野ごとに適応したシステムを作るのが容易となる。
・K社と白書の両方を学習データとして用いた場合は,精度はほとんどかわらないか,もしくは少し下がる程度であった。このことから,学習データは多ければよいというものではなく,異分野のデータの場合は,混在させて学習データを用いてもそれほど効果がないことがわかる。
【0090】
本例において,テンス・アスペクト・モダリティの翻訳の処理を,k近傍法も含めて様々な機械学習手法を用いて行なった。また検証のため,機械学習法のうちどの方法がもっともよいかを調べた。
【0091】
従来の手法(参考文献1等)では,テンス・アスペクト・モダリティの翻訳の際に,素性として文末の文字列しか用いていなかった。本発明では文末の文字列以外にその一文中の形態素情報を追加して用いた。
【0092】
その結果,従来では用いていなかった一文中の形態素情報の利用が,処理精度を向上させる効果があることを検定を用いて確認した。
【0093】
また,機械学習手法として,決定リスト法,最大エントロピー法,またはサポートベクトルマシン法のいずれか一の手法を用いても,従来のk近傍法よりも高い精度でテンス・アスペクト・モダリティの翻訳を行なうことができた。
【0094】
特に,サポートベクトルマシン法による方法が最も高い精度を得て,従来手法のk近傍法による手法よりも高い精度で,テンス・アスペクト・モダリティの翻訳を行なうことができた。
【0095】
また,異なる分野( 本例では,K社英和辞典データと白書データ) のコーパスを用いた処理の例を行なった。この処理では,異なる分野のデータを用いると精度が格段に落ちることを確認し,異なる分野ごとにテンス・アスペクト・モダリティの翻訳システムを構築する必要があることを確認した。このことは,異分野に適応するシステムを人手で作成することが困難であることを考えれば,機械学習手法を用いる本発明の有用性を示すことになる。
【0096】
以上,本発明をその実施の態様により説明したが,本発明はその主旨の範囲において種々の変形が可能である。例えば,本発明の実施の形態では,本発明に係るテンス・アスペクト・モダリティ翻訳システム1は独立して構成されるものとして説明してきたが,他の機械翻訳システムの一部として構成されることも可能である。
【0097】
また,機械学習部13で用いる機械学習法は,決定リスト法,最大エントロピー法,サポートベクトルマシン法に限らず,異なる形式の素性を組み合わせて扱うことができる方法であればどのような手法であってもよく,また,テンス-素性組抽出部12または素性抽出部15で抽出する素性は,対象となる事例もしくは入力文から抽出可能な素性であれば種類は限定されないことは当然である。
【0098】
【発明の効果】
以上説明したように,本発明は以下のような格別の効果を奏する。
・本発明では,テンス・アスペクト・モダリティの翻訳の問題で,サポートベクトルマシン法に代表される,複数の形式の解析情報(素性)を取り扱うことができるような機械学習アルゴリズムを用いる。これにより,従来の類似度を用いるk近傍法よりも高い精度でテンス・アスペクト・モダリティの翻訳を行なうことができる,テンス・アスペクト・モダリティ翻訳処理装置を提供することができる。
・本発明では,テンス・アスペクト・モダリティの翻訳の際に,文末の文字列以外にその一文中の形態素情報を新たに追加して用いている。これにより,素性として文末の文字列しか用いていなかった従来の手法に比べて精度の高い翻訳を行うことができる。
・本発明では,機械学習部13で用いるテンス・アスペクト・モダリティと素性の集合の組を抽出するテンス・アスペクト・モダリティ・データベースとして,種々の分野のコーパスを利用することができ,さらにそのコーパスにもとづいて人手によらずに学習結果を取得することができる。これにより,異分野ごとに適応するテンス・アスペクト・モダリティ翻訳処理装置を容易に実現することができる。
【図面の簡単な説明】
【図1】本発明にかかるシステムの構成例を示す図である。
【図2】本発明にかかるシステムの処理フローチャートである。
【図3】テンス・アスペクト・モダリティと素性の集合の組の例を示す図である。
【図4】サポートベクトルマシン法におけるマージン最大化を説明するための図である。
【図5】入力文からの素性の集合の抽出の例を示す図である。
【図6】実施例におけるテンス・アスペクト・モダリティ・データベースの一部の例を示す図である。
【図7】第1の例におけるテンス・アスペクト・モダリティの翻訳の精度を比較するための図である。
【図8】有効に働いたと思われる形態素素性の例を示す図である。
【図9】第2の例におけるテンス・アスペクト・モダリティの翻訳処理の精度を比較するための図である。
【図10】第3の例におけるテンス・アスペクト・モダリティの翻訳処理の精度を比較するための図である。
【符号の説明】
1 テンス・アスペクト・モダリティ翻訳システム
11 テンス・アスペクト・モダリティ・データベース
12 テンス-素性組抽出部
13 機械学習部
14 学習結果データベース
15 素性抽出部
16 変換先テンス・アスペクト・モダリティ推定処理部
Drawing
(In Japanese)【図1】
0
(In Japanese)【図2】
1
(In Japanese)【図3】
2
(In Japanese)【図4】
3
(In Japanese)【図5】
4
(In Japanese)【図6】
5
(In Japanese)【図7】
6
(In Japanese)【図8】
7
(In Japanese)【図9】
8
(In Japanese)【図10】
9