TOP > 国内特許検索 > データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置 > 明細書

明細書 :データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第3388393号 (P3388393)
公開番号 特開2001-067357 (P2001-067357A)
登録日 平成15年1月17日(2003.1.17)
発行日 平成15年3月17日(2003.3.17)
公開日 平成13年3月16日(2001.3.16)
発明の名称または考案の名称 データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置
国際特許分類 G06F 17/27      
FI G06F 17/27 M
請求項の数または発明の数 2
全頁数 7
出願番号 特願平11-238579 (P1999-238579)
出願日 平成11年8月25日(1999.8.25)
新規性喪失の例外の表示 特許法第30条第1項適用申請有り 村田真樹・馬青・内元清貴・井佐原均「用例ベースによるモダリティの日英翻訳」情報処理学会研究報告99-NL-130-16,Vol.99,No.22,p.121-p.128(1999.03.05)
審査請求日 平成11年8月25日(1999.8.25)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人通信総合研究所
発明者または考案者 【氏名】村田 真樹
【氏名】内元 清貴
【氏名】馬 青
【氏名】井佐原 均
個別代理人の代理人 【識別番号】100082669、【弁理士】、【氏名又は名称】福田 賢三 (外2名)
審査官 【審査官】和田 財太
参考文献・文献 特開 平6-309352(JP,A)
調査した分野 G06F 17/21 - 17/28
特許請求の範囲 【請求項1】
第一の言語から第二の言語へのデータベースを利用した翻訳装置で、第一の言語に属する複数の用例と第二の言語に属する複数の用例からなり且つ個々の第一の言語に属する用例は、第二の言語に属する用例との間に少なくとも一つ以上の対応付があり、テンス、アスペクトあるいはモダリティ情報が付加されたことを特徴とする第一のデータベースを備え、
第一の言語に属する第一の用例と、第一のデータベースの第一の言語に属する第二の用例との間の文末からみて連続する共通の文字列の数を用いて第一のデータベースの第一の言語に属する第二の用例との間の類似性を評価した値を導く手段を備え、
前記の手段は、(1)該類似性を評価した値が高いほど類似性が高いとしてその類似性の高い順で、第一の言語に属する第一の用例に対する第一の言語に属する第二の用例群を第一のデータベースから予め決められた数だけ選択するという第一の方法で選択し、(2)第一の言語に属する用例の、第二の言語に属する用例への対応から、第二の言語に属する第一の用例群を第一のデータベースから選択し、(3)この選択された第二の言語に属する第一の用例群を代表するテンス、アスペクトあるいはモダリティについて、そのテンス、アスペクトあるいはモダリティを個々の用例のテンス、アスペクトあるいはモダリティの多数決で決定するという第二の方法で決定し、(4)この決定されたテンス、アスペクトあるいはモダリティを、第一の言語に属する第二の用例の翻訳のテンス、アスペクトあるいはモダリティとして用いる、という構成を備えることを特徴とする、データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置。

【請求項2】
第一の言語から第二の言語へのデータベースを利用した翻訳装置で、第一の言語に属する複数の用例と第二の言語に属する複数の用例からなり且つ個々の第一の言語に属する用例は、第二の言語に属する用例との間に少なくとも一つ以上の対応付があり、テンス、アスペクトあるいはモダリティ情報が付加されたことを特徴とする第一のデータベースを備え、
第一の言語に属する第一の用例と、形態素解析を行なって形態素を認識し、各形態素についてシソーラスの分類番号を付して、シソーラスの分類番号による構成に変換された該第一の言語に属する第一の用例と、同様に変換された第一のデータベース内の第一の言語に属する第二の用例との間の、文末からみて連続する共通の文字列の数を用いることを特徴とする第一の言語に属する第二の用例との間の類似性を評価した値を導く手段を備え、
前記の手段は、(1)該類似性を評価した値が高いほど類似性が高いとしてその類似性の高い順で、第一の言語に属する第一の用例に対する第一の言語に属する第二の用例群を第一のデータベースから予め決められた数だけ選択するという第一の方法で選択し、(2)第一の言語に属する用例の、第二の言語に属する用例への対応から、第二の言語に属する第一の用例群を第一のデータベースから選択し、(3)この選択された第二の言語に属する第一の用例群を代表するテンス、アスペクトあるいはモダリティについて、そのテンス、アスペクトあるいはモダリティを個々の用例のテンス、アスペクトあるいはモダリティの多数決で決定するという第二の方法で決定し、(4)この決定されたテンス、アスペクトあるいはモダリティを、第一の言語に属する第二の用例の翻訳のテンス、アスペクトあるいはモダリティとして用いる構成を備えることを特徴とする、データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置。
発明の詳細な説明 【発明の詳細な説明】

【0001】

【発明の属する技術分野】この発明は、データベースを利用した翻訳装置に関するものである。特に、時制などが文末に表現される言語、例えば日本語、から他の言語、例えば英語、に翻訳する際に問題となる文末表現のテンス(時制)、アスペクト(相)あるいはモダリティ(様相)を翻訳する時に用いる。

【0002】

【従来の技術】従来の技術の例を、データベースを用いた翻訳装置における翻訳方法の従来例を第一の従来技術に、用例を基にしたデータベースを用いた翻訳装置での翻訳方法の従来例を第二の従来技術に、用例間の類似性を見る方法として文末から数えた一致文字列の数を用いた従来例を第三の従来技術として以下に示す。

【0003】
まず、データベースを用いた翻訳装置の翻訳方法の第一の従来技術を図2のフローチャートに示す。図2のフローチャートでは、次の四段階の手続を示している。

【0004】
従来の文末表現の日英翻訳は、人手で作成した規則によってなされてきた。このため、まず、次の作業を行う必要があった。

【0005】
1)解析以前に予め、人手による規則集の作成をする。例えば、連用形+動詞「いる」ならば、アスペクトが「進行相」となる。このような規則を、他の組み合わせに対しても作成し、規則集を作成する。また、テンス(時制)、アスペクト(相)あるいはモダリティ(様相)についても、その規則集を作成する。この様な人手により規則集を作成する場合は、規則の不備が残ってしまい、常にメンテナンスを続けて洗練化する必要がある。

【0006】
次に解析作業として、
2)解析における手続1入力文の翻訳のための入力文の形態素解析や構文解析を行う。例えば「希望をいだいている。」が入力文の場合は、下記のような結果を得る。希望 <名詞>を <助詞>いだいて <動詞><連用形>いる <動詞>

【0007】
ここで、形態素解析部や構文解析部を変更すると、上記の規則集にも影響があり、適切な翻訳を維持するためには、上記の規則集にも変更すべき点が発生してしまう。

【0008】
3)解析における手続2形態素解析や構文解析の結果と、規則を照合して、テンス(時制)、アスペクト(相)あるいはモダリティ(様相)を確定する。上記の場合、文末表現が、<連用形>+動詞「いる」の形になっているので、予め作成した規則により、「進行相」と確定される。

【0009】
続いて、次の様に文全体を構成するため、合成作業を行う。
4)解析における手続3テンス、アスペクトあるいはモダリティの翻訳以外の部分は、従来の既によく知られた翻訳方法のどの方法を用いてもよく、それらのどれかを用いて翻訳し、テンス、アスペクトあるいはモダリティの翻訳は、上記の方法により翻訳し、これらを合成することにより、文全体の翻訳を完成する。

【0010】
ここで示した人手で作成した規則によって翻訳する方法では、規則のメンテナンスに多大な人的資源を投入する必要性があるという欠点がある。

【0011】
次に用例を基にしたデータベースを用いた翻訳装置での翻訳方法の先行例である第二の従来技術を示す。

【0012】
本発明の方法でも、用例を集めたデータベースを利用しており、用例ベース手法に分類される。この用例を基にした手法を日英翻訳に利用した従来例としては、報告書(EiichiroSumita、 Hitoshi Iida、 and Hideo Kohyama、 Translating examples:A new approach tomachine translation、The third International Conference onTheoretical and MethodologicalIssuesin Machine Translation of Natural Language、 No.3、 (TMI、1990)、pp.203-212)がある。ただし、この技術は課題が「AのB」であって、「AのB」の日英翻訳では名詞Aと名詞Bの意味情報を複雑に組み合わせて利用していた。この研究と本発明とは以下の点で異なっている。

【0013】
1)請求項1の第一のデータベースに相当する用いるデータベースの構成、
2)用例間の類似性を評価する方法、
3)ひとつの用例の中で注目する位置。

【0014】
最後に、第三の従来技術として、用例間の類似性を見る方法として文末から数えた一致文字列の数を用いた従来例を示す。

【0015】
本発明でも、文末から数えた一致文字列の数を、類似性を評価した値(類似度)として用いているが、この方法自体には従来例がある。文末の省略表現の補完を行なう研究(村田真樹、長尾真、日本語文章における表層表現と用例を用いた動詞の省略の補完、言語処理学会誌、Vol.5、No.1、(1998))があり、文末一致文字列の文字数を類似度とする用例ベース利用を利用して行っている。

【0016】
この従来例と本発明とは、以下の点において異なっている。
1)従来例では、対象とする問題が省略表現の補完であり、本発明の様に、異なる言語間の翻訳ではない。
2)請求項1の第一のデータベースに相当する用いるデータベースの構成が言語及び項目において相異している。

【0017】
以上の従来技術は、本発明の方法とは部分的に一致しているに過ぎず、これらの先行技術を単に組み合わせても、本発明の翻訳方法を容易に思いつくものではない事は明らかである。

【0018】

【発明が解決しようとする課題】従来のデータベースを利用した翻訳装置における翻訳方法では、従来の文末表現の翻訳は、人手で作成した規則によってなされてきた。しかし、人手で作成した規則によって翻訳する方法では、翻訳精度を向上させるために行う規則のメンテナンスに多大な人的資源を投入する必要性があるという欠点があった。

【0019】
本発明は上記に鑑み提案されたもので、人手による規則集の作成をする必要が無くデータベースを利用した翻訳の知識が無くても翻訳精度の向上を図ることができるデータベースを利用した翻訳装置を提供することを目的とする。

【0020】

【課題を解決するための手段】上記目的を達成するために本発明で用いる手段を、フローチャートで説明すると図1の様になる。また、以下に本発明のよる方法を簡潔に記述する。

【0021】
1)解析以前に予め、第一の言語の用例と、それに対応する第二の言語の用例を集めたデータベースを作成する。また、この際に第二の言語の用例のテンス、アスペクトあるいはモダリティの分類を付与する。この付与は、人手で行っても良いし、既によく知られている形態素および構文解析システムを補助として用いることも出来る。

【0022】
2)解析における手続1入力文の翻訳のための検索で、文末からの一致文字列が最も長い用例を、上記のデータベースから検索する。検索方法は、よく知られた2分検索の方法を使うことが出来る。

【0023】
3)解析における手続2翻訳の確定で、手続1から取り出した用例の英訳側の動詞部分のテンス、アスペクトあるいはモダリティの分類を、入力文のテンス、アスペクトあるいはモダリティと確定する。

【0024】
4)解析における手続3翻訳文の構成方法で、テンス、アスペクトあるいはモダリティの翻訳以外の部分は、従来の翻訳方法のどの方法を用いてもよく、それらのどれかを用いて翻訳し、テンス、アスペクトあるいはモダリティの翻訳は、上記の方法により翻訳し、これらを合成することにより、文全体の翻訳を完成する。

【0025】
従って、上記目的を達成するために、請求項1に記載の発明は、第一の言語から第二の言語へのデータベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置で、第一の言語に属する複数の用例と第二の言語に属する複数の用例からなり且つ個々の第一の言語に属する用例は、第二の言語に属する用例との間に少なくとも一つ以上の対応付があり、テンス、アスペクトあるいはモダリティ情報が付加されたことを特徴とする第一のデータベースを備え、第一の言語に属する第一の用例と、第一のデータベースの第一の言語に属する第二の用例との間の文末からみて連続する共通の文字列の数を用いて第一のデータベースの第一の言語に属する第二の用例との間の類似性を評価した値を導く手段を備え、前記の手段は、(1)該類似性を評価したが高いほど類似性が高いとしてその類似性の高い順で、第一の言語に属する第一の用例に対する第一の言語に属する第二の用例群を第一のデータベースから予め決められた数だけ選択するという第一の方法で選択し、(2)第一の言語に属する用例の、第二の言語に属する用例への対応から、第二の言語に属する第一の用例群を第一のデータベースから選択し、(3)この選択された第二の言語に属する第一の用例群を代表するテンス、アスペクトあるいはモダリティについて、そのテンス、アスペクトあるいはモダリティを個々の用例のテンス、アスペクトあるいはモダリティの多数決で決定するという第二の方法で決定し、(4)この決定されたテンス、アスペクトあるいはモダリティを、第一の言語に属する第二の用例の翻訳のテンス、アスペクトあるいはモダリティとして用いる、という構成を備えることを特徴としており、用例を基にした方法でテンス、アスペクトあるいはモダリティを適切に翻訳するものを提案している。

【0026】
また、請求項2に記載の発明は、データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置であり、その類似性を評価する構成の特徴は、形態素解析を行なって形態素を認識し、各形態素についてシソーラスの分類番号を付して、シソーラスの分類番号による構成に変換された該第一の言語に属する第一の用例と、同様に変換された第一のデータベース内の第一の言語に属する第二の用例との間に、文末からみて連続する共通の文字列の数を用いることを特徴とする、第一の言語に属する第二の用例との間の類似性を評価した値を導く手段を備えている。
【0027】
【発明の実施の形態】以下にこの発明の実施の形態を詳細に説明する。先ず第1の実施形態を、表1を用いて説明する。
【0028】今「彼は私の知り合いだ」の時制を翻訳することを考える。このとき日英の翻訳対を大量に集めたデータベースに対して「彼は私の知り合いだ」と文末からの文字列一致が多い用例を上位から10個集めたものが表1のものだったとする。
【0029】
【表1】
JP0003388393B2_000002t.gif【0030】表の類似度は文末からの一致文字列の数を示している。また、ここでk近傍法を用いる。k近傍法とは1個の最も類似した用例を用いるかわりに、類似度の上位から順に取り出したk個の用例の多数決により求める方法である。
【0031】類似度が等しい用例がある場合はkの値に関わらず類似度が等しい用例はすべて用いて多数決を行なう必要がある。さらに、ここでは処理の簡単のため、用例は多くても10個しか調べないこととする。
【0032】また、上記の表1のうち、分類の欄は英語文の該当する動詞句より求まるものであるがこの部分はよく知られた処理プログラムを用いて自動で行なっても良いし、データベースを作成する際に人手であらかじめ分類を記入しておいてもよい。
【0033】まず、k=1の場合を考える。このとき最も類似度の大きい1個の用例を用いて解析するわけだが、ここでは1番と2番が同じ類似度のため、1と2番の用例を用いて解析を行なう。これで多数決を行なうと分類は「現在完了」が1、「現在」が1と意見がわかれ、意見がわかれたときには先にあがった分類を解とすると決めておくと、解は先に上がった「現在完了」となり、不正解となる。
【0034】次に、k=3の場合を考える。このとき最も類似度の大きい3個を選ぶわけだが、3番の用例以降はすべて類似度が等しいので、10個すべての用例を用いることになる。これで多数決を行なうと分類は「現在完了」が2、「現在」が8と意見は分かれるが、数の大きい「現在」となり、これは正解の「現在」と一致し正解となる。
【0035】次に、k=5、7、9の場合も同様に10個の用例すべてが用いられ解は「現在」となり、これも正解となる。
【0036】この問題ではシステムは、k=1のとき、誤った解を出力し、k=3、5、7、9のときに正しい解を出力するということになる。kの値については装置を実際に作成する時に適切なものを選択するとよい。この方法によるkの値は通常、多数決の都合上、奇数が望ましく、さらに3あるいは5で充分な場合が多い。データベースの用例が増えるに従って、より小さいkの値を用いる事ができる。
【0037】次に第2の実施形態を、表2を用いて説明する。今「彼は私の知り合いだ」の時制を翻訳することを考える。このとき日英の翻訳対を大量に集めたデータベースに対して「彼は私の知り合いだ」と文末からの文字列一致が多い用例を上位から10個集めたものが次の表2のものだったとする。
【0038】
【表2】
JP0003388393B2_000003t.gif【0039】表2の類似度は、入力文の形態素解析を行なって形態素を認識し、各形態素についてシソーラスの分類番号を付して、シソーラスの分類番号による構成に変換された入力文を用意し、また日英の翻訳対を大量に集めたデータベースに対しても同様な変換を行ったものを用意し、これらの変換された後の文について、文末からみて連続する共通の文字列の数を示している。
【0040】解析は、第1の実施形態と同じくk近傍法を用いることにする。
【0041】まず、k=1の場合を考える。このとき最も類似度の大きい1番の用例だけを用いて解析を行なう。1番の用例は分類が「現在完了」なので正解の分類「現在」と異なり、不正解となる。
【0042】次に、k=3の場合を考える。このとき最も類似度の大きい3個を選ぶわけだが、3番の用例と4番の用例の類似度が等しいので、4番の用例までの四つの用例を用いることになる。これで多数決を行なうと分類は「現在完了」が2、「現在」が2と意見がわかれ、解は先に上がった「現在完了」となり、これもまた不正解となる。
【0043】次に、k=5の場合を考える。このとき最も類似度の大きい5個を選ぶわけだが、5番の用例以降はすべて類似度が等しいので、10個すべての用例を用いることになる。これで多数決を行なうと分類は「現在完了」が2、「現在」が8と意見はわかれるが、数の大きい「現在」となり、これは正解の「現在」と一致し正解となる。
【0044】次に、k=7、9の場合も同様に10個の用例すべてが用いられ解は「現在」となり、これも正解となる。
【0045】この問題ではシステムは、k=1、3のとき、誤った解を出力し、k=5、7、9のときに正しい解を出力するということになる。kの値については装置を実際に作成する時に適切なものを選択するとよい。この方法によるkの値は通常、多数決の都合上、奇数が望ましく、さらに7あるいは9で充分な場合が多い。この場合も、データベースの用例が増えるに従って、より小さいkの値を用いる事ができる。
【0046】上記の実施形態に示されるように、本発明の方法では、用例を集めたデータベースを整備して行くことによって翻訳精度の向上を図ることができ、従って、人手による規則集の作成をする必要が無くメンテナンスが容易であり、また、データベースを利用した翻訳の知識が無くても翻訳精度の向上を図ることができる。
【0047】
【発明の効果】この発明は上記した構成からなるので、以下に説明するような効果を奏することができる。
【0048】請求項1に記載の発明では、用例を基にした翻訳が可能となり、人手による規則集の作成をする必要が無くメンテナンスが容易であり、また、文末からみて、連続する共通の文字列の数であることとすることにより、簡単に類似性を評価することが出来、データベースを利用した翻訳の知識が無くても翻訳精度の向上を図ることができるようになった。
【0049】さらに、請求項2に記載の発明では、意味上の類似性を用いて類似性を評価することが出来るようになり、意味上からも適切な翻訳ができるようになった。
図面
【図1】
0
【図2】
1