TOP > 国内特許検索 > データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置

データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置 コモンズ

国内特許コード P140010684
整理番号 99-21
掲載日 2014年7月2日
出願番号 特願平11-238579
公開番号 特開2001-067357
登録番号 特許第3388393号
出願日 平成11年8月25日(1999.8.25)
公開日 平成13年3月16日(2001.3.16)
登録日 平成15年1月17日(2003.1.17)
発明者
  • 村田 真樹
  • 内元 清貴
  • 馬 青
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置 コモンズ
発明の概要 【課題】 人手による規則集の作成をする必要が無くデータベースを利用した翻訳の知識が無くても翻訳精度の向上を図ることができるデータベースを利用した翻訳装置における翻訳方法を提供することを目的とする。
【解決手段】 翻訳例を集めたデータベースを用意し、入力文に最も類似している用例を探して、そのテンス(時制)、アスペクト(相)、モダリティ(様相)を、入力文の翻訳に適用することによって、適切に翻訳する。類似度は、文字列の文末からの一致数で見る。
従来技術、競合技術の概要



従来の技術の例を、データベースを用いた翻訳装置における翻訳方法の従来例を第一の従来技術に、用例を基にしたデータベースを用いた翻訳装置での翻訳方法の従来例を第二の従来技術に、用例間の類似性を見る方法として文末から数えた一致文字列の数を用いた従来例を第三の従来技術として以下に示す。

まず、データベースを用いた翻訳装置の翻訳方法の第一の従来技術を図2のフローチャートに示す。図2のフローチャートでは、次の四段階の手続を示している。

従来の文末表現の日英翻訳は、人手で作成した規則によってなされてきた。このため、まず、次の作業を行う必要があった。

1)解析以前に予め、人手による規則集の作成をする。例えば、連用形+動詞「いる」ならば、アスペクトが「進行相」となる。このような規則を、他の組み合わせに対しても作成し、規則集を作成する。また、テンス(時制)、アスペクト(相)あるいはモダリティ(様相)についても、その規則集を作成する。この様な人手により規則集を作成する場合は、規則の不備が残ってしまい、常にメンテナンスを続けて洗練化する必要がある。

次に解析作業として、

2)解析における手続1入力文の翻訳のための入力文の形態素解析や構文解析を行う。例えば「希望をいだいている。」が入力文の場合は、下記のような結果を得る。希望 <名詞>を <助詞>いだいて <動詞><連用形>いる <動詞>

ここで、形態素解析部や構文解析部を変更すると、上記の規則集にも影響があり、適切な翻訳を維持するためには、上記の規則集にも変更すべき点が発生してしまう。

3)解析における手続2形態素解析や構文解析の結果と、規則を照合して、テンス(時制)、アスペクト(相)あるいはモダリティ(様相)を確定する。上記の場合、文末表現が、<連用形>+動詞「いる」の形になっているので、予め作成した規則により、「進行相」と確定される。

続いて、次の様に文全体を構成するため、合成作業を行う。

4)解析における手続3テンス、アスペクトあるいはモダリティの翻訳以外の部分は、従来の既によく知られた翻訳方法のどの方法を用いてもよく、それらのどれかを用いて翻訳し、テンス、アスペクトあるいはモダリティの翻訳は、上記の方法により翻訳し、これらを合成することにより、文全体の翻訳を完成する。

ここで示した人手で作成した規則によって翻訳する方法では、規則のメンテナンスに多大な人的資源を投入する必要性があるという欠点がある。

次に用例を基にしたデータベースを用いた翻訳装置での翻訳方法の先行例である第二の従来技術を示す。

産業上の利用分野



この発明は、データベースを利用した翻訳装置に関するものである。特に、時制などが文末に表現される言語、例えば日本語、から他の言語、例えば英語、に翻訳する際に問題となる文末表現のテンス(時制)、アスペクト(相)あるいはモダリティ(様相)を翻訳する時に用いる。

特許請求の範囲 【請求項1】
第一の言語から第二の言語へのデータベースを利用した翻訳装置で、第一の言語に属する複数の用例と第二の言語に属する複数の用例からなり且つ個々の第一の言語に属する用例は、第二の言語に属する用例との間に少なくとも一つ以上の対応付があり、テンス、アスペクトあるいはモダリティ情報が付加されたことを特徴とする第一のデータベースを備え、
第一の言語に属する第一の用例と、第一のデータベースの第一の言語に属する第二の用例との間の文末からみて連続する共通の文字列の数を用いて第一のデータベースの第一の言語に属する第二の用例との間の類似性を評価した値を導く手段を備え、
前記の手段は、(1)該類似性を評価した値が高いほど類似性が高いとしてその類似性の高い順で、第一の言語に属する第一の用例に対する第一の言語に属する第二の用例群を第一のデータベースから予め決められた数だけ選択するという第一の方法で選択し、(2)第一の言語に属する用例の、第二の言語に属する用例への対応から、第二の言語に属する第一の用例群を第一のデータベースから選択し、(3)この選択された第二の言語に属する第一の用例群を代表するテンス、アスペクトあるいはモダリティについて、そのテンス、アスペクトあるいはモダリティを個々の用例のテンス、アスペクトあるいはモダリティの多数決で決定するという第二の方法で決定し、(4)この決定されたテンス、アスペクトあるいはモダリティを、第一の言語に属する第二の用例の翻訳のテンス、アスペクトあるいはモダリティとして用いる、という構成を備えることを特徴とする、データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置。

【請求項2】
第一の言語から第二の言語へのデータベースを利用した翻訳装置で、第一の言語に属する複数の用例と第二の言語に属する複数の用例からなり且つ個々の第一の言語に属する用例は、第二の言語に属する用例との間に少なくとも一つ以上の対応付があり、テンス、アスペクトあるいはモダリティ情報が付加されたことを特徴とする第一のデータベースを備え、
第一の言語に属する第一の用例と、形態素解析を行なって形態素を認識し、各形態素についてシソーラスの分類番号を付して、シソーラスの分類番号による構成に変換された該第一の言語に属する第一の用例と、同様に変換された第一のデータベース内の第一の言語に属する第二の用例との間の、文末からみて連続する共通の文字列の数を用いることを特徴とする第一の言語に属する第二の用例との間の類似性を評価した値を導く手段を備え、
前記の手段は、(1)該類似性を評価した値が高いほど類似性が高いとしてその類似性の高い順で、第一の言語に属する第一の用例に対する第一の言語に属する第二の用例群を第一のデータベースから予め決められた数だけ選択するという第一の方法で選択し、(2)第一の言語に属する用例の、第二の言語に属する用例への対応から、第二の言語に属する第一の用例群を第一のデータベースから選択し、(3)この選択された第二の言語に属する第一の用例群を代表するテンス、アスペクトあるいはモダリティについて、そのテンス、アスペクトあるいはモダリティを個々の用例のテンス、アスペクトあるいはモダリティの多数決で決定するという第二の方法で決定し、(4)この決定されたテンス、アスペクトあるいはモダリティを、第一の言語に属する第二の用例の翻訳のテンス、アスペクトあるいはモダリティとして用いる構成を備えることを特徴とする、データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP1999238579thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close