TOP > 国内特許検索 > テンス・アスペクト・モダリティ翻訳処理装置

テンス・アスペクト・モダリティ翻訳処理装置 コモンズ

国内特許コード P140010693
整理番号 01-51
掲載日 2014年7月3日
出願番号 特願2001-201010
公開番号 特開2003-016067
登録番号 特許第3870251号
出願日 平成13年7月2日(2001.7.2)
公開日 平成15年1月17日(2003.1.17)
登録日 平成18年10月27日(2006.10.27)
発明者
  • 村田 真樹
  • 馬 青
  • 内元 清貴
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 テンス・アスペクト・モダリティ翻訳処理装置 コモンズ
発明の概要 【課題】 機械翻訳の際に変換先のテンス・アスペクト・モダリティを精度よく翻訳する。
【解決手段】 テンス-素性組抽出部12は, テンス・アスペクト・モダリティ・データベース11から, 事例ごとにテンス・アスペクト・モダリティ( 以下「テンス等」という) と素性の集合の組とを抽出する。機械学習部13は, 抽出した組からどのような素性のときにどのようなテンス等となりやすいかを学習し,その結果をデータベース14に保存する。素性抽出部15は, 訳出したい日本文3 が入力されると素性の集合を抽出する。変換先テンス・アスペクト・モダリティ推定処理部16は, 学習結果データベース14を参照し, その素性の集合から日本文3 の素性の場合にどのようなテンス等になりやすいかを推定し, 推定したテンス等4 を出力する。
従来技術、競合技術の概要



近年,WWW(World Wide Web)などのインターネットの発展とともに機械翻訳の必要性が高まり続けている。この機械翻訳において,テンス・アスペクト・モダリティは翻訳が難しい問題として知られている。





テンス・アスペクト・モダリティとは,動詞部分の時制(テンス),進行形や完了形などの相(アスペクト),または英文における助動詞相当句である様相(モダリティ)についての情報である。





従来,テンス・アスペクト・モダリティの表現は,人手により作成されたルールによって扱われていた。しかしながら,近年では,用例ベース(k近傍法)の方法などのコーパスデータにもとづくアプローチでも処理されるようになってきた。用例ベースの方法では,集めた実例ごとに,どの場合にどの時制などを使うかを記したデータを対応づけた用例データベースを用意しておき,入力された文と良く似た実例に基づいてテンス・アスペクト・モダリティを翻訳するといったことが行なわれていた。

[参考文献1]村田真樹 馬青 内元清貴 井佐原均,用例ベースによるテンス・アスペクト・モダリティの日英翻訳,人工知能学会誌,Vol.16,No.1,2001

参考文献1に記載されている研究では,日本文から英文への機械翻訳のテンス・アスペクト・モダリティの判定の際に,日本文のテンス・アスペクト・モダリティは文末に表されることに着目して,入力された日本文の文末の所定の長さの文字列と,予め用意したコーパスデータとの類似度をk近傍法により判断してテンス・アスペクト・モダリティを決定する手法を用いている。k近傍法とは,最もよく似た一つの事例の代わりに,最もよく似たk個の事例を用い,このk個の事例での多数決によって分類先を求める手法である。

産業上の利用分野



本発明は,コンピュータによる翻訳システムの分野において,特に,機械学習アルゴリズムを用いてテンス(時制),アスペクト(相),またはモダリティ(様相)を翻訳する翻訳処理装置に関するものである。

特許請求の範囲 【請求項1】
デジタル化された文について一の言語から他の言語へ翻訳処理をする際に,変換元言語から変換先言語のテンス・アスペクト・モダリティを翻訳する処理装置であって,
予め備えられた変換元言語の事例と当該事例の変換先言語におけるテンス・アスペクト・モダリティとの組を記憶するテンス・アスペクト・モダリティ・データベースと,
前記テンス・アスペクト・モダリティ・データベースの各事例ごとに,テンス・アスペクト・モダリティと当該テンス・アスペクト・モダリティに対応する事例から抽出した単語素性および文字列素性を含む複数の形式の素性の集合とからなるテンス-素性組を抽出するテンス-素性抽出手段と,
前記テンス-素性組を教師データとして用いて複数の素性の出現パターンについて,それぞれのパターンのときになりやすいテンス・アスペクト・モダリティを,決定リスト法,最大エントロピー法,またはサポートベクトルマシン法のいずれか一の機械学習アルゴリズムにより学習する機械学習手段と,
前記機械学習手段における学習結果を,入力文の変換先言語のテンス・アスペクト・モダリティを判定するための学習データとして学習結果データベースに保存する学習結果データベースと,
変換元言語の入力文から,当該入力文の素性の集合を抽出する素性抽出手段と,
前記入力文の素性の集合をもとに,前記機械学習アルゴリズムにより,前記学習データベースに保存された学習データを参照して前記素性の集合の素性の出現のパターンについて,最もなりやすいテンス・アスペクト・モダリティを特定し,前記特定したテンス・アスペクト・モダリティを前記入力文のテンス・アスペクト・モダリティの推定解として出力する変換先テンス・アスペクト・モダリティ推定処理手段とを備える
ことを特徴とするテンス・アスペクト・モダリティ翻訳処理装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2001201010thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close