TOP > 国内特許検索 > データ変換適性評価方法及びデータ変換装置

データ変換適性評価方法及びデータ変換装置 コモンズ

国内特許コード P140010539
整理番号 04-99
掲載日 2014年5月13日
出願番号 特願2005-069816
公開番号 特開2006-252323
登録番号 特許第4317990号
出願日 平成17年3月11日(2005.3.11)
公開日 平成18年9月21日(2006.9.21)
登録日 平成21年6月5日(2009.6.5)
発明者
  • 内元 清貴
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 データ変換適性評価方法及びデータ変換装置 コモンズ
発明の概要 【課題】 第1データから第2データへのデータ変換及び、その逆方向のデータ変換が可能なデータ変換時に、変換適性を自動的に評価する技術を提供すること。
【解決手段】 データ変換手段11により第1データ2を変換して変換後第2データを取得するデータ変換ステップ、データ逆変換手段12により該変換後第2データを逆変換して逆変換後第1データを取得するデータ逆変換ステップ、第1データ2と逆変換後第1データとを類似度算出手段13に入力して、所定の類似度算出式により類似度を算出する類似度算出ステップ、該類似度を第1データのデータ変換手段における変換適性値3として出力手段14から出力する変換適性値出力ステップを含む。
【選択図】 図1
従来技術、競合技術の概要



機械学習技術の進歩に伴って、例えば機械翻訳のようにコンピュータを用いてあるデータから異なるデータに変換処理することが広く行われている。このように一義的にデータを変換するのではなく、コンピュータが機械学習などに基づいて変換処理する場合には、その変換精度が問題となる。

機械翻訳の場合には機械翻訳後のテキストを人手によって確認し、自然な言語テキストが出力されているかを判断していた。





従来の機械翻訳精度を向上させる技術として例えば特許文献1又は特許文献2に開示される方法が知られている。

特許文献1の技術は1つの翻訳元言語で書かれた入力文から複数の翻訳システムにより翻訳先言語で書かれた翻訳結果を出力する。そして、相互に意味解析を行って翻訳結果を比較するものである。

このように意味解析などによって実質的に翻訳結果が妥当であるかを判定する方法は従来から用いられている。

しかし、意味解析を行うのも機械翻訳と同様に構成された解析モジュールであるため、適切な解析が行えない場合も多い。





【特許文献1】

開2004-318344号公報





特許文献2の技術は、あらかじめ文字列パターンと翻訳パターンを定義しておきそれぞれのパターンと条件とに合致するか否かをチェックすることで、原文により忠実な翻訳パターンを選択して高精度化を図ろうとするものである。

このように、パターンへの当てはめによって翻訳の妥当性を判断する方法も従来から用いられている。

しかし、パターン化された翻訳については高精度化が期待できるものの、全ての文に対応することは難しく、判断するための構成も複雑になってしまう問題がある。





【特許文献2】

開2005-4402号公報





機械翻訳に限らず、構文解析などの解析結果の評価や、音声合成におけるテキストデータから音声波形データへの変換結果の評価など、コンピュータを用いてデータ変換する場合にこれを評価する好適な方法が求められている。

この方法の実現に先立ち、あらかじめどのような入力データが変換処理に適しているかが判定できれば、変換処理に適した形に入力データを変形したり、変換結果の確信度に疑いが強いことを使用者に提示することが可能である。





従って、完璧な変換技術が提供されていないデータ変換においては、上記のような変換適性を自動的に評価する方法が提供されれば、変換技術の実用性の向上や、変換精度の向上にも寄与させることができる。

産業上の利用分野



本発明はコンピュータにおけるデータ処理方法に関し、より詳しくは機械翻訳等のデータ変換時に適切なデータ変換が行えるか否かを評価する変換適性値の算出方法に係る。

特許請求の範囲 【請求項1】
第1データから第2データへの機械翻訳を行うデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置を用いて、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換適性評価方法であって、
該データ変換手段が、第1言語の参照テキストである第1データを機械翻訳して第2言語のテキストである変換後第2データを取得するデータ変換ステップ、
該データ逆変換手段が、翻訳結果である変換後第2データを第1言語の折り返し翻訳テキストに機械翻訳して逆変換後第1データを取得するデータ逆変換ステップ、
類似度算出手段が、該第1データと該逆変換後第1データとを取得し、逆変換後第1データのテキストにおける依存構造木に基づいて、文節内の単語はすべて隣に係り、係り文節における末尾の形態素は受け文節の先頭の形態素に係るとしたときの単語n-gramをパラメータに用いて類似度を算出する類似度算出ステップ、
出力手段が、該類似度を第1データのデータ変換手段における変換適性値として出力する変換適性値出力ステップ
を含むことを特徴とするデータ変換適性評価方法。

【請求項2】
第1データから第2データへの機械翻訳を行うデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置を用いて、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換適性評価方法であって、
該データ変換手段が、第1言語の参照テキストである第1データを機械翻訳して第2言語のテキストである変換後第2データを取得するデータ変換ステップ、
該データ逆変換手段が、翻訳結果である変換後第2データを第1言語の折り返し翻訳テキストに機械翻訳して逆変換後第1データを取得するデータ逆変換ステップ、
類似度算出手段が、該第1言語の参照テキストに対する該折り返し翻訳テキストの類似度を測るパラメータと、該折り返し翻訳テキストに対する該参照テキストの類似度を測るパラメータとの調和平均を算出する類似度算出ステップ、
出力手段が、該類似度を第1データのデータ変換手段における変換適性値として出力する変換適性値出力ステップ
を含むことを特徴とするデータ変換適性評価方法。

【請求項3】
第1データから第2データへの機械翻訳を行うデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置を用いて、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換適性評価方法であって、
該データ変換手段が、第1言語の参照テキストである第1データを機械翻訳して第2言語のテキストである変換後第2データを取得するデータ変換ステップ、
該データ逆変換手段が、翻訳結果である変換後第2データを第1言語の折り返し翻訳テキストに機械翻訳して逆変換後第1データを取得するデータ逆変換ステップ、
類似度算出手段が、該第1言語の参照テキストの依存構造木を解析処理し、抽出された部分木毎に類似度を算出する類似度算出ステップ、
出力手段が、各部分木における類似度からテキスト全体の類似度が最大となる部分木集合を求めて、その類似度を第1データのデータ変換手段における変換適性値として出力する変換適性値出力ステップ
を含むことを特徴とするデータ変換適性評価方法。

【請求項4】
前記データ変換適性評価方法において、
前記変換適性値出力ステップの後に、出力手段が、
前記テキスト全体の類似度が最大となる部分木集合の中で、類似度が最小の部分木又は所定の閾値よりも小さな類似度の部分木の少なくともいずれかを抽出し、
抽出された部分木を機械翻訳不適箇所として出力する
ことを特徴とする請求項3に記載のデータ変換適性評価方法。

【請求項5】
前記データ変換適性評価方法の類似度算出ステップにおいて、前記類似度算出手段が、
少なくとも前記第1言語の参照テキスト又は前記折り返し翻訳テキストのいずれかにおける単語又は単語列を、単語又は単語列を語義及び品詞により階層に分類した所定の単語クラスの分類テーブルに基づき、より上位の階層の語義又は品詞に汎化した後に、所定の類似度算出式による算出を行う
ことを特徴とする請求項1ないし4のいずれかに記載のデータ変換適性評価方法。

【請求項6】
第1データから第2データへの機械翻訳を行うデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置であって、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換装置において、
第1言語の参照テキストである第1データを機械翻訳して第2言語のテキストである変換後第2データを取得するデータ変換手段と、
該変換後第2データを、第1言語の折り返し翻訳テキストに機械翻訳して逆変換後第1データを取得するデータ逆変換手段と、
該第1データと該逆変換後第1データとを入力して、逆変換後第1データのテキストにおける依存構造木に基づいて、文節内の単語はすべて隣に係り、係り文節における末尾の形態素は受け文節の先頭の形態素に係るとしたときの単語n-gramをパラメータに用いて類似度を算出する類似度算出手段と、
該類似度を第1データのデータ変換手段における変換適性値として出力する出力手段と
を備えたことを特徴とするデータ変換装置。

【請求項7】
第1データから第2データへの機械翻訳を行うデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置であって、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換装置において、
第1言語の参照テキストである第1データを機械翻訳して第2言語のテキストである変換後第2データを取得するデータ変換手段と、
該変換後第2データを、第1言語の折り返し翻訳テキストに機械翻訳して逆変換後第1データを取得するデータ逆変換手段と、
該第1言語の参照テキストに対する該折り返し翻訳テキストの類似度を測るパラメータと、該折り返し翻訳テキストに対する該参照テキストの類似度を測るパラメータとの調和平均を算出する類似度算出手段と、
該類似度を第1データのデータ変換手段における変換適性値として出力する出力手段と
を備えたことを特徴とするデータ変換装置。

【請求項8】
第1データから第2データへの機械翻訳を行うデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置であって、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換装置において、
第1言語の参照テキストである第1データを機械翻訳して第2言語のテキストである変換後第2データを取得するデータ変換手段と、
該変換後第2データを、第1言語の折り返し翻訳テキストに機械翻訳して逆変換後第1データを取得するデータ逆変換手段と、
前記第1言語の参照テキストの依存構造木を解析処理し、抽出された部分木毎に前記類似度算出を行う類似度算出手段と、
各部分木における類似度からテキスト全体の類似度が最大となる部分木集合を求めて、その類似度を第1データのデータ変換手段における変換適性値として出力する出力手段と
を備えたことを特徴とするデータ変換装置。

【請求項9】
前記出力手段が、
各部分木における類似度からテキスト全体の類似度が最大となる時の部分木集合の中で、類似度が最小の部分木又は所定の閾値よりも小さな類似度の部分木の少なくともいずれかを抽出し、
抽出された部分木を機械翻訳不適箇所として出力する
ことを特徴とする請求項8に記載のデータ変換装置。

【請求項10】
前記類似度算出手段が、
少なくとも前記第1言語の参照テキスト又は前記折り返し翻訳テキストのいずれかにおける単語又は単語列を、単語又は単語列を語義及び品詞により階層に分類した所定の単語クラスの分類テーブルに基づき、より上位の階層の語義又は品詞に汎化した後に、所定の類似度算出式による算出を行う
ことを特徴とする請求項6ないし9のいずれかに記載のデータ変換装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005069816thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close