TOP > 国内特許検索 > テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置

テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 新技術説明会

国内特許コード P150011337
整理番号 S2013-0177-N0
掲載日 2015年2月18日
出願番号 特願2013-097857
公開番号 特開2014-219809
出願日 平成25年5月7日(2013.5.7)
公開日 平成26年11月20日(2014.11.20)
発明者
  • 藤田 朋希
  • グラム ニュービッグ
  • サクリアニ サクティ
  • 戸田 智基
  • 中村 哲
出願人
  • 国立大学法人 奈良先端科学技術大学院大学
発明の名称 テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 新技術説明会
発明の概要 【課題】 精度良くかつ迅速に翻訳することができるようにテキストデータを分割するテキストデータ分割装置、テキストデータ分割方法及びテキストデータ分割プログラムと、当該テキストデータ分割装置を備えた翻訳装置と、を提供する。
【解決手段】 テキストデータ分割装置10は、原言語フレーズと目的言語フレーズとから成るフレーズペアを規定するフレーズテーブルPTを記録するデータベースDBと、データベースDBに記録されているフレーズテーブルPTを参照することで、入力されるテキストデータの先頭から、原言語フレーズを順次検出するとともに、検出された少なくとも1つの原言語フレーズから成る翻訳対象データを順次生成し、翻訳対象データを生成する毎に外部に出力する翻訳対象データ生成部12と、を備える。
【選択図】 図1
従来技術、競合技術の概要



ビジネス、教育、旅行など、様々な分野でグローバル化が進んでおり、外国の言語を見たり聞いたりする機会が増えている。しかし、言語の習得は容易ではなく、外国の言語に触れた時に戸惑ってしまう人は少なくない。





そこで、入力されるテキストデータを翻訳して出力する翻訳装置が、広く利用されている。また、近年では、入力された音声を認識してテキストデータを生成し、当該テキストデータを翻訳して合成音声や文字画像として出力することで、入力された音声をリアルタイムで翻訳して出力する翻訳装置が開発されている。





このような翻訳装置では、音声の入力から翻訳結果の出力までの時間が短いほど好ましい。また、入力される音声を翻訳する翻訳装置に限らず、入力されるテキストデータを翻訳する翻訳装置であっても、テキストデータの入力から翻訳結果の出力までの時間が短いほど好ましい。





しかし、翻訳結果の出力時間を短くするために、入力されたテキストデータを、例えば単語毎に順次翻訳すると、単語の前後関係を無視した翻訳が行われるため、翻訳精度が著しく低下してしまう。反対に、テキストデータの全文が入力された後に翻訳を開始すると、翻訳精度を向上させることはできるが、翻訳結果が出力されるまでに多大な時間を要してしまう。





そこで、音声が入力されないこと(ポーズ)を検出するとともに、入力された音声を認識して得られたテキストデータを、当該ポーズの位置で分割するテキストデータ分割装置が提案されている。このテキストデータ分割装置を用いた翻訳装置であれば、テキストデータをまとまった語句で分割して翻訳することができるため、翻訳精度の低下を抑制しながら迅速に翻訳結果を出力することが可能になる。

産業上の利用分野



本発明は、原言語を目的言語に翻訳するために原言語のテキストデータを分割するテキストデータ分割装置、テキストデータ分割方法及びテキストデータ分割プログラムと、当該テキストデータ分割装置を用いた翻訳装置と、に関する。

特許請求の範囲 【請求項1】
原言語の一連の文字列から成るテキストデータを目的言語に翻訳する際に、前記テキストデータを分割して外部に出力するテキストデータ分割装置であって、
前記原言語の少なくとも1つのユニットから成るフレーズである原言語フレーズと、当該原言語フレーズに対応する前記目的言語のフレーズである目的言語フレーズと、から成るフレーズペアを規定するフレーズテーブルを記録するデータベースと、
前記データベースに記録されている前記フレーズテーブルを参照することで、入力される前記テキストデータの先頭から、前記原言語フレーズを順次検出するとともに、検出された少なくとも1つの前記原言語フレーズから成る翻訳対象データを順次生成し、前記翻訳対象データを生成する毎に外部に出力する翻訳対象データ生成部と、
を備えることを特徴とするテキストデータ分割装置。

【請求項2】
前記フレーズテーブルは、前記原言語フレーズの直後に続く前記原言語のフレーズに対応する前記目的言語の目的言語後続フレーズが、前記目的言語フレーズの後方に位置する確率である右確率を、前記原言語フレーズ毎に規定しており、
前記翻訳対象データ生成部は、
前記原言語フレーズの前記右確率が所定の閾値以上であると、当該原言語フレーズで終わる前記翻訳対象データを生成し、
前記原言語フレーズの前記右確率が前記閾値よりも小さいと、当該原言語フレーズの直後に少なくとも1つの前記原言語フレーズが連結された前記翻訳対象データを生成することを特徴とする請求項1に記載のテキストデータ分割装置。

【請求項3】
前記テキストデータを構成する前記ユニットを検出して、前記翻訳対象データ生成部に対して前記テキストデータを前記ユニット毎に順次出力するユニット検出部を、さらに備え、
前記翻訳対象データ生成部は、前記原言語フレーズに該当しなくなるまで、前記ユニット検出部が出力する順に前記ユニットを連結し、前記原言語フレーズに該当しなくなった時点で、最後に連結した前記ユニットを除いた語句を前記原言語フレーズとして検出することを特徴とする請求項1または2に記載のテキストデータ分割装置。

【請求項4】
前記翻訳対象データ生成部は、前記テキストデータから前記原言語フレーズを検出する処理と、前記テキストデータから前記翻訳対象データを分割して生成する処理と、を並列的に行うことを特徴とする請求項1~3のいずれか1項に記載のテキストデータ分割装置。

【請求項5】
請求項1~4のいずれか1項に記載のテキストデータ分割装置と、
前記データベースが記録する前記フレーズテーブルを参照して、前記テキストデータ分割装置が順次出力する前記翻訳対象データを順次翻訳して翻訳結果を出力する翻訳部と、
を備えることを特徴とする翻訳装置。

【請求項6】
前記データベースが、前記目的言語の語句の並び方および語句の選択の正しさを示す言語モデルを、さらに記録しており、
前記翻訳部は、前記データベースに記録されている前記言語モデルを参照して、前記翻訳対象データを翻訳するものであり、
前記言語モデルは、前記目的言語の文章を集積して成る目的言語コーパスに対して、前記目的言語の語句の並び方および語句の選択の正しさを示す確率を与える統計的な学習処理を行うことで生成されるものであり、前記学習処理は、前記テキストデータ分割装置と同じ方法で前記目的言語コーパスを分割してから行われていることを特徴とする請求項5に記載の翻訳装置。

【請求項7】
集音した音声を電気信号に変換することで音声データを生成する音声データ生成部と、
前記音声データ生成部が生成した前記音声データを変換して前記テキストデータを生成するテキストデータ生成部と、をさらに備えることを特徴とする請求項5または6に記載の翻訳装置。

【請求項8】
前記翻訳部が出力する前記翻訳結果を音声合成して出力する翻訳結果出力部を、さらに備えることを特徴とする請求項5~7のいずれか1項に記載の翻訳装置。

【請求項9】
原言語の一連の文字列から成るテキストデータを目的言語に翻訳する際に、前記テキストデータを分割して出力するテキストデータ分割方法であって、
前記原言語の少なくとも1つのユニットから成るフレーズである原言語フレーズと、当該原言語フレーズに対応する前記目的言語のフレーズである目的言語フレーズと、から成るフレーズペアを規定するフレーズテーブルを参照することで、前記テキストデータの先頭から、前記原言語フレーズを順次検出する原言語フレーズ検出ステップと、
前記原言語フレーズ検出ステップから得られる少なくとも1つの前記原言語フレーズから成る翻訳対象データを順次生成する翻訳対象データ生成ステップと、
前記翻訳対象データ生成ステップで前記翻訳対象データが生成される毎に、当該翻訳対象データを出力する翻訳対象データ出力ステップと、
を備えることを特徴とするテキストデータ分割方法。

【請求項10】
前記フレーズテーブルは、前記原言語フレーズの直後に続く前記原言語のフレーズに対応する前記目的言語の目的言語後続フレーズが、前記目的言語フレーズの後方に位置する確率である右確率を、前記原言語のフレーズ毎に規定しており、
前記翻訳対象データ生成ステップでは、
前記原言語フレーズの前記右確率が所定の閾値以上であると、当該原言語フレーズで終わる前記翻訳対象データを生成し、
前記原言語フレーズの前記右確率が前記閾値よりも小さいと、当該原言語フレーズの直後に少なくとも1つの前記原言語フレーズが連結された前記翻訳対象データを生成することを特徴とする請求項9に記載のテキストデータ分割方法。

【請求項11】
前記テキストデータの先頭から、前記テキストデータを構成する前記ユニットを順次検出するユニット検出ステップを、さらに備え、
前記原言語フレーズ検出ステップでは、前記原言語フレーズに該当しなくなるまで、前記ユニット検出ステップで検出される順に前記ユニットを連結し、前記原言語フレーズに該当しなくなった時点で、最後に連結した前記ユニットを除いた語句を前記原言語フレーズとして検出することを特徴とする請求項9または10に記載のテキストデータ分割方法。

【請求項12】
前記原言語フレーズ検出ステップと、前記翻訳対象データ生成ステップと、が並列的に行われることを特徴とする請求項9~11のいずれか1項に記載のテキストデータ分割方法。

【請求項13】
請求項9~12のいずれか1項に記載のテキストデータ分割方法における各ステップを、コンピュータ上で実行するプログラムステップを含むことを特徴とするテキストデータ分割プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2013097857thum.jpg
出願権利状態 公開
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記「問合せ先」までお問い合わせください。


PAGE TOP

close
close
close
close
close
close
close