Top > Search of Japanese Patents > TEXT DATA DIVISION DEVICE, TEXT DATA DIVISION METHOD, TEXT DATA DIVISION PROGRAM, AND TRANSLATION DEVICE

TEXT DATA DIVISION DEVICE, TEXT DATA DIVISION METHOD, TEXT DATA DIVISION PROGRAM, AND TRANSLATION DEVICE meetings

Patent code P150011337
File No. S2013-0177-N0
Posted date Feb 18, 2015
Application number P2013-097857
Publication number P2014-219809A
Patent number P6090785
Date of filing May 7, 2013
Date of publication of application Nov 20, 2014
Date of registration Feb 17, 2017
Inventor
  • (In Japanese)藤田 朋希
  • (In Japanese)グラム ニュービッグ
  • (In Japanese)サクリアニ サクティ
  • (In Japanese)戸田 智基
  • (In Japanese)中村 哲
Applicant
  • (In Japanese)国立大学法人奈良先端科学技術大学院大学
Title TEXT DATA DIVISION DEVICE, TEXT DATA DIVISION METHOD, TEXT DATA DIVISION PROGRAM, AND TRANSLATION DEVICE meetings
Abstract PROBLEM TO BE SOLVED: To provide a text data division device, a text data division method, a text data division program for dividing text data so as to be able to accurately and promptly translating the text data, and a translation device including the text data division device.
SOLUTION: A text data division device 10 comprises: a database DB recording therein a phrase table PT specifying phrase pairs each constituted by a source language phrase and a target language phrase; and a translation target data generation unit 12 sequentially detecting source language phrases from a top of input text data by referring to the phrase table PT recorded in the database DB, sequentially generating translation target data constituted at least by one of the detected source language phrases, and outputting the translation target data to outside whenever the translation target data is generated.
Outline of related art and contending technology (In Japanese)

ビジネス、教育、旅行など、様々な分野でグローバル化が進んでおり、外国の言語を見たり聞いたりする機会が増えている。しかし、言語の習得は容易ではなく、外国の言語に触れた時に戸惑ってしまう人は少なくない。

そこで、入力されるテキストデータを翻訳して出力する翻訳装置が、広く利用されている。また、近年では、入力された音声を認識してテキストデータを生成し、当該テキストデータを翻訳して合成音声や文字画像として出力することで、入力された音声をリアルタイムで翻訳して出力する翻訳装置が開発されている。

このような翻訳装置では、音声の入力から翻訳結果の出力までの時間が短いほど好ましい。また、入力される音声を翻訳する翻訳装置に限らず、入力されるテキストデータを翻訳する翻訳装置であっても、テキストデータの入力から翻訳結果の出力までの時間が短いほど好ましい。

しかし、翻訳結果の出力時間を短くするために、入力されたテキストデータを、例えば単語毎に順次翻訳すると、単語の前後関係を無視した翻訳が行われるため、翻訳精度が著しく低下してしまう。反対に、テキストデータの全文が入力された後に翻訳を開始すると、翻訳精度を向上させることはできるが、翻訳結果が出力されるまでに多大な時間を要してしまう。

そこで、音声が入力されないこと(ポーズ)を検出するとともに、入力された音声を認識して得られたテキストデータを、当該ポーズの位置で分割するテキストデータ分割装置が提案されている。このテキストデータ分割装置を用いた翻訳装置であれば、テキストデータをまとまった語句で分割して翻訳することができるため、翻訳精度の低下を抑制しながら迅速に翻訳結果を出力することが可能になる。

Field of industrial application (In Japanese)

本発明は、原言語を目的言語に翻訳するために原言語のテキストデータを分割するテキストデータ分割装置、テキストデータ分割方法及びテキストデータ分割プログラムと、当該テキストデータ分割装置を用いた翻訳装置と、に関する。

Scope of claims (In Japanese)
【請求項1】
 
原言語の一連の文字列から成るテキストデータを目的言語に翻訳する際に、前記テキストデータを分割して外部に出力するテキストデータ分割装置であって、
前記原言語の少なくとも1つのユニットから成るフレーズである原言語フレーズと、当該原言語フレーズに対応する前記目的言語のフレーズである目的言語フレーズと、から成るフレーズペアを規定するフレーズテーブルを記録するデータベースと、
前記データベースに記録されている前記フレーズテーブルを参照することで、入力される前記テキストデータの先頭から、前記原言語フレーズを順次検出するとともに、検出された少なくとも1つの前記原言語フレーズから成る翻訳対象データを順次生成し、前記翻訳対象データを生成する毎に外部に出力する翻訳対象データ生成部と、
を備え
前記フレーズテーブルは、前記原言語フレーズの直後に続く前記原言語のフレーズに対応する前記目的言語の目的言語後続フレーズが、前記目的言語フレーズの後方に位置する確率である右確率を、前記原言語フレーズ毎に規定しており、
前記翻訳対象データ生成部は、
前記原言語フレーズの前記右確率が所定の閾値以上であると、当該原言語フレーズで終わる前記翻訳対象データを生成し、
前記原言語フレーズの前記右確率が前記閾値よりも小さいと、当該原言語フレーズの直後に少なくとも1つの前記原言語フレーズが連結された前記翻訳対象データを生成することを特徴とするテキストデータ分割装置。

【請求項2】
 
前記テキストデータを構成する前記ユニットを検出して、前記翻訳対象データ生成部に対して前記テキストデータを前記ユニット毎に順次出力するユニット検出部を、さらに備え、
前記翻訳対象データ生成部は、前記原言語フレーズに該当しなくなるまで、前記ユニット検出部が出力する順に前記ユニットを連結し、前記原言語フレーズに該当しなくなった時点で、最後に連結した前記ユニットを除いた語句を前記原言語フレーズとして検出することを特徴とする請求項1に記載のテキストデータ分割装置。

【請求項3】
 
前記翻訳対象データ生成部は、前記テキストデータから前記原言語フレーズを検出する処理と、前記テキストデータから前記翻訳対象データを分割して生成する処理と、を並列的に行うことを特徴とする請求項1または2に記載のテキストデータ分割装置。

【請求項4】
 
請求項1~3のいずれか1項に記載のテキストデータ分割装置と、
前記データベースが記録する前記フレーズテーブルを参照して、前記テキストデータ分割装置が順次出力する前記翻訳対象データを順次翻訳して翻訳結果を出力する翻訳部と、
を備えることを特徴とする翻訳装置。

【請求項5】
 
前記データベースが、前記目的言語の語句の並び方および語句の選択の正しさを示す言語モデルを、さらに記録しており、
前記翻訳部は、前記データベースに記録されている前記言語モデルを参照して、前記翻訳対象データを翻訳するものであり、
前記言語モデルは、前記目的言語の文章を集積して成る目的言語コーパスに対して、前記目的言語の語句の並び方および語句の選択の正しさを示す確率を与える統計的な学習処理を行うことで生成されるものであり、前記学習処理は、前記テキストデータ分割装置と同じ方法で前記目的言語コーパスを分割してから行われていることを特徴とする請求項4に記載の翻訳装置。

【請求項6】
 
集音した音声を電気信号に変換することで音声データを生成する音声データ生成部と、
前記音声データ生成部が生成した前記音声データを変換して前記テキストデータを生成するテキストデータ生成部と、をさらに備えることを特徴とする請求項4または5に記載の翻訳装置。

【請求項7】
 
前記翻訳部が出力する前記翻訳結果を音声合成して出力する翻訳結果出力部を、さらに備えることを特徴とする請求項46のいずれか1項に記載の翻訳装置。

【請求項8】
 
コンピュータによって実行される、原言語の一連の文字列から成るテキストデータを目的言語に翻訳する際における前記テキストデータを分割して出力するテキストデータ分割方法であって、
前記原言語の少なくとも1つのユニットから成るフレーズである原言語フレーズと、当該原言語フレーズに対応する前記目的言語のフレーズである目的言語フレーズと、から成るフレーズペアを規定するフレーズテーブルを参照することで、前記テキストデータの先頭から、前記原言語フレーズを順次検出する原言語フレーズ検出ステップと、
前記原言語フレーズ検出ステップから得られる少なくとも1つの前記原言語フレーズから成る翻訳対象データを順次生成する翻訳対象データ生成ステップと、
前記翻訳対象データ生成ステップで前記翻訳対象データが生成される毎に、当該翻訳対象データを出力する翻訳対象データ出力ステップと、
を備え
前記フレーズテーブルは、前記原言語フレーズの直後に続く前記原言語のフレーズに対応する前記目的言語の目的言語後続フレーズが、前記目的言語フレーズの後方に位置する確率である右確率を、前記原言語のフレーズ毎に規定しており、
前記翻訳対象データ生成ステップでは、
前記原言語フレーズの前記右確率が所定の閾値以上であると、当該原言語フレーズで終わる前記翻訳対象データを生成し、
前記原言語フレーズの前記右確率が前記閾値よりも小さいと、当該原言語フレーズの直後に少なくとも1つの前記原言語フレーズが連結された前記翻訳対象データを生成することを特徴とするテキストデータ分割方法。

【請求項9】
 
前記テキストデータの先頭から、前記テキストデータを構成する前記ユニットを順次検出するユニット検出ステップを、さらに備え、
前記原言語フレーズ検出ステップでは、前記原言語フレーズに該当しなくなるまで、前記ユニット検出ステップで検出される順に前記ユニットを連結し、前記原言語フレーズに該当しなくなった時点で、最後に連結した前記ユニットを除いた語句を前記原言語フレーズとして検出することを特徴とする請求項8に記載のテキストデータ分割方法。

【請求項10】
 
前記原言語フレーズ検出ステップと、前記翻訳対象データ生成ステップと、が並列的に行われることを特徴とする請求項8または9に記載のテキストデータ分割方法。

【請求項11】
 
請求項810のいずれか1項に記載のテキストデータ分割方法における各ステップを、コンピュータ上で実行するプログラムステップを含むことを特徴とするテキストデータ分割プログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2013097857thum.jpg
State of application right Registered
Please contact us by E-mail or facsimile if you have any interests on this patent.


PAGE TOP

close
close
close
close
close
close
close