TOP > 国内特許検索 > 音声再生装置及び発話支援装置

音声再生装置及び発話支援装置 コモンズ

国内特許コード P140010535
整理番号 04-52
掲載日 2014年5月13日
出願番号 特願2005-042916
公開番号 特開2006-227425
登録番号 特許第4811557号
出願日 平成17年2月18日(2005.2.18)
公開日 平成18年8月31日(2006.8.31)
登録日 平成23年9月2日(2011.9.2)
発明者
  • 村田 真樹
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 音声再生装置及び発話支援装置 コモンズ
発明の概要 【課題】 発話者や音声合成が発音困難な語句を、好適な言い換えによって表現し、聴衆への意思疎通を促すための音声再生装置や発話支援装置を提供すること。
【解決手段】 発話支援装置1は、原稿テキストデータを装置内に取得する入力手段21、単語列を抽出する単語列抽出手段22、単語列を同義語データベース24と照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索手段23、各単語列の発音の困難度を予め定量的に記録した発音困難度データベース26、置換前の単語列と置換候補の単語列とについて、発音困難度データベース26からそれぞれの発音困難度を取得し、発音困難度が最小の単語列を選択し置換する単語列置換手段25、口述用テキストを出力する出力手段12とを備える。
【選択図】 図1
従来技術、競合技術の概要


近年生活の多くの場面で人工的に音声合成処理された音声を耳にする機会が増えている。音質的にもかなり改善が進んでおり、特定の文言を出力する場合にはイントネーションなどを細かく定義することで聞き取りやすい音声出力が実現できる。



しかしながら、Webコンテンツの読み上げなど任意のテキストを入力して音声合成を行うと、依然として聞き取りにくく、正確に内容が伝わらない恐れがある。一方で、テキストに対して適切な抑揚をつけることなどによって聞き取りやすくするための研究も進んでいるが、音声合成処理に関しての処理負荷が大きく、高速で再生する場合などに不向きな問題がある。



聞き手が聞き取りにくい別のケースとしては、外国語での発話時に、母国語との発音方法の違いから正確な発音が困難で、意思が伝わりにくい場合がある。特に国際会議などにおける発表時には予め原稿を用意しているため、文法的な誤りが少なく、用語の選択も正確であるにも関わらず、発話者の発音が不適当な結果、発話内容が聴衆に伝わらないことは多い。
外国語学習において周知のように、たとえば日本人が英語のLとRを適切に区別して発音することは困難である。これは日本語においてLとRに対応する発音の区別がなく、いずれも「ラリルレロ」で発音していることに起因していると考えられる。



発音は訓練によって大きく是正することが可能であるものの、LとRの区別のようにいくつかの発音に関してはかなりの訓練を積まなければ適切に区別することはできない。通訳等、専門家でない者にとってこの負担は大きいものである。意思を明確に伝える観点からすると、必ずしも伝わりにくい単語を無理に用いて正確な発音を行うように訓練をせず、単にその単語を用いないようにすれば回避できる場合もある。



本件発明者らによる非特許文献1においては、入力された文章に対して変形部で変形の候補をあげ、評価部において変形の妥当性をチェックし、もっとも妥当であると判断されたものに変形し、それを出力するシステムを提案している。
評価部で用いられる尺度として、言い換え語句間での類似度や長さ、頻度等様々な尺度があることが紹介されている。



【非特許文献1】
村田真樹、井佐原均 「言い換えの統一的モデル 尺度に基づく変形の利用」 言語処理学会第7回年次大会ワークショップ論文集 2001年



例えば、長さを評価部の尺度として、より短い言い換えに高い評価を与えれば、文章の圧縮を行うことができる。
また、頻度を尺度にして、より頻度の高い単語に言い換えるようにすると、難解な文章を平易な単語で表現するように言い換えることができる。



本件発明者らは、上記文献において発音しにくい単語をあまり使わない尺度というものを当該文献において示唆したが、いかなる尺度であるのか具体的な研究が進んでいなかった。そのため、該文献の時点では発音しにくい単語を原文から除去するのか、あるいはいずれかの単語に言い換えるのか、その場合どのように言い換えるのか、技術的な考察が行われておらず、願望を記載したものにとどまっていた。



上記技術は下記の特許文献1などによっても開示されている。該開示では、複数種類の言い換えが必要な文または文章を、目的とする文または文章に簡単に変換することができるシステムを提供している。
具体的には、変形処理部が、変換対象文を入力すると変形規則記憶部中の変形規則を用いて多くの変換の候補を生成する。評価処理部は、生成された変換の候補について、文字列を変形した結果が目的とするふさわしい変換であるかどうかを評価するための複数の評価尺度を用いて評価し、評価結果のよい表現の文字列を選択する。その評価の高い文字列を変換結果文として出力する。
評価尺度は、評価尺度選択部によって選択することができ、また選択した評価尺度の重要度は評価重要度設定部によって設定することができる。



【特許文献1】
特開2003-76687号公報



本件出願人以外による開示としては、下記特許文献2が挙げられる。該開示の技術は、単語・複合語を問わず、聞き取りにくい表現を音声による読み上げに適した表現に変換し得る自然言語処理方法を提供することを目的とした技術である。
具体的には、テキスト変換部の発音パターン抽出部が、発音規則テーブル内に該当する発音パターンが存在するかをサーチし、読み上げた際に聞きづらいと推定される部分を抽出する。次に、テキスト変換処理部が、テキスト変換規則テーブルを用いて、抽出された部分を、読み上げを前提としたテキストに変換する。文書を音読する際の音の組み合わせという、新規な観点から広く聞きづらい表現をサーチするので、複合語単位の表現でも適切な表現に置換できる、としている。



【特許文献2】
特開2000-172289号公報



しかし、上記非特許文献1及び特許文献1は一般的な言い換え技術を開示したものであって、これらによって発音しにくい単語を簡便に置き換える手法が提供されたとは言えない。すなわち如何なる尺度を用いて、如何なる言い換えに対し、如何なる評価を行うのかが一切開示されていないため、単にLとRを含まない単語に置き換えることはできても、その置き換えの有効性や正確性を評価できない。
このような従来の方法では、機械的な用語の置き換え作業を行ったのと変わりがなく、好適な言い換えによる発話支援を実現できない問題がある。



また、特許文献2は、本技術は音声読み上げに関連した技術であるが、置換に際して主に助詞やポーズを挿入することで聞き取りやすくする技術を開示しており、音声の正確な再現自体が困難な場合に適用できるものではない。もちろん、外国語に適用しても大きな効果を得ることはできない。

産業上の利用分野



本発明は、言語処理技術に関するものであって、特に音声合成処理により聞き取りやすい語句を用いるように、あるいは外国語で発話する際に発話者が発音しやすい語句を用いるように原文を変換する方法に係るものである。

特許請求の範囲 【請求項1】
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援装置であって、
原稿テキストデータを装置内に取得する入力手段と、
該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出手段と、
単語列に対する同義語句を備えた同義語データベースと、
単語列抽出手段により抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索手段と、
予め単語列中の所定の文字又は発音記号の数に応じて困難度を記録した発音困難度データベースと、
置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択し置換する単語列置換手段と、
上記手段により単語列が置換された口述用テキストを出力する出力手段と
を備えたことを特徴とする発話支援装置。

【請求項2】
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援装置であって、
原稿テキストデータを装置内に取得する入力手段と、
該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出手段と、
単語列に対する同義語句を備えた同義語データベースと、
単語列抽出手段により抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索手段と、
2つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第1アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義した発音困難度データベースと、
置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択し置換する単語列置換手段と、
上記手段により単語列が置換された口述用テキストを出力する出力手段と
を備えたことを特徴とする発話支援装置。

【請求項3】
前記発話支援装置が、前記原稿テキストと同一言語のコーパスデータベースを備え、
前記単語列置換手段が、
該置換候補単語列及び、その前後k-gram(kは前後で同一又は異なる任意の数)の単語列との配列が、該コーパスデータベース中で出現する頻度を計数する頻度計数部と、
該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列に置換する発音困難度比較置換部と
を備えたことを特徴とする
請求項1又は2に記載の発話支援装置。

【請求項4】
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援方法であって、
入力手段が、原稿テキストデータを装置内に取得する入力ステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め単語列中の所定の文字又は発音記号の数に応じて困難度を定めた発音困難度データベースを用い、単語列置換手段が、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択し置換する単語列置換ステップ、
出力手段が、上記各ステップにより単語列が置換された口述用テキストを出力する出力ステップ
を少なくとも含むことを特徴とする発話支援方法。

【請求項5】
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援方法であって、
入力手段が、原稿テキストデータを装置内に取得する入力ステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め2つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第1アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義した発音困難度データベースを用い、単語列置換手段が、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択し置換する単語列置換ステップ、
出力手段が、上記各ステップにより単語列が置換された口述用テキストを出力する出力ステップ
を少なくとも含むことを特徴とする発話支援方法。

【請求項6】
前記発話支援方法の単語列置換ステップにおいて、
前記原稿テキストと同一言語のコーパスデータベースを用い、単語列置換手段が、
該置換候補単語列及び、その前後k-gram(kは前後で同一又は異なる任意の数)の単語列との配列が、該コーパスデータベース中で出現する頻度を計数し、
該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列に置換する
請求項4又は5に記載の発話支援方法。

【請求項7】
コンピュータ上で、ワードプロセッサプログラムと共に用いられ、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力するようにコンピュータを機能させる発話支援プログラムであって、
ワードプロセッサ処理手段において編集状態の原稿テキストデータを取得する原稿テキストデータ読み出しステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め単語列中の所定の文字又は発音記号の数に応じて困難度を定めた発音困難度データベースを用い、単語列選択手段が、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択する単語列選択ステップ、
置換単語列呈示手段が、ワードプロセッサ処理手段において編集状態の原稿テキストデータと共に、単語列選択ステップで選択された置換する単語列を呈示し、ユーザに置換の有無の入力を促す置換単語列呈示ステップ、
単語列置換手段が、ユーザの入力に応じて、単語列の置換を行う単語列置換ステップ
の各ステップをコンピュータに機能させることを特徴とするワードプロセッサプログラムと共に用いられる発話支援プログラム。

【請求項8】
コンピュータ上で、ワードプロセッサプログラムと共に用いられ、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力するようにコンピュータを機能させる発話支援プログラムであって、
ワードプロセッサ処理手段において編集状態の原稿テキストデータを取得する原稿テキストデータ読み出しステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め2つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第1アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義した発音困難度データベースを用い、単語列選択手段が、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択する単語列選択ステップ、
置換単語列呈示手段が、ワードプロセッサ処理手段において編集状態の原稿テキストデータと共に、単語列選択ステップで選択された置換する単語列を呈示し、ユーザに置換の有無の入力を促す置換単語列呈示ステップ、
単語列置換手段が、ユーザの入力に応じて、単語列の置換を行う単語列置換ステップ
の各ステップをコンピュータに機能させることを特徴とするワードプロセッサプログラムと共に用いられる発話支援プログラム。

【請求項9】
前記発話支援プログラムがコンピュータに機能させる置換単語列呈示ステップにおいて、
前記原稿テキストと同一言語のコーパスデータベースを用い、
置換単語列呈示手段が、該置換候補単語列及び、その前後k-gram(kは前後で同一又は異なる任意の数)の単語列との配列が、該コーパスデータベース中で出現する頻度を計数し、該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列を呈示する
請求項7又は8のいずれかに記載のワードプロセッサプログラムと共に用いられる発話支援プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005042916thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close