TOP > 国内特許検索 > 情報処理装置、情報処理方法、及びプログラム

情報処理装置、情報処理方法、及びプログラム コモンズ

国内特許コード P140010555
整理番号 06-117
掲載日 2014年5月21日
出願番号 特願2007-165752
公開番号 特開2009-003818
登録番号 特許第5126737号
出願日 平成19年6月25日(2007.6.25)
公開日 平成21年1月8日(2009.1.8)
登録日 平成24年11月9日(2012.11.9)
発明者
  • 持橋 大地
  • 隅田 英一郎
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 情報処理装置、情報処理方法、及びプログラム コモンズ
発明の概要 【課題】可変長nグラムを適切に扱うことができる情報処理装置を提供する。
【解決手段】記号の並びを示す訓練データが記憶される訓練データ記憶部11と、訓練データに含まれる各記号に対応するグラム長を示すグラム長情報と、訓練データに含まれる各記号に対応するグラム長情報の示すグラム長より短いグラム長を有する代理の記号に関する代理情報とが記憶される可変長情報記憶部12と、訓練データとグラム長情報と代理情報とに対応する、訓練データに含まれる記号の接尾辞木を示す接尾辞木情報が記憶される接尾辞木情報記憶部13と、訓練データを用いて、接尾辞木情報を更新しながら各記号のグラム長情報と代理情報とをギブスサンプリングにより算出して可変長情報記憶部12に蓄積する処理を繰り返して実行するギブスサンプリング処理を行うギブスサンプリング部14と、を備える。
【選択図】図1
従来技術、競合技術の概要


従来、単語間のマルコフ過程によって文の確率を計算するnグラムモデルが用いられてきていた。そのnグラムモデルでは、単語の種類の数をV個とした場合に、状態数がVの(n-1)乗のオーダーとなるため、大きなnのnグラムモデルを扱うことは困難であった。通常、n=3(トライグラム)であり、n=4,5程度が限界であった。



なお、近年、nグラム分布を階層的に生成する確率モデルが研究されてきている。その確率モデルでは、階層Pitman-Yor(ピットマン・ヨー)過程と呼ばれるノンパラメトリックな確率過程によって、適切にスムージングされたnグラム分布を0グラム→1グラム→2グラムとベイズ統計の枠組みから階層的に生成及び推定できることが知られている(例えば、非特許文献1、非特許文献2参照)。
【非特許文献1】
Yee Whye Teh、「A Bayesian Interpretation of Interpolated Kneser-Ney」 Technical Report TRA2/06」School of Computing,NUS、2006年
【非特許文献2】
Yee Whye Teh、「A Hierarchical Bayesian Language Model based on Pitman-Yor Processes」In Proc. of COLING/ACL 2006、p.985-992、2006年

産業上の利用分野



本発明は、記号の並びを示す訓練データに基づいて、各記号について可変長のグラム長を設定する処理等を行う情報処理装置等に関する。

特許請求の範囲 【請求項1】
記号の並びを示すデータである訓練データが記憶される訓練データ記憶部と、
前記訓練データに含まれる各記号に対応するグラム長を示す情報であるグラム長情報と、前記訓練データに含まれる各記号に対応するグラム長情報の示すグラム長より短いグラム長を有する代理の記号に関する情報である代理情報とが記憶される可変長情報記憶部と、
前記訓練データと前記グラム長情報と前記代理情報とに対応する、前記訓練データに含まれる記号の接尾辞木を示す情報である接尾辞木情報が記憶される接尾辞木情報記憶部と、
前記訓練データを用いて、前記接尾辞木情報を更新しながら前記各記号の前記グラム長情報と前記代理情報とをギブスサンプリングにより算出して前記可変長情報記憶部に蓄積する処理を繰り返して実行するギブスサンプリング処理を行うギブスサンプリング部と、を備え
前記ギブスサンプリング部は、
前記訓練データに含まれるすべての記号をランダムに順次選択する選択手段と、
前記選択手段が選択した記号がNグラム(Nは0以上の整数)となる確率を算出する確率算出手段と、
前記確率算出手段が算出した確率の分布に応じて、前記選択手段が選択した記号に対応するグラム長を選択し、当該選択したグラム長を前記グラム長情報に設定すると共に、前記選択手段が選択した記号に対応する代理の記号のグラム長を、当該選択されたグラム長に応じて階層Pitman-Yor過程により決定し、当該決定したグラム長を前記代理情報に設定する設定手段と、
前記選択手段が選択した記号に関する情報が削除されるように前記接尾辞木情報を更新すると共に、前記設定手段によるグラム長の選択及び代理の記号のグラム長の決定に応じて、当該選択されたグラム長の記号に関する情報が追加されるように前記接尾辞木情報を更新する接尾辞木情報更新手段と、
前記選択手段による訓練データに含まれるすべての記号のランダムな選択と、当該選択された記号に関するグラム長情報の設定、代理情報の設定、及び接尾辞木情報の更新とが、繰り返して実行されるように制御する制御手段と、を備え、
前記確率算出手段は、前記記号がNグラムとなる確率を、当該確率を算出する記号の階層Pitman-Yor過程におけるNグラム確率と、前記確率を算出する記号以外の前記接尾辞木情報における記号によってNグラム長に到達する確率とを掛け合わせることにより算出する、情報処理装置。

【請求項2】
記号の並びを示すデータであるテストデータが記憶されるテストデータ記憶部と、
前記訓練データと、前記グラム長情報と、前記代理情報とに対応する接尾辞木情報を用いて、前記テストデータに含まれる記号の可変長Nグラム確率を、当該確率を算出する記号の階層Piman-Yor過程におけるNグラム確率と、前記確率を算出する記号がNグラム長に到達する確率との積を各Nについて足しあわせることによって算出する確率算出部と、
前記確率算出部が算出した可変長Nグラム確率を出力する出力部と、をさらに備えた、請求項記載の情報処理装置。

【請求項3】
前記ギブスサンプリング部は、前記確率算出部が前記テストデータに含まれる記号の確率を算出するごとに、ギブスサンプリング処理を実行し、
前記確率算出部は、前記訓練データと、前記グラム長情報と、前記代理情報とに対応する接尾辞木情報を用いて、前記テストデータに含まれる記号の可変長Nグラム確率を、当該確率を算出する記号の階層Piman-Yor過程におけるNグラム確率と、前記確率を算出する記号がNグラム長に到達する確率との積を各Nについて足しあわせた値を、複数回のギブスサンプリングについて平均をとることによって算出する、請求項記載の情報処理装置。

【請求項4】
前記訓練データと、前記グラム長情報と、前記代理情報とに対応する接尾辞木情報を用いて、記号の並びに含まれる記号の確率を、当該確率を算出する記号の階層Piman-Yor過程におけるNグラム確率と、前記確率を算出する記号がNグラム長に到達する確率とを掛け合わせることによって算出する確率算出部と、
前記確率算出部が算出した複数の記号の確率において、他の記号の確率に比べて大きい確率を有する記号を含むK個(Kは、その記号の確率が算出された際のNグラム長の値である)の記号の並びである記号列を選択する記号列選択部と、
前記記号列選択部が選択した記号列を出力する出力部と、をさらに備えた、請求項記載の情報処理装置。

【請求項5】
前記確率算出部が確率を算出する記号の含まれる記号の並びは、前記訓練データに含まれる記号の並びである、請求項記載の情報処理装置。

【請求項6】
前記記号は単語であり、前記訓練データは、単語の並びを示す文書である、請求項1から請求項いずれか記載の情報処理装置。

【請求項7】
記号の並びを示すデータである訓練データが記憶される訓練データ記憶部と、前記訓練データに含まれる各記号に対応するグラム長を示す情報であるグラム長情報と、前記訓練データに含まれる各記号に対応するグラム長情報の示すグラム長より短いグラム長を有する代理の記号に関する情報である代理情報とが記憶される可変長情報記憶部と、前記訓練データと前記グラム長情報と前記代理情報とに対応する、前記訓練データに含まれる記号の接尾辞木を示す情報である接尾辞木情報が記憶される接尾辞木情報記憶部と、ギブスサンプリング部と、を用いて処理される情報処理方法であって、
前記ギブスサンプリング部が、前記訓練データを用いて、前記接尾辞木情報を更新しながら、前記各記号の前記グラム長情報と前記代理情報とをギブスサンプリングにより算出して前記可変長情報記憶部に蓄積する処理を繰り返して実行するギブスサンプリング処理を行うギブスサンプリングステップを備え
前記ギブスサンプリングステップは、
前記訓練データに含まれるすべての記号をランダムに順次選択する選択ステップと、
前記選択ステップで選択した記号がNグラム(Nは0以上の整数)となる確率を算出する確率算出ステップと、
前記確率算出ステップで算出した確率の分布に応じて、前記選択ステップで選択した記号に対応するグラム長を選択し、当該選択したグラム長を前記グラム長情報に設定すると共に、前記選択ステップで選択した記号に対応する代理の記号のグラム長を、当該選択されたグラム長に応じて階層Pitman-Yor過程により決定し、当該決定したグラム長を前記代理情報に設定する設定ステップと、
前記選択ステップで選択した記号に関する情報が削除されるように前記接尾辞木情報を更新すると共に、前記設定ステップにおけるグラム長の選択及び代理の記号のグラム長の決定に応じて、当該選択されたグラム長の記号に関する情報が追加されるように前記接尾辞木情報を更新する接尾辞木情報更新ステップと、
前記選択ステップにおける訓練データに含まれるすべての記号のランダムな選択と、当該選択された記号に関するグラム長情報の設定、代理情報の設定、及び接尾辞木情報の更新とが、繰り返して実行されるように制御する制御ステップと、を備え、
前記確率算出ステップでは、前記記号がNグラムとなる確率を、当該確率を算出する記号の階層Pitman-Yor過程におけるNグラム確率と、前記確率を算出する記号以外の前記接尾辞木情報における記号によってNグラム長に到達する確率とを掛け合わせることにより算出する、情報処理方法。

【請求項8】
コンピュータを、
訓練データ記憶部で記憶される、記号の並びを示すデータである訓練データを用いて、接尾辞木情報記憶部で記憶される、前記訓練データと前記訓練データに含まれる各記号に対応するグラム長を示す情報であり可変長情報記憶部で記憶されるグラム長情報と前記訓練データに含まれる各記号に対応するグラム長情報の示すグラム長より短いグラム長を有する代理の記号に関する情報であり前記可変長情報記憶部で記憶される代理情報とに対応する、前記訓練データに含まれる記号の接尾辞木を示す情報である接尾辞木情報を更新しながら、前記各記号の前記グラム長情報と前記代理情報とをギブスサンプリングにより算出して前記可変長情報記憶部に蓄積する処理を繰り返して実行するギブスサンプリング処理を行うギブスサンプリング部として機能させ
前記ギブスサンプリング部は、
前記訓練データに含まれるすべての記号をランダムに順次選択する選択手段と、
前記選択手段が選択した記号がNグラム(Nは0以上の整数)となる確率を算出する確率算出手段と、
前記確率算出手段が算出した確率の分布に応じて、前記選択手段が選択した記号に対応するグラム長を選択し、当該選択したグラム長を前記グラム長情報に設定すると共に、前記選択手段が選択した記号に対応する代理の記号のグラム長を、当該選択されたグラム長に応じて階層Pitman-Yor過程により決定し、当該決定したグラム長を前記代理情報に設定する設定手段と、
前記選択手段が選択した記号に関する情報が削除されるように前記接尾辞木情報を更新すると共に、前記設定手段によるグラム長の選択及び代理の記号のグラム長の決定に応じて、当該選択されたグラム長の記号に関する情報が追加されるように前記接尾辞木情報を更新する接尾辞木情報更新手段と、
前記選択手段による訓練データに含まれるすべての記号のランダムな選択と、当該選択された記号に関するグラム長情報の設定、代理情報の設定、及び接尾辞木情報の更新とが、繰り返して実行されるように制御する制御手段と、を備え、
前記確率算出手段は、前記記号がNグラムとなる確率を、当該確率を算出する記号の階層Pitman-Yor過程におけるNグラム確率と、前記確率を算出する記号以外の前記接尾辞木情報における記号によってNグラム長に到達する確率とを掛け合わせることにより算出する、プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2007165752thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close