TOP > 国内特許検索 > 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。

単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 コモンズ

国内特許コード P140010659
整理番号 09-29
掲載日 2014年6月17日
出願番号 特願2009-177488
公開番号 特開2011-034171
登録番号 特許第5317061号
出願日 平成21年7月30日(2009.7.30)
公開日 平成23年2月17日(2011.2.17)
登録日 平成25年7月19日(2013.7.19)
発明者
  • 呉 鍾勲
  • 内元 清貴
  • 鳥澤 健太郎
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 コモンズ
発明の概要 【課題】低コストで意味的知識を効率よく分類できる分類器を提供する。
【解決手段】同時学習装置150は、英単語間の意味的関係の有無を判定し、スコアとともに出力する英語分類器130、日本語単語について同様に動作する日本語分類器140、英日の学習データ134及び144、英日の学習データにより英語分類器130と日本語分類器140との学習を行なう学習部、英日の学習データの候補を日英に翻訳する英日翻訳部186及び日英翻訳部216、英日の翻訳結果188を日本語分類器140で分類した結果190及び元の英語に対する分類結果180に基づき、翻訳結果140のうち信頼性の高いものを日本語学習データ144に追加する更新部196、日英の翻訳結果218を英語分類器130で分類した結果220及び元の日本語に対する分類結果210に基づき、翻訳結果218のうち信頼性の高いものを英語学習データ134に追加する更新部226を含む。
【選択図】図4
従来技術、競合技術の概要



コンピュータを用いた情報処理技術、特に自然言語処理では、意味的知識をどのようにして獲得し集積するかに関する技術が必須である。たとえば質問に対する自動応答処理などにおいては、意味的関係を知ることは決定的に重要である。これ以外にも意味的知識が重要な役割を果たすことが多い。





たとえば、キーワードを用いた情報検索では、入力された単語の上位概念に相当する単語まで含めて検索が行なわれる場合がある。こうした場合、あらかじめ単語の上位下位(包摂)関係を記述した辞書(シソーラス)を準備しておく必要がある。シソーラスを手作業で準備してもよいが、現代のように変化の激しい社会では、意味の包摂関係を含めた言語に関する情勢の変化も速く、手作業ではそうした変化を辞書に的確に反映させることは事実上不可能である。そこで、自然言語処理技術を用い、そうしたシソーラスを自動的に、かつ精度高く作成する技術が求められている。





こうした要求は、単語の包摂関係にとどまらず、類語関係、症状とその原因、問題とその予防、問題とその対策、全体と部分、原因と結果など、語彙の間の意味的関係を用いる技術全般についても存在している。





語彙の意味的関係の自動的な獲得は、従来、任意の単語のペアに対し、ある特定の意味的関係があるか否かを二値分類するタスクとして扱われることが多い。二値分類のタスクには、教師あり学習がよく採用され、効果を挙げている。





図1に、後掲の非特許文献1に記載の、従来の意味的関係の分類システム30の概略ブロック図を示す。図1を参照して、この分類システム30は、たとえば日本語の2つの単語間に包摂関係があるか否かを判定するための、SVM(Support Vector Machine)、CRF(Conditional Random Fields)又はMEM(Maximum Entropy Model)などの、機械学習による確率モデルを用いた分類器44と、分類器44の学習を行なうために、日本語の単語対と、それら単語対の間に包摂関係があるか否かを示すラベルとからなる学習データ40を多数記憶するための記憶装置と、この学習データ40を用いて分類器44の機械学習を行なうための機械学習部42とを含む。学習データ40を用いて分類器44の学習を行なうことにより、日本語の単語対46が与えられると、分類器44はこの単語の間に上記した意味的関係(包摂関係)が存在するか否かを示すラベル(真又は偽)と、その結果の信頼度を示すスコアとを出力する。信頼度としては、たとえばSVMの場合には分類の境界となる超平面から、入力された単語対を示す点までの距離を用いることができる。一般的に機械学習モデルを分類器として用いる場合には、確率又はそれと等価な形でスコアが出力されるので、そのスコアを信頼度として用いることができる。

産業上の利用分野



この発明は自然言語処理に関し、特に、単語間の意味的関係を精度よく獲得するための技術に関する。

特許請求の範囲 【請求項1】
第1の言語の単語の対の間の所定の意味的関係の有無を判定し、信頼度を示すスコアとともに判定結果を出力する第1の分類器と、第2の言語の単語の対の間の前記意味的関係の有無を判定し、信頼度を示すスコアとともに出力する第2の分類器とを同時に機械学習により学習させるための同時学習装置であって、
前記第1及び第2の言語の分類器の学習のための学習データを記憶するための第1及び第2の学習データ記憶手段と、
前記第1及び第2の学習データ記憶手段に追加される候補となる第1及び第2の学習データ候補をそれぞれ記憶するための第1及び第2の候補記憶手段と、
前記第1及び第2の学習データ記憶手段に記憶された学習データを用いて前記第1及び第2の分類器の学習をそれぞれ行なうための第1及び第2の学習手段と、
前記第1及び第2の分類器を用いて、前記第1及び第2の候補記憶手段に記憶された前記第1及び第2の学習データ候補をそれぞれ分類させ、分類結果とスコアとをそれぞれ出力させるための第1及び第2の分類手段と、
前記第1及び第2の候補記憶手段に記憶された前記第1及び第2の学習データ候補をそれぞれ前記第2及び第1の言語に翻訳するための第1及び第2の翻訳手段と、
前記第1及び第2の翻訳手段によりそれぞれ翻訳された後の前記第2及び前記第1の言語の学習候補とを、前記第2及び第1の分類器を用いてそれぞれ分類させ、分類結果とスコアとをそれぞれ出力させるための第3及び第4の分類手段と、
前記第1の分類手段による分類結果及びスコアと、前記第3の分類手段による分類結果及びスコアとに基づいて、前記第1の翻訳手段による翻訳結果のうち、所定の条件を充足するものを選択し、前記第1の分類手段による分類結果とともに前記第2の学習データ記憶手段に追加するための第1の更新手段と、
前記第2の分類手段による分類結果及びスコアと、前記第4の分類手段による分類結果及びスコアとに基づいて、前記第2の翻訳手段による翻訳結果のうち、所定の条件を充足するものを選択し、前記第2の分類手段による分類結果とともに前記第1の学習データ記憶手段に追加するための第2の更新手段と、
前記第1及び第2の学習手段、前記第1及び第2の分類手段、前記第1及び第2の翻訳手段、前記第3及び第4の分類手段、ならびに前記第1及び第2の更新手段による処理を、所定の終了条件が成立するまで繰返させるための繰返し制御手段とを含む、同時学習装置。

【請求項2】
前記第1の更新手段は、
前記第1の翻訳手段による翻訳結果のうち、前記第1の分類手段によるスコアが所定の第1のしきい値以上の学習データに対する翻訳結果で、かつ前記第3の分類手段によるスコアが所定の第2のしきい値未満であるものを、前記第1の分類手段による分類結果とともに、前記第2の学習データ記憶手段に追加するための手段と、
前記第1の翻訳手段による翻訳結果のうち、前記第1の分類手段によるスコアが前記第1のしきい値以上の学習データに対する翻訳結果で、かつ前記第3の分類手段によるスコアが前記第2のしきい値以上であって、かつ前記第1及び第3の分類手段による分類結果が一致するものを、前記第1の分類手段による分類結果とともに、前記第2の学習データ記憶手段に追加するための手段とを含む、請求項1に記載の同時学習装置。

【請求項3】
前記第2の更新手段は、
前記第2の翻訳手段による翻訳結果のうち、前記第2の分類手段によるスコアが所定の第3のしきい値以上の学習データに対する翻訳結果で、かつ前記第4の分類手段によるスコアが所定の第4のしきい値未満であるものを、前記第2の分類手段による分類結果とともに、前記第1の学習データ記憶手段に追加するための手段と、
前記第2の翻訳手段による翻訳結果のうち、前記第2の分類手段によるスコアが前記第3のしきい値以上の学習データに対する翻訳結果で、かつ前記第4の分類手段によるスコアが前記第4のしきい値以上であって、かつ前記第2及び第4の分類手段による分類結果が一致するものを、前記第2の分類手段による分類結果とともに、前記第1の学習データ記憶手段に追加するための手段とを含む、請求項2に記載の同時学習装置。

【請求項4】
前記第1及び第2の分類器は、互いに同じ種類の機械学習モデルにより実現される、請求項1-請求項3のいずれかに記載の同時学習装置。

【請求項5】
前記第1及び第2の分類器は、互いに異なる種類の機械学習モデルにより実現される、請求項1-請求項3のいずれかに記載の同時学習装置。

【請求項6】
前記第1及び第2の言語は互いに異なる、請求項1-請求項6のいずれかに記載の同時学習装置。

【請求項7】
コンピュータにより実行されると、当該コンピュータを、請求項1-請求項6のいずれかに記載の同時学習装置として動作させる、コンピュータプログラム。

【請求項8】
請求項7に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009177488thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close