Top > Search of Japanese Patents > SIMULTANEOUS CLASSIFIER IN MULTI-LANGUAGE ABOUT PRESENCE/ABSENCE OF INTER-WORD SEMANTIC RELATION, AND COMPUTER PROGRAM THEREFOR

SIMULTANEOUS CLASSIFIER IN MULTI-LANGUAGE ABOUT PRESENCE/ABSENCE OF INTER-WORD SEMANTIC RELATION, AND COMPUTER PROGRAM THEREFOR commons

Patent code P140010659
File No. 09-29
Posted date Jun 17, 2014
Application number P2009-177488
Publication number P2011-034171A
Patent number P5317061
Date of filing Jul 30, 2009
Date of publication of application Feb 17, 2011
Date of registration Jul 19, 2013
Inventor
  • (In Japanese)呉 鍾勲
  • (In Japanese)内元 清貴
  • (In Japanese)鳥澤 健太郎
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title SIMULTANEOUS CLASSIFIER IN MULTI-LANGUAGE ABOUT PRESENCE/ABSENCE OF INTER-WORD SEMANTIC RELATION, AND COMPUTER PROGRAM THEREFOR commons
Abstract PROBLEM TO BE SOLVED: To provide a classifier capable of inexpensively and efficiently classifying semantic knowledge.
SOLUTION: A simultaneous learning device 150 includes: an English classifier 130 for determining the presence/absence of inter-English word semantic relation, and for outputting it with scores; a Japanese classifier 140 operating in the same way about Japanese words; a storage part for storing English/Japanese learning data 134 and 144, a learning part for performing the learning of the English classifier 130 and the Japanese classifier 140 by the English/Japanese learning data, English/Japanese translation part 186 and a Japanese/English translation part 216 for translating the candidates of the English/Japanese learning data into Japanese/English; an update part 196 for adding a highly reliable translation result 140 to the Japanese learning data 144 based on a result 190 obtained by classifying the English/Japanese translation result 188 by the Japanese classifier 140 and a classification result 180 to the original English; and an update part 226 for adding a highly reliable translation result 218 to English learning data 134 based on a result 220 obtained by classifying the Japanese/English translation result 218 by an English classifier 130 and a classification result 210 to the original Japanese.
Outline of related art and contending technology (In Japanese)

コンピュータを用いた情報処理技術、特に自然言語処理では、意味的知識をどのようにして獲得し集積するかに関する技術が必須である。たとえば質問に対する自動応答処理などにおいては、意味的関係を知ることは決定的に重要である。これ以外にも意味的知識が重要な役割を果たすことが多い。

たとえば、キーワードを用いた情報検索では、入力された単語の上位概念に相当する単語まで含めて検索が行なわれる場合がある。こうした場合、あらかじめ単語の上位下位(包摂)関係を記述した辞書(シソーラス)を準備しておく必要がある。シソーラスを手作業で準備してもよいが、現代のように変化の激しい社会では、意味の包摂関係を含めた言語に関する情勢の変化も速く、手作業ではそうした変化を辞書に的確に反映させることは事実上不可能である。そこで、自然言語処理技術を用い、そうしたシソーラスを自動的に、かつ精度高く作成する技術が求められている。

こうした要求は、単語の包摂関係にとどまらず、類語関係、症状とその原因、問題とその予防、問題とその対策、全体と部分、原因と結果など、語彙の間の意味的関係を用いる技術全般についても存在している。

語彙の意味的関係の自動的な獲得は、従来、任意の単語のペアに対し、ある特定の意味的関係があるか否かを二値分類するタスクとして扱われることが多い。二値分類のタスクには、教師あり学習がよく採用され、効果を挙げている。

図1に、後掲の非特許文献1に記載の、従来の意味的関係の分類システム30の概略ブロック図を示す。図1を参照して、この分類システム30は、たとえば日本語の2つの単語間に包摂関係があるか否かを判定するための、SVM(Support Vector Machine)、CRF(Conditional Random Fields)又はMEM(Maximum Entropy Model)などの、機械学習による確率モデルを用いた分類器44と、分類器44の学習を行なうために、日本語の単語対と、それら単語対の間に包摂関係があるか否かを示すラベルとからなる学習データ40を多数記憶するための記憶装置と、この学習データ40を用いて分類器44の機械学習を行なうための機械学習部42とを含む。学習データ40を用いて分類器44の学習を行なうことにより、日本語の単語対46が与えられると、分類器44はこの単語の間に上記した意味的関係(包摂関係)が存在するか否かを示すラベル(真又は偽)と、その結果の信頼度を示すスコアとを出力する。信頼度としては、たとえばSVMの場合には分類の境界となる超平面から、入力された単語対を示す点までの距離を用いることができる。一般的に機械学習モデルを分類器として用いる場合には、確率又はそれと等価な形でスコアが出力されるので、そのスコアを信頼度として用いることができる。

Field of industrial application (In Japanese)

この発明は自然言語処理に関し、特に、単語間の意味的関係を精度よく獲得するための技術に関する。

Scope of claims (In Japanese)
【請求項1】
 
第1の言語の単語の対の間の所定の意味的関係の有無を判定し、信頼度を示すスコアとともに判定結果を出力する第1の分類器と、第2の言語の単語の対の間の前記意味的関係の有無を判定し、信頼度を示すスコアとともに出力する第2の分類器とを同時に機械学習により学習させるための同時学習装置であって、
前記第1及び第2の言語の分類器の学習のための学習データを記憶するための第1及び第2の学習データ記憶手段と、
前記第1及び第2の学習データ記憶手段に追加される候補となる第1及び第2の学習データ候補をそれぞれ記憶するための第1及び第2の候補記憶手段と、
前記第1及び第2の学習データ記憶手段に記憶された学習データを用いて前記第1及び第2の分類器の学習をそれぞれ行なうための第1及び第2の学習手段と、
前記第1及び第2の分類器を用いて、前記第1及び第2の候補記憶手段に記憶された前記第1及び第2の学習データ候補をそれぞれ分類させ、分類結果とスコアとをそれぞれ出力させるための第1及び第2の分類手段と、
前記第1及び第2の候補記憶手段に記憶された前記第1及び第2の学習データ候補をそれぞれ前記第2及び第1の言語に翻訳するための第1及び第2の翻訳手段と、
前記第1及び第2の翻訳手段によりそれぞれ翻訳された後の前記第2及び前記第1の言語の学習候補とを、前記第2及び第1の分類器を用いてそれぞれ分類させ、分類結果とスコアとをそれぞれ出力させるための第3及び第4の分類手段と、
前記第1の分類手段による分類結果及びスコアと、前記第3の分類手段による分類結果及びスコアとに基づいて、前記第1の翻訳手段による翻訳結果のうち、所定の条件を充足するものを選択し、前記第1の分類手段による分類結果とともに前記第2の学習データ記憶手段に追加するための第1の更新手段と、
前記第2の分類手段による分類結果及びスコアと、前記第4の分類手段による分類結果及びスコアとに基づいて、前記第2の翻訳手段による翻訳結果のうち、所定の条件を充足するものを選択し、前記第2の分類手段による分類結果とともに前記第1の学習データ記憶手段に追加するための第2の更新手段と、
前記第1及び第2の学習手段、前記第1及び第2の分類手段、前記第1及び第2の翻訳手段、前記第3及び第4の分類手段、ならびに前記第1及び第2の更新手段による処理を、所定の終了条件が成立するまで繰返させるための繰返し制御手段とを含む、同時学習装置。

【請求項2】
 
前記第1の更新手段は、
前記第1の翻訳手段による翻訳結果のうち、前記第1の分類手段によるスコアが所定の第1のしきい値以上の学習データに対する翻訳結果で、かつ前記第3の分類手段によるスコアが所定の第2のしきい値未満であるものを、前記第1の分類手段による分類結果とともに、前記第2の学習データ記憶手段に追加するための手段と、
前記第1の翻訳手段による翻訳結果のうち、前記第1の分類手段によるスコアが前記第1のしきい値以上の学習データに対する翻訳結果で、かつ前記第3の分類手段によるスコアが前記第2のしきい値以上であって、かつ前記第1及び第3の分類手段による分類結果が一致するものを、前記第1の分類手段による分類結果とともに、前記第2の学習データ記憶手段に追加するための手段とを含む、請求項1に記載の同時学習装置。

【請求項3】
 
前記第2の更新手段は、
前記第2の翻訳手段による翻訳結果のうち、前記第2の分類手段によるスコアが所定の第3のしきい値以上の学習データに対する翻訳結果で、かつ前記第4の分類手段によるスコアが所定の第4のしきい値未満であるものを、前記第2の分類手段による分類結果とともに、前記第1の学習データ記憶手段に追加するための手段と、
前記第2の翻訳手段による翻訳結果のうち、前記第2の分類手段によるスコアが前記第3のしきい値以上の学習データに対する翻訳結果で、かつ前記第4の分類手段によるスコアが前記第4のしきい値以上であって、かつ前記第2及び第4の分類手段による分類結果が一致するものを、前記第2の分類手段による分類結果とともに、前記第1の学習データ記憶手段に追加するための手段とを含む、請求項2に記載の同時学習装置。

【請求項4】
 
前記第1及び第2の分類器は、互いに同じ種類の機械学習モデルにより実現される、請求項1-請求項3のいずれかに記載の同時学習装置。

【請求項5】
 
前記第1及び第2の分類器は、互いに異なる種類の機械学習モデルにより実現される、請求項1-請求項3のいずれかに記載の同時学習装置。

【請求項6】
 
前記第1及び第2の言語は互いに異なる、請求項1-請求項6のいずれかに記載の同時学習装置。

【請求項7】
 
コンピュータにより実行されると、当該コンピュータを、請求項1-請求項6のいずれかに記載の同時学習装置として動作させる、コンピュータプログラム。

【請求項8】
 
請求項7に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2009177488thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close