Top > Search of Japanese Patents > SYSTEM AND PROCESSING METHOD FOR DETECTING/CORRECTING CORPUS ERROR AND PROGRAM RECORDING MEDIUM

SYSTEM AND PROCESSING METHOD FOR DETECTING/CORRECTING CORPUS ERROR AND PROGRAM RECORDING MEDIUM commons

Patent code P140010688
File No. 00-52
Posted date Jul 2, 2014
Application number P2000-280582
Publication number P2002-091961A
Patent number P3396734
Date of filing Sep 14, 2000
Date of publication of application Mar 29, 2002
Date of registration Feb 14, 2003
Inventor
  • (In Japanese)村田 真樹
  • (In Japanese)内山 将夫
  • (In Japanese)内元 清貴
  • (In Japanese)馬 青
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title SYSTEM AND PROCESSING METHOD FOR DETECTING/CORRECTING CORPUS ERROR AND PROGRAM RECORDING MEDIUM commons
Abstract PROBLEM TO BE SOLVED: To detect various errors in a tagged corpus and to automatically correct the detected errors.
SOLUTION: An error candidate segmenting part 11 segments an error candidate from the tagged corpus, an error place detecting part 12 evaluates whether the tag of the segmented error candidate is wrong by calculating the correct answer probability of the error candidate, the error probability of the error candidate and the correct answer probability of a changeable correction candidate, and an error place correcting part 13 presents the correction candidate or outputs a corrected corpus 22 on the basis of evaluation results.
Outline of related art and contending technology (In Japanese)

近年,さまざまなコーパスが作られ,「教師あり機械学習」の研究をはじめとして,コーパスを用いた多種多様な研究が数多くなされている。しかし,コーパスには誤りが付きもので,この誤りが各研究の進捗を妨げる場合も多い。このため,コーパス中の誤りを検出・修正することは非常に重要なことである。
このコーパス中の誤りを検出する試みが,最近いくつかなされ始めている。
[参考文献1]内山将夫,形態素解析結果から過分割を検出する統計的尺度,
言語処理学会誌,Vol.6 ,No.7,1999.
この参考文献1では,例えば「休憩室」という語がコーパスで「休」と「憩室」に分割されているような誤りを検出する研究について示されている。
[参考文献2]乾孝司 乾健太郎,統計的部分係り受け解析における係り受け確率の利用法--- コーパス中の構文タグ誤りの検出 ---,情報処理学会自然言語処理研究会
99-NL-134 ,1999.
この参考文献2では,コーパス中の構文的誤りを検出する研究について示されている。
まず,上記参考文献1に記載されている技術について説明する。この参考文献1の研究では,形態素コーパスでの過分割の誤り,例えば,「休憩室」を「休」「憩室」と分割してしまう誤りを検出する方法を提案している。単語分割の問題は,情報検索において重要な問題として位置づけられている。ここでは,「分割した場合の確率」と「つなげた場合の確率」をコーパスから求め,「つなげた場合の確率」の方が圧倒的に大きい場合に,分割するのは間違いであると判定する。
また,上記参考文献2の研究では,構文情報のコーパスでの係り先の誤りを検出する方法を提案している。コーパス中のある文節Xの係り先Yが合っているかどうかを調べる場合,コーパスからその文節Xがその係り先Yになる確率を求め,その確率が極端に小さい場合にその係り先Yは間違いであると判定する。
両者の研究は,一般化して考えるとほぼ同様なことをしており,コーパスのタグが合っている確率と間違っている確率を求め,間違っている確率の方が圧倒的に大きい場合に,そのコーパスのタグを誤りとするという方法を採っている。「間違っている確率」の大きいものを間違っているものと考えるのは自然なことであり,ほとんどのコーパス修正の研究で,この種の考え方を利用することが可能であると考えられる。
しかし,先の二つの研究で用いられた手法は,いずれも形態素の過分割,係り受け誤りと,それぞれその問題に特化した方法を用いて誤り検出を行っていたため,その手法の汎用性を見えにくくしている。
参考文献1の過分割の研究では,過分割の検出に特化したような式,例えば,P(x)をxの出現率として,
P(休憩室)/(P(休)P(憩室))
が用いられている。ここで,P(休),P(憩室)の部分は,「休」「憩室」の単純な出現率を用いているが,厳密には「休憩室」という文字列が,「休」と「憩室」に分割される確率を用いるもので,近似をすでに使ったものとなっている。この近似は,データスパースネスに対処するためのものであるが,この近似自体は,過分割の検出と同じような問題でしか使えない。
また,参考文献2の研究では,すでにできあがった構文解析システムが出す誤り確率を利用している。この構文解析システムでは,構文解析に特化した情報を数多く利用していると思われるし,また,誤りを検出する対象とするコーパス以外の情報を用いている可能性も高く,汎用的なコーパス修正とは言いにくい。

Field of industrial application (In Japanese)

本発明は,計算機による言語処理システムの分野で用いられるコーパスの誤りを検出し,それを自動修正することを可能にしたコーパス誤りの検出・修正システムに関するものである。
コーパスとは,言語分析用の電子化された言語資料である。言語処理の分野では,システムの構築にコーパスを参照することが多く,コーパスは重要な役割を果している。特に,タグ付きコーパスとは,以下のように普通の文(「車で行く。」)に特殊なタグ(品詞情報など)が付いているものをいう。
『車(名詞) で(助詞) 行く(動詞) 。』このコーパスに付けられたタグが間違っている場合もあり,このことが各研究の進捗の妨げになることも多い。本発明は,このコーパス中の誤りを,決定リスト,用例ベース手法などを用いて,検出したり訂正したりするものである。

Scope of claims (In Japanese)
【請求項1】
 
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正するためのコーパス誤りの検出・修正理装置であって,
前記タグ付きコーパスが格納された記憶装置から,所定の個数以下のデータ項目の組を取り出し,検査対象の誤り候補とする誤り候補切り出し手段と,
決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する誤り候補の正解確率であって,前記検査対象の誤り候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその誤り候補の出現する確率である正解確率,または決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する前記検査対象の誤り候補と同じ表記を持つ変更可能な候補の正解確率であって,前記変更可能な候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその変更可能な候補の出現する確率である正解確率に基づいて,前記検査対象の誤り候補のタグが誤っているかどうかを評価する誤り箇所検出手段と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する誤り箇所修正手段とを備える
ことを特徴とするコーパス誤りの検出・修正処理装置

【請求項2】
 
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正するためのコーパス誤りの検出・修正理装置であって,
前記タグ付きコーパスが格納された記憶装置から,ある文節Xの係り先がYのときに,他の係り先候補をZ1,Z2,Z3,…として,X,Y,Zi (i=1,2,3,…)といった三つ組のデータを誤り候補の単位として切り出す誤り候補切り出し手段と,
あらかじめ定義した文節情報の各パターンについて,現在の検査対象パターンの形でのコーパスでの,前記Yが係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを誤り候補の正解率として算出し,または現在の検査対象パターンの形でのコーパスでの,前記Zi (i=1,2,3,…)が係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを変更可能な候補Zi の正解率として算出し,切り出した誤り候補のタグが誤っているかどうかを,前記パターンのすべてについて算出した前記誤り候補の正解確率または変更可能な候補の正解確率に基づいて評価する誤り箇所検出手段と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する誤り箇所修正手段とを備える
ことを特徴とするコーパス誤りの検出・修正処理装置。

【請求項3】
 
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正する処理をコンピュータが実行するコーパス誤りの検出・修正処理方法であって,
前記タグ付きコーパスが格納された記憶装置から,所定の個数以下のデータ項目の組を取り出し,検査対象の誤り候補とする過程と,
決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する誤り候補の正解確率であって,前記検査対象の誤り候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその誤り候補の出現する確率である正解確率,または決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する前記検査対象の誤り候補と同じ表記を持つ変更可能な候補の正解確率であって,前記変更可能な候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその変更可能な候補の出現する確率である正解確率に基づいて,前記検査対象の誤り候補のタグが誤っているかどうかを評価する過程と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する過程とを有する
ことを特徴とするコーパス誤りの検出・修正処理方法。

【請求項4】
 
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正する処理をコンピュータが実行するコーパス誤りの検出・修正処理方法であって,
前記タグ付きコーパスが格納された記憶装置から,ある文節Xの係り先がYのときに,他の係り先候補をZ1,Z2,Z3,…として,X,Y,Zi (i=1,2,3,…)といった三つ組のデータを誤り候補の単位として切り出す過程と,
あらかじめ定義した文節情報の各パターンについて,現在の検査対象パターンの形でのコーパスでの,前記Yが係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを誤り候補の正解率として算出し,または現在の検査対象パターンの形でのコーパスでの,前記Zi (i=1,2,3,…)が係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを変更可能な候補Zi の正解率として算出し,切り出した誤り候補のタグが誤っているかどうかを,前記パターンのすべてについて算出した前記誤り候補の正解確率または変更可能な候補の正解確率に基づいて評価する過程と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する過程とを有する
ことを特徴とするコーパス誤りの検出・修正処理方法。

【請求項5】
 
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを,コンピュータが検出し修正するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記タグ付きコーパスが格納された記憶装置から,所定の個数以下のデータ項目の組を取り出し,検査対象の誤り候補とする処理と,
決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する誤り候補の正解確率であって,前記検査対象の誤り候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその誤り候補の出現する確率である正解確率,または決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する前記検査対象の誤り候補と同じ表記を持つ変更可能な候補の正解確率であって,前記変更可能な候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその変更可能な候補の出現する確率である正解確率に基づいて,前記検査対象の誤り候補のタグが誤っているかどうかを評価する処理と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する処理とを,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とするコーパス誤りの検出・修正用プログラム記録媒体。

【請求項6】
 
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを,コンピュータが検出し修正するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記タグ付きコーパスが格納された記憶装置から,ある文節Xの係り先がYのときに,他の係り先候補をZ1,Z2,Z3,…として,X,Y,Zi (i=1,2,3,…)といった三つ組のデータを誤り候補の単位として切り出す処理と,
あらかじめ定義した文節情報の各パターンについて,現在の検査対象パターンの形でのコーパスでの,前記Yが係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを誤り候補の正解率として算出し,または現在の検査対象パターンの形でのコーパスでの,前記Zi (i=1,2,3,…)が係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを変更可能な候補Zi の正解率として算出し,切り出した誤り候補のタグが誤っているかどうかを,前記パターンのすべてについて算出した前記誤り候補の正解確率または変更可能な候補の正解確率に基づいて評価する処理と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する処理とを,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とするコーパス誤りの検出・修正用プログラム記録媒体。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2000280582thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close