Top > Search of Japanese Patents > METHOD AND DEVICE FOR DETECTING ERROR OF TEXT CORPUS

METHOD AND DEVICE FOR DETECTING ERROR OF TEXT CORPUS commons

Patent code P140010697
File No. 01-67
Posted date Jul 3, 2014
Application number P2001-246643
Publication number P2003-058860A
Patent number P3726125
Date of filing Aug 15, 2001
Date of publication of application Feb 28, 2003
Date of registration Oct 7, 2005
Inventor
  • (In Japanese)馬 青
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title METHOD AND DEVICE FOR DETECTING ERROR OF TEXT CORPUS commons
Abstract PROBLEM TO BE SOLVED: To provide a method and a device for embedding/extracting information, with which the creator or distributor of a language column can easily embed desired information, simultaneously, a reader or user hardly notices the existence of that information and further, the information can be surely extracted on the basis of a prescribed system, and to provide a recording medium.
SOLUTION: Significant information is embedded by changing the position relation of a line end character group and a line shift position comprising a character unit close to the terminal of each of rows in the language column. A language column capable of substantial print/display or electromagnetically recorded language column can be defined as an object for the language column as well. The character unit can be a division by a morpheme as well. A method is provided for extracting information from the language column prepared/ outputted by such an information embedding method. Then, a device for embedding/extracting information and a recording medium for recording the language column are provided.
Outline of related art and contending technology (In Japanese)

近年、さまざまなテキストコーパスが作られ、教師有り機械学習の研究をはじめとして、言語処理技術の研究が盛んに行われている。しかし、学習に用いられるテキストコーパスは人手によって作成されるため、多くの誤りを含み、この誤りが各研究の進捗を妨げたり、言語処理精度の低下を招く場合も多い。

このため、テキストコーパス中の誤りを検出・修正することは非常に重要な課題となっている。

従来から知られているテキストコーパス中の誤りを検出する試みとしては、形態素コーパス中での過分割の誤りを検出する方法(内山将夫、「形態素解析結果から過分割を検出する統計的尺度」、言語処理学会会誌、Vol.6、No.7、(1999))などがある。しかし、従来の手法の多くは、誤りの種類を特化し、汎用性の見えにくい手法である。

そこで、本件出願人らによって、一般的にどの問題に対しても用いることができると考えられている用例ベース手法や、決定リスト手法を利用した、対象とするコーパスのみから間違っている確率を算出し、誤りを検出する手法が考え出された。(村田真樹、内山将夫、内元清貴、馬青、井佐原均、「決定リスト、用例ベース手法を用いたコーパス誤り検出・誤り訂正」、情報処理学会 自然言語処理研究会、2000-NL-136、pp.49-56(2000))

しかし、これら従来の手法でも、学習の前に誤りの検出を行わなければならず、いわばオフラインでの検出手法である上に、検出処理も、誤りがありそうな部分への絞り込み作業なしに、全コーパスを対象に1語ずつ調べていくため、好適な検出効率を得ることは難しかった。

このため、大規模なテキストコーパスの場合には、検出が難しく、費用コスト的にも大きくなる問題があった。

Field of industrial application (In Japanese)

本発明は、言語処理に用いられるテキストコーパスの誤りを検出する方法に関し、より詳しくは、該誤り検出の高速化、高効率化に関する技術である。

Scope of claims (In Japanese)
【請求項1】
 
コンピュータ上で単語情報を含む予め作成されたテキストコーパスにおける該単語情報の誤りを検出する方法であって、
該コンピュータに備えたコンピュータ演算処理手段が該単語情報の分類をクラスとして出力する際に、
コンピュータ演算処理手段におけるニューラルネットワーク学習処理部が、
モジュール型ニューラルネットを用い、該単語情報の分類である多クラス問題を、所定の学習数以下となるまで小規模な2クラス問題である複数のサブセットに繰り返し分割し、複数のモジュールを構成する演算を行う工程、
該ニューラルネットワーク学習処理部が、複数の各ネットワークモジュールがニューラルネットワークにおける学習過程において収束するか否かの演算を行う工程、
コンピュータ演算処理手段における誤り検出処理部が、該ニューラルネットワーク学習処理部の演算処理の結果収束しない場合に、該モジュールに該単語情報の誤りがあると判定し、該モジュールを抽出する工程
を含むことを特徴とするテキストコーパスの誤り検出方法。

【請求項2】
 
前記単語情報が、品詞に係る情報であって、
該情報をタグ形式でテキスト中に埋め込み、テキストコーパスを構成し、
該タグの誤りを検出する
請求項1に記載のテキストコーパスの誤り検出方法。

【請求項3】
 
単語情報を含む予め作成されたテキストコーパスにおける該単語情報の誤りを検出する検出装置であって、
該検出装置に備えたコンピュータ演算処理手段におけるニューラルネットワーク学習処理部から該各単語情報の分類をクラスとして出力する際に、
該ニューラルネットワーク学習処理部において、該単語情報について多クラスの分類を行うネットワークモジュールから、小規模な2クラス問題である複数のサブセットに所定の学習数以下となるまで繰り返し分割して複数のモジュールを構成する演算を行い、
さらに、該ニューラルネットワーク学習処理部において複数の各ネットワークモジュールがニューラルネットワークにおける学習過程において収束するか否かの演算を行い、
コンピュータ演算処理手段における誤り検出処理部が、該ニューラルネットワーク学習処理部の演算処理の結果収束しない場合に、該モジュールに該単語情報の誤りがあると判定し、該モジュールを抽出する
一連の処理を行うことによって誤りを検出可能な
ことを特徴とする検出装置。

【請求項4】
 
前記単語情報が、品詞に係る情報であって、
該情報をタグ形式でテキスト中に埋め込み、テキストコーパスを構成し、
該タグの誤りを検出する
請求項3に記載のテキストコーパスの誤り検出装置。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2001246643thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close