TOP > 国内特許検索 > テキストコーパスの誤り検出方法及び装置

テキストコーパスの誤り検出方法及び装置 コモンズ

国内特許コード P140010697
整理番号 01-67
掲載日 2014年7月3日
出願番号 特願2001-246643
公開番号 特開2003-058860
登録番号 特許第3726125号
出願日 平成13年8月15日(2001.8.15)
公開日 平成15年2月28日(2003.2.28)
登録日 平成17年10月7日(2005.10.7)
発明者
  • 馬 青
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 テキストコーパスの誤り検出方法及び装置 コモンズ
発明の概要 【課題】 言語列の作成者や配布者らが、容易に所望の情報を埋め込むことが出来ると同時に、読者や利用者がその存在に気付き難く、しかも所定の方式に基づけば確実に抽出が可能な情報埋込・抽出方法及びその装置並びに記録媒体を提供すること。
【解決手段】 言語列における各行の終端近傍の文字単位を構成する行末文字群と改行位置との位置関係を変化させることによって有意な情報を埋め込む。前記言語列には、実体的に印刷・表示可能な言語列や、電磁的に記録された言語列を対象とすることもできる。文字単位が形態素による区分でもよい。これらの情報埋込方法によって作成・出力された言語列から情報抽出する方法を提供する。そして、情報埋込・抽出を行う装置や、言語列を記録する記録媒体を提供する。
従来技術、競合技術の概要



近年、さまざまなテキストコーパスが作られ、教師有り機械学習の研究をはじめとして、言語処理技術の研究が盛んに行われている。しかし、学習に用いられるテキストコーパスは人手によって作成されるため、多くの誤りを含み、この誤りが各研究の進捗を妨げたり、言語処理精度の低下を招く場合も多い。

このため、テキストコーパス中の誤りを検出・修正することは非常に重要な課題となっている。





従来から知られているテキストコーパス中の誤りを検出する試みとしては、形態素コーパス中での過分割の誤りを検出する方法(内山将夫、「形態素解析結果から過分割を検出する統計的尺度」、言語処理学会会誌、Vol.6、No.7、(1999))などがある。しかし、従来の手法の多くは、誤りの種類を特化し、汎用性の見えにくい手法である。





そこで、本件出願人らによって、一般的にどの問題に対しても用いることができると考えられている用例ベース手法や、決定リスト手法を利用した、対象とするコーパスのみから間違っている確率を算出し、誤りを検出する手法が考え出された。(村田真樹、内山将夫、内元清貴、馬青、井佐原均、「決定リスト、用例ベース手法を用いたコーパス誤り検出・誤り訂正」、情報処理学会 自然言語処理研究会、2000-NL-136、pp.49-56(2000))

しかし、これら従来の手法でも、学習の前に誤りの検出を行わなければならず、いわばオフラインでの検出手法である上に、検出処理も、誤りがありそうな部分への絞り込み作業なしに、全コーパスを対象に1語ずつ調べていくため、好適な検出効率を得ることは難しかった。

このため、大規模なテキストコーパスの場合には、検出が難しく、費用コスト的にも大きくなる問題があった。

産業上の利用分野



本発明は、言語処理に用いられるテキストコーパスの誤りを検出する方法に関し、より詳しくは、該誤り検出の高速化、高効率化に関する技術である。

特許請求の範囲 【請求項1】
コンピュータ上で単語情報を含む予め作成されたテキストコーパスにおける該単語情報の誤りを検出する方法であって、
該コンピュータに備えたコンピュータ演算処理手段が該単語情報の分類をクラスとして出力する際に、
コンピュータ演算処理手段におけるニューラルネットワーク学習処理部が、
モジュール型ニューラルネットを用い、該単語情報の分類である多クラス問題を、所定の学習数以下となるまで小規模な2クラス問題である複数のサブセットに繰り返し分割し、複数のモジュールを構成する演算を行う工程、
該ニューラルネットワーク学習処理部が、複数の各ネットワークモジュールがニューラルネットワークにおける学習過程において収束するか否かの演算を行う工程、
コンピュータ演算処理手段における誤り検出処理部が、該ニューラルネットワーク学習処理部の演算処理の結果収束しない場合に、該モジュールに該単語情報の誤りがあると判定し、該モジュールを抽出する工程
を含むことを特徴とするテキストコーパスの誤り検出方法。

【請求項2】
前記単語情報が、品詞に係る情報であって、
該情報をタグ形式でテキスト中に埋め込み、テキストコーパスを構成し、
該タグの誤りを検出する
請求項1に記載のテキストコーパスの誤り検出方法。

【請求項3】
単語情報を含む予め作成されたテキストコーパスにおける該単語情報の誤りを検出する検出装置であって、
該検出装置に備えたコンピュータ演算処理手段におけるニューラルネットワーク学習処理部から該各単語情報の分類をクラスとして出力する際に、
該ニューラルネットワーク学習処理部において、該単語情報について多クラスの分類を行うネットワークモジュールから、小規模な2クラス問題である複数のサブセットに所定の学習数以下となるまで繰り返し分割して複数のモジュールを構成する演算を行い、
さらに、該ニューラルネットワーク学習処理部において複数の各ネットワークモジュールがニューラルネットワークにおける学習過程において収束するか否かの演算を行い、
コンピュータ演算処理手段における誤り検出処理部が、該ニューラルネットワーク学習処理部の演算処理の結果収束しない場合に、該モジュールに該単語情報の誤りがあると判定し、該モジュールを抽出する
一連の処理を行うことによって誤りを検出可能な
ことを特徴とする検出装置。

【請求項4】
前記単語情報が、品詞に係る情報であって、
該情報をタグ形式でテキスト中に埋め込み、テキストコーパスを構成し、
該タグの誤りを検出する
請求項3に記載のテキストコーパスの誤り検出装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2001246643thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close