TOP > 国内特許検索 > コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 コモンズ

国内特許コード P140010688
整理番号 00-52
掲載日 2014年7月2日
出願番号 特願2000-280582
公開番号 特開2002-091961
登録番号 特許第3396734号
出願日 平成12年9月14日(2000.9.14)
公開日 平成14年3月29日(2002.3.29)
登録日 平成15年2月14日(2003.2.14)
発明者
  • 村田 真樹
  • 内山 将夫
  • 内元 清貴
  • 馬 青
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 コモンズ
発明の概要 【課題】 タグ付きコーパスにおける種々の誤りを検出し,検出した誤りを自動的に修正できるようにする。
【解決手段】 誤り候補切り出し部11によって,タグ付きコーパスから誤り候補を切り出し,誤り箇所検出部12によって,切り出した誤り候補のタグが誤っているかどうかを,誤り候補の正解確率,誤り候補の誤り確率および変更可能な修正候補の正解確率の算出によって評価し,誤り箇所修正部13によって,評価結果に基づき修正候補の提示または修正されたコーパス22を出力する。
従来技術、競合技術の概要


近年,さまざまなコーパスが作られ,「教師あり機械学習」の研究をはじめとして,コーパスを用いた多種多様な研究が数多くなされている。しかし,コーパスには誤りが付きもので,この誤りが各研究の進捗を妨げる場合も多い。このため,コーパス中の誤りを検出・修正することは非常に重要なことである。
このコーパス中の誤りを検出する試みが,最近いくつかなされ始めている。
[参考文献1]内山将夫,形態素解析結果から過分割を検出する統計的尺度,
言語処理学会誌,Vol.6 ,No.7,1999.
この参考文献1では,例えば「休憩室」という語がコーパスで「休」と「憩室」に分割されているような誤りを検出する研究について示されている。
[参考文献2]乾孝司 乾健太郎,統計的部分係り受け解析における係り受け確率の利用法--- コーパス中の構文タグ誤りの検出 ---,情報処理学会自然言語処理研究会
99-NL-134 ,1999.
この参考文献2では,コーパス中の構文的誤りを検出する研究について示されている。
まず,上記参考文献1に記載されている技術について説明する。この参考文献1の研究では,形態素コーパスでの過分割の誤り,例えば,「休憩室」を「休」「憩室」と分割してしまう誤りを検出する方法を提案している。単語分割の問題は,情報検索において重要な問題として位置づけられている。ここでは,「分割した場合の確率」と「つなげた場合の確率」をコーパスから求め,「つなげた場合の確率」の方が圧倒的に大きい場合に,分割するのは間違いであると判定する。
また,上記参考文献2の研究では,構文情報のコーパスでの係り先の誤りを検出する方法を提案している。コーパス中のある文節Xの係り先Yが合っているかどうかを調べる場合,コーパスからその文節Xがその係り先Yになる確率を求め,その確率が極端に小さい場合にその係り先Yは間違いであると判定する。
両者の研究は,一般化して考えるとほぼ同様なことをしており,コーパスのタグが合っている確率と間違っている確率を求め,間違っている確率の方が圧倒的に大きい場合に,そのコーパスのタグを誤りとするという方法を採っている。「間違っている確率」の大きいものを間違っているものと考えるのは自然なことであり,ほとんどのコーパス修正の研究で,この種の考え方を利用することが可能であると考えられる。
しかし,先の二つの研究で用いられた手法は,いずれも形態素の過分割,係り受け誤りと,それぞれその問題に特化した方法を用いて誤り検出を行っていたため,その手法の汎用性を見えにくくしている。
参考文献1の過分割の研究では,過分割の検出に特化したような式,例えば,P(x)をxの出現率として,
P(休憩室)/(P(休)P(憩室))
が用いられている。ここで,P(休),P(憩室)の部分は,「休」「憩室」の単純な出現率を用いているが,厳密には「休憩室」という文字列が,「休」と「憩室」に分割される確率を用いるもので,近似をすでに使ったものとなっている。この近似は,データスパースネスに対処するためのものであるが,この近似自体は,過分割の検出と同じような問題でしか使えない。
また,参考文献2の研究では,すでにできあがった構文解析システムが出す誤り確率を利用している。この構文解析システムでは,構文解析に特化した情報を数多く利用していると思われるし,また,誤りを検出する対象とするコーパス以外の情報を用いている可能性も高く,汎用的なコーパス修正とは言いにくい。

産業上の利用分野


本発明は,計算機による言語処理システムの分野で用いられるコーパスの誤りを検出し,それを自動修正することを可能にしたコーパス誤りの検出・修正システムに関するものである。
コーパスとは,言語分析用の電子化された言語資料である。言語処理の分野では,システムの構築にコーパスを参照することが多く,コーパスは重要な役割を果している。特に,タグ付きコーパスとは,以下のように普通の文(「車で行く。」)に特殊なタグ(品詞情報など)が付いているものをいう。
『車(名詞) で(助詞) 行く(動詞) 。』このコーパスに付けられたタグが間違っている場合もあり,このことが各研究の進捗の妨げになることも多い。本発明は,このコーパス中の誤りを,決定リスト,用例ベース手法などを用いて,検出したり訂正したりするものである。

特許請求の範囲 【請求項1】
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正するためのコーパス誤りの検出・修正理装置であって,
前記タグ付きコーパスが格納された記憶装置から,所定の個数以下のデータ項目の組を取り出し,検査対象の誤り候補とする誤り候補切り出し手段と,
決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する誤り候補の正解確率であって,前記検査対象の誤り候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその誤り候補の出現する確率である正解確率,または決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する前記検査対象の誤り候補と同じ表記を持つ変更可能な候補の正解確率であって,前記変更可能な候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその変更可能な候補の出現する確率である正解確率に基づいて,前記検査対象の誤り候補のタグが誤っているかどうかを評価する誤り箇所検出手段と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する誤り箇所修正手段とを備える
ことを特徴とするコーパス誤りの検出・修正処理装置

【請求項2】
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正するためのコーパス誤りの検出・修正理装置であって,
前記タグ付きコーパスが格納された記憶装置から,ある文節Xの係り先がYのときに,他の係り先候補をZ1,Z2,Z3,…として,X,Y,Zi (i=1,2,3,…)といった三つ組のデータを誤り候補の単位として切り出す誤り候補切り出し手段と,
あらかじめ定義した文節情報の各パターンについて,現在の検査対象パターンの形でのコーパスでの,前記Yが係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを誤り候補の正解率として算出し,または現在の検査対象パターンの形でのコーパスでの,前記Zi (i=1,2,3,…)が係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを変更可能な候補Zi の正解率として算出し,切り出した誤り候補のタグが誤っているかどうかを,前記パターンのすべてについて算出した前記誤り候補の正解確率または変更可能な候補の正解確率に基づいて評価する誤り箇所検出手段と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する誤り箇所修正手段とを備える
ことを特徴とするコーパス誤りの検出・修正処理装置。

【請求項3】
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正する処理をコンピュータが実行するコーパス誤りの検出・修正処理方法であって,
前記タグ付きコーパスが格納された記憶装置から,所定の個数以下のデータ項目の組を取り出し,検査対象の誤り候補とする過程と,
決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する誤り候補の正解確率であって,前記検査対象の誤り候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその誤り候補の出現する確率である正解確率,または決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する前記検査対象の誤り候補と同じ表記を持つ変更可能な候補の正解確率であって,前記変更可能な候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその変更可能な候補の出現する確率である正解確率に基づいて,前記検査対象の誤り候補のタグが誤っているかどうかを評価する過程と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する過程とを有する
ことを特徴とするコーパス誤りの検出・修正処理方法。

【請求項4】
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを検出し修正する処理をコンピュータが実行するコーパス誤りの検出・修正処理方法であって,
前記タグ付きコーパスが格納された記憶装置から,ある文節Xの係り先がYのときに,他の係り先候補をZ1,Z2,Z3,…として,X,Y,Zi (i=1,2,3,…)といった三つ組のデータを誤り候補の単位として切り出す過程と,
あらかじめ定義した文節情報の各パターンについて,現在の検査対象パターンの形でのコーパスでの,前記Yが係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを誤り候補の正解率として算出し,または現在の検査対象パターンの形でのコーパスでの,前記Zi (i=1,2,3,…)が係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを変更可能な候補Zi の正解率として算出し,切り出した誤り候補のタグが誤っているかどうかを,前記パターンのすべてについて算出した前記誤り候補の正解確率または変更可能な候補の正解確率に基づいて評価する過程と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する過程とを有する
ことを特徴とするコーパス誤りの検出・修正処理方法。

【請求項5】
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを,コンピュータが検出し修正するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記タグ付きコーパスが格納された記憶装置から,所定の個数以下のデータ項目の組を取り出し,検査対象の誤り候補とする処理と,
決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する誤り候補の正解確率であって,前記検査対象の誤り候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその誤り候補の出現する確率である正解確率,または決定リスト法,用例ベース手法または最大エントロピー法のいずれかの学習アルゴリズムを用いて算出する前記検査対象の誤り候補と同じ表記を持つ変更可能な候補の正解確率であって,前記変更可能な候補が出現する場所の周辺のデータ要素のパターンと同じ形式のパターンが出現する場合におけるその変更可能な候補の出現する確率である正解確率に基づいて,前記検査対象の誤り候補のタグが誤っているかどうかを評価する処理と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する処理とを,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とするコーパス誤りの検出・修正用プログラム記録媒体。

【請求項6】
コンピュータが読み取り可能な記憶装置に所定のデータ構造で格納されたタグ付きコーパスの誤りを,コンピュータが検出し修正するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記タグ付きコーパスが格納された記憶装置から,ある文節Xの係り先がYのときに,他の係り先候補をZ1,Z2,Z3,…として,X,Y,Zi (i=1,2,3,…)といった三つ組のデータを誤り候補の単位として切り出す処理と,
あらかじめ定義した文節情報の各パターンについて,現在の検査対象パターンの形でのコーパスでの,前記Yが係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを誤り候補の正解率として算出し,または現在の検査対象パターンの形でのコーパスでの,前記Zi (i=1,2,3,…)が係り先になる総数を,検査対象パターンのコーパスにおける総数で割ったものを変更可能な候補Zi の正解率として算出し,切り出した誤り候補のタグが誤っているかどうかを,前記パターンのすべてについて算出した前記誤り候補の正解確率または変更可能な候補の正解確率に基づいて評価する処理と,
前記評価結果に基づいて修正候補の提示または修正されたコーパスを出力する処理とを,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とするコーパス誤りの検出・修正用プログラム記録媒体。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2000280582thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close