TOP > 国内特許検索 > 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム

教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム コモンズ

国内特許コード P140010704
整理番号 01-88
掲載日 2014年7月3日
出願番号 特願2001-393734
公開番号 特開2003-196636
登録番号 特許第3692399号
出願日 平成13年12月26日(2001.12.26)
公開日 平成15年7月11日(2003.7.11)
登録日 平成17年7月1日(2005.7.1)
発明者
  • 村田 真樹
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム コモンズ
発明の概要 【課題】 表記誤り検出処理に関し、教師あり機械学習法を用いて精度の高い検出を行なう。
【解決手段】 教師データとして正の例データD(正しい表記)と負の例データE(誤りの表記)とを教師データ記憶部11に記憶しておく。解-素性対抽出部12は、教師データ記憶部11の負の例データEと正の例データDから解と素性の組を抽出し、機械学習部13は、その素性の集合の場合にどのような解になりやすいかを機械学習法により推定して学習結果データ記憶部14に記憶する。素性抽出部15は、入力したデータ2から素性の集合を抽出し、誤り検出部16は、学習結果データ記憶部14を参照して、その素性の集合から表記誤りであるかどうかを推定して、推定結果3を出力する。
従来技術、競合技術の概要



日本語の場合の単語の表記誤り検出は、英語の場合に比べてはるかに難しいものである。英語の場合は単語でわかち書きされているために、基本的に単語辞書と単語末の変形の規則とを用意しておくことにより、ほぼ高精度に単語のスペルチェックを行なうことができる。これに対して、日本語の場合は単語でわかち書きされていないために、単語の表記誤りに限定した処理であっても、高精度に行なうことが困難である。





また、表記の誤りとしては、単語表記の誤りの他に、助詞の「て」「に」「を」「は」の運用誤りなどの文法的な誤りも存在する。





日本語の表記誤りの検出の主な従来技術として以下のものがある。





単語辞書やひらがな連続を登録した辞書や、連接の条件を記述した辞書にもとづいて表記誤りを検出する従来手法などが、以下の参考文献1~参考文献3に記載されている。これらの従来手法では、単語辞書やひらがな連続を登録した辞書にないものがあらわれると表記誤りであると判定したり、連接の条件を記述した辞書において満足されない連接の出現が存在すると表記誤りであると判定する。

[参考文献1:納富一宏,日本語文書校正支援ツールhspの開発,情報処理学会 研究発表会(デジタル・ドキュメント),(1997),pp.9-16 ]

[参考文献2:川原一真 他,コーパスから抽出された辞書を用いた表記誤り検出法,情報処理学会第54回全国大会,(1997),pp.2-21-2-22]

[参考文献3:白木伸征 他,大量の平仮名列登録による日本語スペルチェッカの作成、言語処理学会 年次大会,(1997),pp.445-448]

また、文字単位のngramを利用した確率モデルにもとづいて各文字列の生起確率を求め、生起確率の低い文字列が出現する箇所を表記誤りと判定する従来手法などが、以下の参考文献4~参考文献6に記載されている。

[参考文献4:荒木哲郎 他,2重マルコフモデルによる日本語文の誤り検出並びに訂正法,情報処理学会自然言語処理研究会 NL97-5,(1997),pp.29-35]

[参考文献5:松山高明 他,n-gramによるocr誤り検出の能力検討のための適合率と再現率の推定に関する実験と考察,言語処理学会 年次大会(1996), pp.129-132]

[参考文献6:竹内孔一 他,統計的言語モデルを用いたOCR誤り修正システムの構築,情報処理学会論文誌,Vol.40, No.6, (1999)]

上記の従来手法のうち、参考文献5のngram確率を利用する手法は、主に光学式文字読み取り装置(Optical Character Reader:OCR)の誤り訂正システムにおける表記誤り検出に用いられているものである。OCR誤り訂正システムの場合は、前提として表記誤りの出現率が5~10%と高く、普通に人がものを書くときに誤る確率より高い。したがって、表記誤りの検出の再現率、適合率は高くなりやすく、比較的容易な問題の設定となる。





また、上記の従来手法の中で最も良さそうに思われる竹内らの方法、すなわち参考文献6に記載されている従来手法(以下、従来手法Aという。)を、以下で簡単に説明する。





従来手法Aでは、まず、表記誤りを検出したいテキストを頭から一文字ずつずらしながら3 文字連続を抽出し、抽出した部分のコーパス( 正しい日本語文の集合) での出現確率がTp以下の場合に、その各3文字連続に-1を加えていき、与えられた値がTs以上となった文字を誤りと判定する。例えば、Tp=0、Ts=-2とする。ここで、Tp=0としているために、出現確率をわざわざ求める必要はなく、コーパスにその3文字連続が出現するか否かを調べるということをするだけでよい。Tp>0とした場合は、抽出した部分がコーパスに出現するものがあっても誤りと判定するものとなる。しかし、出現確率が低くともコーパスに出現していれば、それは誤りとしなくてよいだろうからTp>0は適切ではなく、Tp=0の設定は良いとする。





従来手法Aの補足説明として、「負の事零の検出」という日本語表現に対して誤り検出を行なうことを考える。このとき、日本語表現の頭から「負の事」「の事零」といった連続する3文字を切り出し、これらがコーパスにあるかどうかを調べ、切り出した3文字がなければその3文字に-1を与える。この場合「の事零」「事零の」がなかったため、図7に示すようなtrigramによる得点が与えられ、結果として「-2」点となった「事」と「零」の部分が誤りと判定される。この従来手法Aは、コーパスに高頻度に出現する文字3-gramをうまく組み合わせて誤りを検出する方法となっている。





しかし、結局のところ、従来手法Aの処理は、コーパスにその表現が存在するか否かを判定するものである。すなわち、従来手法Aは、辞書にないものがあらわれると誤りとする上記の他の従来手法とよく似たものである。





機械学習法については、以下の参考文献7に述べられているように、正の例のみからの学習は一般的に困難であることが知られている。

[参考文献7:横森貫 他,型式言語の学習-正の例からの学習を中心に-,情報処理学会誌,Vol.32, No.3, (1991), pp226-235 ]

さらに、教師信号とする誤った表記データ(負の例)は、正しい表記データ(正の例)に比べて一般的に取得することが困難であると考えられている。

産業上の利用分野



本発明は、表記誤り検出処理に関し、特に教師あり機械学習法を用いた表記誤り検出処理方法と、その処理を実現する処理装置と、およびその処理をコンピュータに実行させるためのプログラムとに関する。

特許請求の範囲 【請求項1】
コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを機械学習処理を用いて検出する処理装置であって、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段と、
前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記抽出した素性の集合と解との対を生成する解-素性対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として,前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習手段と、
前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出手段が行う抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出手段と、
前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出手段とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理装置。

【請求項2】
請求項1記載の教師あり機械学習法を用いた表記誤り検出処理装置において、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段と、
前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段と、
前記コーパス記憶手段から文データを取り出し、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定手段と、
前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定手段と、
前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出手段と、
前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納する負の例取得手段とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理装置。

【請求項3】
コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを検出する検出処理装置において、機械学習処理を用いて前記文データ中の表記の誤りを検出する処理方法を、教師データ取得手段、解-素性対抽出手段、機械学習手段、素性抽出手段、および誤り検出手段を備えたコンピュータである前記検出処理装置が行う処理方法であって、
前記教師データ取得手段が、問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段にアクセスし、前記教師データ記憶手段から教師データを取り出す教師データ取得処理過程と、
前記解-素性対抽出手段が、前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記事例から抽出した素性の集合と解との対を生成する解-素性対抽出処理過程と、
前記機械学習手段が、所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習処理過程と、
前記素性抽出手段が、前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出処理過程における抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出処理過程と、
前記誤り検出手段が、前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出処理過程とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理方法。

【請求項4】
請求項3記載の教師あり機械学習法を用いた表記誤り検出処理方法において、
前記検出処理装置は、正の例データ参照手段、文データ取り出し手段、正の例存在判定手段、出現確率推定手段、負の例度合い算出手段、および負の例取得手段とを備えて、
前記正の例データ参照手段が、問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段にアクセスし、前記正の例データを参照する処理過程と、
前記文データ取り出し手段が、前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段にアクセスし、前記コーパス記憶手段から文データを取り出す文データ取り出し処理過程と、
前記正の例存在判定手段が、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定処理過程と、
前記出現確率推定手段が、前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定処理過程と、
前記負の例度合い算出手段が、前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出処理過程と、
前記負の例取得手段が、前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納する負の例取得処理過程とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理方法。

【請求項5】
コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを機械学習処理を用いて検出する処理装置としてコンピュータを機能させるためのプログラムであって、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段と、
前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記抽出した素性の集合と解との対を生成する解-素性対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習手段と、
前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出手段が行う抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出手段と、
前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出手段とを備える処理装置として、
前記コンピュータを機能させるための教師あり機械学習法を用いた表記誤り検出処理プログラム。

【請求項6】
請求項5記載の教師あり機械学習法を用いた表記誤り検出処理プログラムにおいて、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段と、
前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段と、
前記コーパス記憶手段から文データを取り出し、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定手段と、
前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定手段と、
前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出手段と、
前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納するとを備える処理装置として、
前記コンピュータを機能させるための教師あり機械学習法を用いた表記誤り検出処理プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2001393734thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close