TOP > 国内特許検索 > 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム > 明細書

明細書 :教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第3692399号 (P3692399)
公開番号 特開2003-196636 (P2003-196636A)
登録日 平成17年7月1日(2005.7.1)
発行日 平成17年9月7日(2005.9.7)
公開日 平成15年7月11日(2003.7.11)
発明の名称または考案の名称 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム
国際特許分類 G06N  3/00      
G06F 17/21      
FI G06N 3/00 560J
G06F 17/21 550J
請求項の数または発明の数 6
全頁数 15
出願番号 特願2001-393734 (P2001-393734)
出願日 平成13年12月26日(2001.12.26)
新規性喪失の例外の表示 特許法第30条第1項適用 2001年7月10日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報 Vol.101 No.190」に発表
審査請求日 平成13年12月26日(2001.12.26)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
発明者または考案者 【氏名】村田 真樹
【氏名】井佐原 均
個別代理人の代理人 【識別番号】100119161、【弁理士】、【氏名又は名称】重久 啓子
審査官 【審査官】久保 光宏
参考文献・文献 特開2003-196094(JP,A)
中川哲治・他,「修正学習法による形態素解析」,情報処理学会研究報告,日本,社団法人情報処理学会,2001年11月21日,Vol.2001, No.112(2001-NL-146),pp.1-8,ISSN:0919-6072
村田真樹,「機械学習手法を用いた日本語格解析」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2001年 7月10日,Vol.101, No.190(NLC2001-22~35),pp.15-22,ISSN:0913-5685
大川克利・他,「正例と負例のコーパスを用いた日本語形態素解析の確率論的曖昧性解消機構」,情報処理学会第53回(平成8年後期)全国大会講演論文集,日本,社団法人情報処理学会,1996年 9月 6日,第2分冊,pp.7-8
松井、中村、伊吹、徐,「日本語校正支援システム(Joyner)の研究について(1)」,情報処理学会第52回(平成8年前期)全国大会講演論文集,日本,社団法人情報処理学会,1996年 3月 6日,第3分冊,pp.283-284
伊吹、中村、徐、松井,「日本語校正支援システム(Joyner)の研究について(2)」,情報処理学会第52回(平成8年前期)全国大会講演論文集,日本,社団法人情報処理学会,1996年 3月 6日,第3分冊,pp.285-286
中村、徐、伊吹、松井,「日本語校正支援システム(Joyner)の研究について(3)」,情報処理学会第52回(平成8年前期)全国大会講演論文集,日本,社団法人情報処理学会,1996年 3月 6日,第3分冊,pp.287-288
村田真樹・他,「頻度に基づく正の例から負の例の予測」,情報処理学会研究報告,日本,社団法人情報処理学会,2001年 7月17日,Vol.2001, No.69(2001-NL-144),pp.105-112,ISSN:0919-6072
調査した分野 G06N1/00-7/08,
G06F17/21,
G06F17/27-17/28,
G06K9/72,
G10L3/00,
G06F9/44
JSTファイル(JOIS),
CSDB(日本国特許庁)
特許請求の範囲 【請求項1】
コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを機械学習処理を用いて検出する処理装置であって、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段と、
前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記抽出した素性の集合と解との対を生成する解-素性対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として,前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習手段と、
前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出手段が行う抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出手段と、
前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出手段とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理装置。
【請求項2】
請求項1記載の教師あり機械学習法を用いた表記誤り検出処理装置において、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段と、
前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段と、
前記コーパス記憶手段から文データを取り出し、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定手段と、
前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定手段と、
前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出手段と、
前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納する負の例取得手段とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理装置。
【請求項3】
コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを検出する検出処理装置において、機械学習処理を用いて前記文データ中の表記の誤りを検出する処理方法を、教師データ取得手段、解-素性対抽出手段、機械学習手段、素性抽出手段、および誤り検出手段を備えたコンピュータである前記検出処理装置が行う処理方法であって、
前記教師データ取得手段が、問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段にアクセスし、前記教師データ記憶手段から教師データを取り出す教師データ取得処理過程と、
前記解-素性対抽出手段が、前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記事例から抽出した素性の集合と解との対を生成する解-素性対抽出処理過程と、
前記機械学習手段が、所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習処理過程と、
前記素性抽出手段が、前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出処理過程における抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出処理過程と、
前記誤り検出手段が、前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出処理過程とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理方法。
【請求項4】
請求項3記載の教師あり機械学習法を用いた表記誤り検出処理方法において、
前記検出処理装置は、正の例データ参照手段、文データ取り出し手段、正の例存在判定手段、出現確率推定手段、負の例度合い算出手段、および負の例取得手段とを備えて、
前記正の例データ参照手段が、問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段にアクセスし、前記正の例データを参照する処理過程と、
前記文データ取り出し手段が、前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段にアクセスし、前記コーパス記憶手段から文データを取り出す文データ取り出し処理過程と、
前記正の例存在判定手段が、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定処理過程と、
前記出現確率推定手段が、前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定処理過程と、
前記負の例度合い算出手段が、前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出処理過程と、
前記負の例取得手段が、前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納する負の例取得処理過程とを備える
ことを特徴とする教師あり機械学習法を用いた表記誤り検出処理方法。
【請求項5】
コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを機械学習処理を用いて検出する処理装置としてコンピュータを機能させるためのプログラムであって、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段と、
前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記抽出した素性の集合と解との対を生成する解-素性対抽出手段と、
所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習手段と、
前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出手段が行う抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出手段と、
前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出手段とを備える処理装置として、
前記コンピュータを機能させるための教師あり機械学習法を用いた表記誤り検出処理プログラム。
【請求項6】
請求項5記載の教師あり機械学習法を用いた表記誤り検出処理プログラムにおいて、
問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段と、
前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段と、
前記コーパス記憶手段から文データを取り出し、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定手段と、
前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定手段と、
前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出手段と、
前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納するとを備える処理装置として、
前記コンピュータを機能させるための教師あり機械学習法を用いた表記誤り検出処理プログラム。
発明の詳細な説明
【0001】
【発明の属する技術分野】
本発明は、表記誤り検出処理に関し、特に教師あり機械学習法を用いた表記誤り検出処理方法と、その処理を実現する処理装置と、およびその処理をコンピュータに実行させるためのプログラムとに関する。
【0002】
【従来の技術】
日本語の場合の単語の表記誤り検出は、英語の場合に比べてはるかに難しいものである。英語の場合は単語でわかち書きされているために、基本的に単語辞書と単語末の変形の規則とを用意しておくことにより、ほぼ高精度に単語のスペルチェックを行なうことができる。これに対して、日本語の場合は単語でわかち書きされていないために、単語の表記誤りに限定した処理であっても、高精度に行なうことが困難である。
【0003】
また、表記の誤りとしては、単語表記の誤りの他に、助詞の「て」「に」「を」「は」の運用誤りなどの文法的な誤りも存在する。
【0004】
日本語の表記誤りの検出の主な従来技術として以下のものがある。
【0005】
単語辞書やひらがな連続を登録した辞書や、連接の条件を記述した辞書にもとづいて表記誤りを検出する従来手法などが、以下の参考文献1~参考文献3に記載されている。これらの従来手法では、単語辞書やひらがな連続を登録した辞書にないものがあらわれると表記誤りであると判定したり、連接の条件を記述した辞書において満足されない連接の出現が存在すると表記誤りであると判定する。
[参考文献1:納富一宏,日本語文書校正支援ツールhspの開発,情報処理学会 研究発表会(デジタル・ドキュメント),(1997),pp.9-16 ]
[参考文献2:川原一真 他,コーパスから抽出された辞書を用いた表記誤り検出法,情報処理学会第54回全国大会,(1997),pp.2-21-2-22]
[参考文献3:白木伸征 他,大量の平仮名列登録による日本語スペルチェッカの作成、言語処理学会 年次大会,(1997),pp.445-448]
また、文字単位のngramを利用した確率モデルにもとづいて各文字列の生起確率を求め、生起確率の低い文字列が出現する箇所を表記誤りと判定する従来手法などが、以下の参考文献4~参考文献6に記載されている。
[参考文献4:荒木哲郎 他,2重マルコフモデルによる日本語文の誤り検出並びに訂正法,情報処理学会自然言語処理研究会 NL97-5,(1997),pp.29-35]
[参考文献5:松山高明 他,n-gramによるocr誤り検出の能力検討のための適合率と再現率の推定に関する実験と考察,言語処理学会 年次大会(1996), pp.129-132]
[参考文献6:竹内孔一 他,統計的言語モデルを用いたOCR誤り修正システムの構築,情報処理学会論文誌,Vol.40, No.6, (1999)]
上記の従来手法のうち、参考文献5のngram確率を利用する手法は、主に光学式文字読み取り装置(Optical Character Reader:OCR)の誤り訂正システムにおける表記誤り検出に用いられているものである。OCR誤り訂正システムの場合は、前提として表記誤りの出現率が5~10%と高く、普通に人がものを書くときに誤る確率より高い。したがって、表記誤りの検出の再現率、適合率は高くなりやすく、比較的容易な問題の設定となる。
【0006】
また、上記の従来手法の中で最も良さそうに思われる竹内らの方法、すなわち参考文献6に記載されている従来手法(以下、従来手法Aという。)を、以下で簡単に説明する。
【0007】
従来手法Aでは、まず、表記誤りを検出したいテキストを頭から一文字ずつずらしながら3 文字連続を抽出し、抽出した部分のコーパス( 正しい日本語文の集合) での出現確率がTp以下の場合に、その各3文字連続に-1を加えていき、与えられた値がTs以上となった文字を誤りと判定する。例えば、Tp=0、Ts=-2とする。ここで、Tp=0としているために、出現確率をわざわざ求める必要はなく、コーパスにその3文字連続が出現するか否かを調べるということをするだけでよい。Tp>0とした場合は、抽出した部分がコーパスに出現するものがあっても誤りと判定するものとなる。しかし、出現確率が低くともコーパスに出現していれば、それは誤りとしなくてよいだろうからTp>0は適切ではなく、Tp=0の設定は良いとする。
【0008】
従来手法Aの補足説明として、「負の事零の検出」という日本語表現に対して誤り検出を行なうことを考える。このとき、日本語表現の頭から「負の事」「の事零」といった連続する3文字を切り出し、これらがコーパスにあるかどうかを調べ、切り出した3文字がなければその3文字に-1を与える。この場合「の事零」「事零の」がなかったため、図7に示すようなtrigramによる得点が与えられ、結果として「-2」点となった「事」と「零」の部分が誤りと判定される。この従来手法Aは、コーパスに高頻度に出現する文字3-gramをうまく組み合わせて誤りを検出する方法となっている。
【0009】
しかし、結局のところ、従来手法Aの処理は、コーパスにその表現が存在するか否かを判定するものである。すなわち、従来手法Aは、辞書にないものがあらわれると誤りとする上記の他の従来手法とよく似たものである。
【0010】
機械学習法については、以下の参考文献7に述べられているように、正の例のみからの学習は一般的に困難であることが知られている。
[参考文献7:横森貫 他,型式言語の学習-正の例からの学習を中心に-,情報処理学会誌,Vol.32, No.3, (1991), pp226-235 ]
さらに、教師信号とする誤った表記データ(負の例)は、正しい表記データ(正の例)に比べて一般的に取得することが困難であると考えられている。
【0011】
【発明が解決しようとする課題】
従来は、正の例のみを教師信号とする機械学習法を用いた処理方法では高い精度の処理が期待できないこと、および、教師信号とする負の例の取得が困難であることから、文章の表記誤り検出処理において、正の例および負の例の両方を教師信号とした機械学習法を利用した処理方法は実現されていなかった。
【0012】
本発明の目的は、正の例および負の例を教師信号とする機械学習法を用いて、精度の高い表記誤り検出処理を実現することである。
【0013】
また、本発明の別の目的は、教師信号とする負の例を効率よく自動生成し、機械学習法の教師信号として用いて、精度の高い表記誤り検出処理を実現することである。
【0014】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを機械学習処理を用いて検出する教師あり機械学習法を用いた表記誤り検出処理装置であって、以下の記憶手段および処理手段を備えるものである。
【0015】
本発明は、1)問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正しい表記を示す正である正の例データの事例と問題が誤った表記の文字列であって解が誤りの表記を示す負である負の例データの事例とが格納された教師データ記憶手段と、2)前記教師データ記憶手段から前記事例を取り出し、前記事例ごとに、前記事例の問題から連接関係に関する所定の情報を素性として抽出し、前記抽出した素性の集合と解との対を生成する解-素性対抽出手段と、3)所定の機械学習アルゴリズムにもとづいて、前記解と素性の集合との対について、どのような素性の集合との場合に解が正または負であるかということを機械学習処理し、学習結果として前記どのような素性の集合との場合に解が正または負であるかということを学習結果データ記憶手段に保存する機械学習手段と、4)前記記憶装置に格納された文データから検出対象の文字列を取り出し、前記解-素性対抽出手段が行う抽出処理と同様の抽出処理によって、前記検出対象の文字列から前記所定の情報を素性として抽出する素性抽出手段と、5)前記学習結果データ記憶手段に学習結果として保存された前記どのような素性の集合との場合に解が正または負であるかということにもとづいて、前記検出対象の文字列の素性の集合の場合の正または負の度合いを推定し、前記推定結果として負の例の度合いが大きい場合に、前記検出対象の文字列を表記の誤りとして検出する誤り検出手段とを備える。
【0016】
または、本発明は、前記構成をとる場合に、さらに以下の処理手段を備えるものである。
【0017】
本発明は、6)問題と解との組で構成される教師データとして、問題が正しい表記の文字列であって解が正である正の例データの事例を記憶する正の例データ記憶手段と、7)前記正および負のいずれの解も付与されていない文データを格納するコーパス記憶手段と、8)前記コーパス記憶手段から文データを取り出し、前記取り出した文データから取り出した事例が、前記正の例データ記憶手段に格納された正の例データ内に存在するか否かを判定する正の例存在判定手段と、9)前記文データの事例が前記正の例データ内に存在しない場合に、前記文データの事例が教師データ記憶手段に格納された前記教師データ内で出現する出現確率を所定の式を用いて算出する出現確率推定手段と、10)前記文データの事例について、前記事例の解が負である傾向を示す負の例度合いを、前記出現確率をもとに算出する負の例度合い算出手段と、11)前記文データの事例についての負の例度合いが所定の値を超える場合に、前記事例の文データに負の解を付与して負の例データを生成し、前記負の例データを前記教師データ記憶手段に格納する負の例取得手段とを備える。
【0018】
また、本発明は、コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを検出する検出処理装置において、機械学習処理を用いて前記文データ中の表記の誤りを検出する処理方法を、所定の処理手段を備えたコンピュータである検出処理装置が行うものである。
【0019】
また、本発明は、コンピュータが読み取り可能な記憶装置に格納された文データ中の表記の誤りを機械学習処理を用いて検出する処理装置としてコンピュータを機能させるためのプログラムであって、前記教師あり機械学習法を用いた表記誤り検出処理装置の各処理手段としてコンピュータを機能させるためのものである。
【0020】
本発明の各手段または機能または要素をコンピュータにより実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供される。
【0021】
【発明の実施の形態】
以下に、本発明の第1の実施の形態として、日本語表記誤りを連接により検出する処理を説明する。
【0022】
図1に、本発明の第1の実施の形態における表記誤り検出装置1の構成例を示す。
【0023】
表記誤り検出装置1は、教師データ記憶部11と、解-素性対抽出部12と、機械学習部13と、学習結果データ記憶部14と、素性抽出部15と、誤り検出部16とを持つ。
【0024】
教師データ記憶部11は、機械学習法を実施する際の教師信号となるデータ(教師データ)を記憶する手段である。教師データ記憶部11には、教師データとして、正しい表記である事例(正の例)と誤った表記である事例(負の例)とが記憶される。正の例は、例えば正しい文の集合であるコーパス等を利用してもよい。負の例は、誤った表記であって一般的なデータはないため、予め人手により生成したものを用いる。または、後述するような負の例予測処理方法を用いて正の例から生成するようにしてもよい。
【0025】
解-素性対抽出部12は、教師データ記憶部11に記憶されている教師データの各事例ごとに、事例の解と素性の集合との組を抽出する手段である。
【0026】
機械学習部13は、解-素性対抽出部12により抽出された解と素性の集合の組から、どのような素性のときにどのような解になりやすいかを機械学習法により学習する手段である。その学習結果は、学習結果データ記憶部14に保存される。
【0027】
素性抽出部15は、表記誤り検出対象であるデータ2から素性の集合を抽出し、抽出した素性の集合を誤り検出部16へ渡す手段である。
【0028】
誤り検出部16は、学習結果データ記憶部14の学習結果データを参照して、素性抽出部15から渡された素性の集合の場合に、どのような解になりやすいか、すなわち表記誤りであるかどうかを推定し、その推定結果3を出力する手段である。
【0029】
図2に、教師データ記憶部11のデータ構成例を示す。教師データ記憶部11には、問題と解との組である教師データが記憶されている。例えば、文の各文字のすき間(<|>で表す。)を問題として、そのすき間の連接の解(正解、誤り)が対応付けられた教師データが記憶される。図2の教師データのうち、
「問題-解:説明した方法で<|>を用いることができる-誤り」
は、負の例データEの例であり、
「問題-解:説明した方法<|>でを用いることができる-正」
は、正の例データDの例である。
【0030】
図3に、表記誤り検出処理の処理フローチャートを示す。表記誤り検出処理前に、正の例データDおよび負の例データEが教師データ記憶部11に記憶されているとする。
【0031】
まず、解-素性対抽出部12は、教師データ記憶部11から、各事例ごとに、解と素性の集合との組を抽出する(ステップS1)。素性とは、解析に用いる情報の細かい1単位を意味する。素性として連接の判定対象となる文字のすき間ごとに以下のものを抽出する。
【0032】
・前接および後接の各1~5gramの文字列、
・対象(すき間)を含めた1~5gramの文字列(ただし、対象であるすき間(<|>)は1文字として扱う。)
・前接および後接の単語(単語の抽出は既存の形態素解析処理を行う処理手段(図1には図示しない)などを利用する。)
・前接および後接の単語の品詞
例えば、「問題-解」が、
「説明した方法で<|>を用いることができる-誤り」
である場合には、図4に示すような素性を抽出する。すなわち、以下の素性を抽出する。
【0033】
素性:前接「した方法で」,前接「た方法で」,前接「方法で」,前接「法で」,前接「で」,後接「を用いるこ」,後接「を用いる」,後接「を用い」,後接「を用」,後接「を」,「た方法で<|>」,「方法で<|>を」,「法で<|>を用」,「で<|>を用い」,「<|>を用いる」,前接「で」,後接「を」,前接「助詞」,後接「助詞」
次に、機械学習部13は、抽出した解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを機械学習し、その学習結果を学習結果データ記憶部14に保存する(ステップS2)。
【0034】
機械学習の手法としては、例えば、決定リスト法、最大エントロピー法、サポートベクトルマシン法などを用いる。
【0035】
決定リスト法は、素性と分類先の組を規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性を比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
【0036】
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、もっとも大きい確率値を持つ分類を求める分類とする方法である。
【0037】
サポートベクトルマシン法は、空間を超平面で分割することにより、2つの分類からなるデータを分類する手法である。
【0038】
決定リスト法および最大エントロピー法については、以下の参考文献8に、サポートベクトルマシン法については、以下の参考文献9および参考文献10に説明されている。
[参考文献8:村田真樹、内山将夫、内元清貴、馬青、井佐原均、種々の機械学習法を用いた多義解消実験、電子情報通信学会言語理解とコミュニケーション研究会,NCL2001-2, (2001) ]
[参考文献9:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000) ]
[参考文献10:Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)]
なお、機械学習部13では、上記の手法に限定されずに、教師あり機械学習法であればどのような手法でも使用することができる。
【0039】
その後、素性抽出部15は、解を求めたいデータ2を入力し(ステップS3)、解-素性対抽出部12での処理とほぼ同様に、データ2から素性の集合を取り出し、それらを誤り検出部16へ渡す(ステップS4)。
【0040】
誤り検出部16は、渡された素性の集合の場合にどのような解になりやすいかを学習結果データ記憶部14の学習結果データをもとに特定し、特定した解すなわち表記誤りかどうかの推定結果3を出力する(ステップS5)。
【0041】
例えば、解析したい問題がすき間<|>の連接である場合に、データ2が「説明した方法で<|>を用いることができる」であれば、「誤り」という推定結果3を出力する。
【0042】
次に、本発明の第2の実施の形態について説明する。
【0043】
教師データ記憶部11の正の例データDについては、コーパス等を利用できるため比較的容易に取得できる。しかし、負の例データEは、容易に取得できないため人手により生成するが、かかる生成作業の負担は大きい。
【0044】
また、教師データは多量であるほうが処理精度が向上するため、できる限り多量の教師データを用意することが望ましい。
【0045】
そこで、多量な正の例データから負の例データを予測する方法を考える。
【0046】
正の例から負の例を予測する単純な方法として、既知の正の例のデータに現れなかったものをすべて負の例とするという手法が考えられる。しかし、実際には未出現の正の例の存在が考えられるために、このような単純な方法を用いると、多くの未出現の正の例を負の例であると判定してしまうことになるという問題があり、このような方法で生成した負の例を高精度の処理に適用することができない。
【0047】
例えば大規模な既存のコーパス(日本語の文の集合)をすべて正しいと仮定すると、その既存のコーパスを正しい文(正の例)と考え、この正の例を用いて、表記誤り(負の例)を予測する方法により、自動的に負の例を生成することができる。
【0048】
これにより、教師データとする負の例が豊富になり、生成作業の負担を軽減し、かつ、教師データ付きの機械学習法を利用した高精度の表記誤り検出処理を実現できることになる。
【0049】
本形態における表記誤り検出装置1は、まず、正の例か負の例か判定すべき未知の事例xの一般的な出現確率p(x)を算出する。次に、この出現確率p(x)で既知の正の例データDに出現しないことが不自然である場合に、すなわち、一般的な出現確率が高く当然正の例データDに出現するであろう状態にも関わらず既知の正の例データDに出現しない場合には、事例xの負の例の度合いが高いと推測し、所定の値より高い負の例の度合いの事例xを負の例データEとする。そして、かかる負の例データEと正の例データDとを教師信号とした機械学習法により表記誤り検出処理を行う。
【0050】
図5に、本発明の第2の実施の形態における表記誤り検出装置1の構成例を示す。
【0051】
表記誤り検出装置1は、教師データ記憶部11と、解-素性対抽出部12と、機械学習部13と、素性抽出部15と、誤り検出部16と、存在判定部21と、出現確率推定部22と、負の例度合い算出部23と、負の例取得部24と、正の例データ記憶部25とを持つ。
【0052】
教師データ記憶部11と、解-素性対抽出部12と、機械学習部13と、素性抽出部15と、誤り検出部16とは、第1の実施の形態で説明した表記誤り検出装置1の各手段と同一の手段であるので説明を省略する(図1参照)。
【0053】
存在判定部21は、正または負の情報が付与されていない日本語文の集合であるコーパス20の事例xが、正の例データ記憶部25に記憶されている正の例データDに存在するかどうかを判定する手段である。
【0054】
出現確率推定部22は、事例xが正の例データ記憶部25に存在しない場合に、事例xの一般的な出現確率(頻度)p(x)を算出する手段である。
【0055】
負の例度合い算出部23は、出現確率p(x)をもとに事例xの負の例度合いQ(x)を算出する手段である。
【0056】
負の例取得部24は、負の例度合い算出部23から受け取った事例xの負の例度合いQ(x)が所定の値を超える場合に、その事例xを負の例データEとし、事例xを問題-解の構想の教師データ(負の例データE)として教師データ記憶部11に記憶する手段である。
【0057】
図6に、第2の実施の形態において学習データとなる負の例データの取得処理の処理フローチャートを示す。
【0058】
表記誤り検出装置1の存在判定部21は、コーパス20から正の例か負の例かが未知である文を入力し、文の頭から、文字のすき間を1つずつずらしながら、各すき間を連接チェックの対象として、そのすき間に前接する1~5gramの文字列aと、後接する1~5gramの文字列bを取り出し、この任意のペアである事例x=(a、b)を生成する(ステップS11)。ここでは、25個の事例(ペア)が生成されることになる。
【0059】
そして、事例xの25個の連接abが正の例データ記憶部25にあるかどうかを調べ(ステップS12)、連接abが正の例データ記憶部25に存在しなければ、その事例xを出現確率推定部22へ渡す(ステップS13)。
【0060】
出現確率推定部22は、事例xの一般的な出現確率p(x)を推定する(ステップS14)。
【0061】
例えば、正の例データ記憶部25の正の例データDは二項関係(a,b)からなり、二項のaとbとがお互いに独立であると仮定すると、二項関係(a,b)の出現する確率はp(x)は、a、bの正の例データ記憶部25での出現確率をp(a)、p(b)とするとき、その積p(a)×p(b)となる。すなわち、各事例xを二項関係(a,b)とし、その各項a、bを独立と仮定することで、各事例xの一般的な出現確率p(x)を、各項a、bの確率により計算する。
【0062】
そして、負の例度合い算出部23は、事例xの出現確率p(x)を使って、事例xが正の例データ記憶部25に出現する確率Q(x)を求める(ステップS15)。
【0063】
このとき、正の例データ記憶部25の正の例データDがn個でありそれぞれが独立であることを仮定すると、1回試行して事例xが出現しない確率は1-p(x)であり、これがn回連続して起こるということから、事例xが正の例データ記憶部25の正の例データDに出現しない確率は(1-p(x))n となり、事例xが同じく正の例データDに出現する確率Q(x)=1-(1-p(x))n となる。
【0064】
ところで、「確率Q(x)が小さい」というのは、確率的に事例xが正の例データ記憶部25の正の例データDに出現する確率が低いということであり、正の例データ(コーパス)が小さいために確率的に出現しないということが保証されたことを意味するため、「事例xは正の例でありうる。」という意味になる。
【0065】
逆に、「確率Q(x)が大きい」というのは、確率的に事例xが正の例データDに出現する確率が高いということであり、確率的には同コーパスに当然出現すべきということになり、それなのに実際は出現しなかったということで矛盾が生じることになる。この矛盾により、一般的な出現確率p(x)か種々の独立の仮定が否定されることになる。
【0066】
ここで、「事例xが正の例である場合は、一般的な出現確率p(x)および種々の独立の仮定が正しい。」と新たに仮定すると、この矛盾により「事例xは正の例でありえない。」が導出されることになる。すなわち、「事例xが正の例データDに出現する確率Q(x)」は、「事例xが正の例でありえない確率Q(x)」を意味することになる。そういう意味で、Q(x)は負の例の度合いを意味するものとなる。よって、このQ(x)を「負の例度合い」とし、事例xのQ(x)が大きいほど事例xの負の例の度合いが大きいとする。
【0067】
そして、負の例取得部24は、最もQ(x)の値が高いときのその値をQmax 、またxをxmax とし、Q(xmax )の値が大きいすき間ほど、妥当でない連接の可能性が高いとして、Q(xmax )の値が、所定の値より大きい場合には、そのすき間を負の例データEとして教師データ記憶部11へ保存する(ステップS16)。なお、負の例データEとその負の例の度合いQ(xmax )とを教師データ記憶部11に保存してもよい。
【0068】
以上のステップS11~ステップS15の処理を、文の全てのすき間について行っていくことにより、正の例データ記憶部25の正の例データDの頻度情報を用いて負の例データEを取得することができ、正の例データDおよび負の例データEを教師データとして教師データ記憶部11に用意することができる。
【0069】
以降の処理は、第1の実施の形態で説明した誤り検出処理と同様であるので、説明を省略する。
【0070】
以上、本発明をその実施の形態により説明したが、本発明はその主旨の範囲において種々の変形が可能である。
【0071】
例えば、表記誤り検出装置1の出現確率推定部22は、事例xの一般的な出現確率p(x)を、何らかの方法で算出すればよく、本発明の実施の形態で説明した方法に限られるものではない。
【0072】
また、教師データ記憶部11の正の例データDは、正の例データ記憶部25に記憶されている正の例データDを使用することもでき、また、別に用意した正の例データを使用することもできる。
【0073】
【発明の効果】
以上説明したように、本発明は、正の例と負の例とを教師信号とする機械学習法を用いて表記誤り検出処理を行う。負の例の情報も用いる本発明は、正の例だけを用いた処理方法に比べて、格段に高い精度の処理結果を得ることができる。
【0074】
また、本発明は、正の例の頻度情報を用いて、正の例から負の例を抽出する処理を行い、抽出した負の例を機械学習法の教師信号とする。正の例から自動的に抽出される負の例の情報を用いる本発明は、表記誤り検出のように正の例が存在するが負の例の取得が困難な問題において、負の例を生成する処理負担を軽減することができる。
【図面の簡単な説明】
【図1】第1の実施の形態における表記誤り検出装置の構成例を示す図である。
【図2】教師データ記憶部の構成例を示す図である。
【図3】表記誤り検出処理の処理フローチャート図である。
【図4】素性の例を示す図である。
【図5】第2の実施の形態における表記誤り検出装置の構成例を示す図である。
【図6】負の例データ取得処理の処理フローチャート図である。
【図7】従来手法を補足的に説明するための図である。
【符号の説明】
1 表記誤り検出装置
2 データ
3 推定結果
11 教師データ記憶部
12 解-素性対抽出部
13 機械学習部
14 学習結果データ記憶部
15 素性抽出部
16 誤り検出部
20 コーパス
21 存在判定部
22 出現確率推定部
23 負の例度合い算出部
24 負の例取得部
25 正の例データ記憶部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6