TOP > 国内特許検索 > 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置

負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 コモンズ

国内特許コード P140010705
整理番号 01-92
掲載日 2014年7月3日
出願番号 特願2001-394112
公開番号 特開2003-196094
登録番号 特許第3783053号
出願日 平成13年12月26日(2001.12.26)
公開日 平成15年7月11日(2003.7.11)
登録日 平成18年3月24日(2006.3.24)
発明者
  • 村田 真樹
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 コモンズ
発明の概要 【課題】 ある問題について正または負の例であることが未知のデータについて負の例である度合いを予測する処理方法を提供する。
【解決手段】 存在判定部11は、未知の事例xを入力し、事例xが正の例データベース14に存在するか否かを判定する。事例xが存在しなければ、出現確率推定部12は、事例xの一般的な出現確率p(x)を算出する。負の例度合い算出部13は、出現確率p(x)から事例xが負の例である度合いQ(x)を算出する。
従来技術、競合技術の概要



正の例から負の例を予測する処理について、例えば日本語文の表記誤り検出の問題を考える。この場合に、大規模な既存のコーパス(日本語の文の集合)をすべて正しいと仮定すると、その既存のコーパスを正しい文(正の例)と考え、この正の例を用いて、日本語の表記誤り(負の例)を予測し抽出することになる。この意味で、正の例から負の例を予測する処理の実現は、実際の日本語文の表記誤りの検出など、正の例があるが負の例の取得が困難な問題の解決に役に立つ重要な課題である。





正の例からの負の例の予測方法について、単純な方法だと、既知の正の例のデータに現れなかったものを、すべて負の例とするという手法が考えられる。しかし、実際には未出現の正の例の存在が考えられるために、このような方法を用いると、多くの未出現の正の例を負の例であると判定してしまうことになるという問題があり、精度の高い処理に適用することができない。





また、以下の参考文献1でも述べられているように、正の例のみからの学習は一般的に困難であることが知られている。つまり、正の例と負の例の両方を教師信号として用いる機械学習手法であれば高精度な処理を期待することができるが、正の例のみの機械学習法では処理の精度に問題があると考えられる。

[参考文献1:横森貫 他,形式言語の学習-正の例からの学習を中心に-,情報処理学会誌,Vol.32, No.3, (1991), pp226-235 ]

このように、従来は、正の例から負の例を予測する処理について、実用が可能な程度に精度が高い処理方法は実現されていなかった。

産業上の利用分野



本発明は、負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに、負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置に関する。





本発明は、日本語文の表記誤りや日本語構文解析における格関係の判断等に応用することができる。特に、本発明は、実際の日本語文の表記誤りの検出に役に立ち、日本語ワードプロセッサシステムやOCR読み取りシステムへ適用することができる。

特許請求の範囲 【請求項1】
ある問題について正または負であることが未知のデータについて負であるか否かを予測する処理を行うために、前記問題について正の例である正の例データ群を記憶する正の例データ記憶手段と、データ入力処理手段、存在判定処理手段、出現確率算出処理手段、および負の例度合い算出処理手段とを備えたコンピュータが行う処理方法であって、
前記データ入力処理手段が、予測処理の対象となる2つの項で構成されるデータを取得するデータ入力処理過程と、
前記存在判定処理手段が、前記正の例データ記憶手段に格納された正の例データ群を参照して、前記データ入力処理過程において取得された入力データが前記正の例データ群に存在するか否かを判定する存在判定処理過程と、
前記出現確率算出処理手段が、前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データの各項が前記正の例データ記憶手段に格納された正の例データ群に出現する出現確率を算出し、当該入力データの各項の出現確率の積にもとづいて前記入力データが前記正の例データ群に出現する出現確率を算出する出現確率算出処理過程と、
前記負の例度合い算出処理手段が、前記出現確率算出処理過程において算出された入力データの出現確率をもとに、前記入力データが前記問題について負の例である傾向を示す負の例度合いを求める負の例度合い算出処理過程とを備える
ことを特徴とする負の例予測処理方法。

【請求項2】
前記コンピュータは、負の例出力処理手段を備え、
前記負の例出力処理手段が、前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データおよびその負の例度合いを出力する負の例出力処理過程を備える
ことを特徴とする請求項記載の負の例予測処理方法。

【請求項3】
前記負の例出力処理過程において、前記負の例出力処理手段が、前記出力する入力データが複数である場合に、前記入力データを、その負の例度合いにもとづいて降順もしくは昇順に並べ替えて出力する処理を行う
ことを特徴とする請求項記載の負の例予測処理方法。

【請求項4】
前記コンピュータは、負の例表示処理手段を備え、
前記負の例表示処理手段が、前記出力する入力データを、その負の例度合いに対応する所定の区分けに応じて、色もしくは輝度を変更して表示し、または、異なる表示形態によって表示する負の例表示処理過程を備える
ことを特徴とする請求項記載の負の例予測処理方法。

【請求項5】
ある問題について正または負であることが未知のデータについて負であるか否かを予測する処理を、前記問題について正の例である正の例データ群を記憶する正の例データ記憶手段を備えるコンピュータに実行させるためのプログラムであって、
前記正の例データ記憶手段にアクセスする処理と、
予測処理の対象となる2つの項で構成されるデータを取得するデータ入力処理と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記データ入力処理によって取得された入力データが前記正の例データ群に存在するか否かを判定する存在判定処理と、
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データの各項が前記正の例データ記憶手段に格納された正の例データ群に出現する出現確率を算出し、当該入力データの各項の出現確率の積にもとづいて前記入力データが前記正の例データ群に出現する出現確率を算出する出現確率算出処理と、
前記出現確率算出処理によって算出された入力データの出現確率をもとに、前記入力データが前記問題について負の例である傾向を示す負の例度合いを求める処理とを、
前記コンピュータに実行させるための負の例予測処理プログラム。

【請求項6】
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データおよびその負の例度合いを出力する処理を、
前記コンピュータに実行させるための請求項記載の負の例予測処理プログラム。

【請求項7】
前記負の例出力処理において、前記出力する入力データが複数である場合に、前記入力データを、その負の例度合いにもとづいて降順もしくは昇順に並べ替えて出力する処理を、
前記コンピュータに実行させるための請求項記載の負の例予測処理プログラム。

【請求項8】
前記出力する入力データを、その負の例度合いに対応する所定の区分けに応じて、色もしくは輝度を変更して表示し、または、異なる表示形態によって表示する負の例表示処理を、
前記コンピュータに実行させるための請求項記載の負の例予測処理プログラム。

【請求項9】
ある問題について正または負であることが未知のデータについて負であるか否かを予測する処理を行うコンピュータである負の例予測処理装置であって、
前記問題について正の例である正の例データ群を記憶する正の例データ記憶手段と、
予測処理の対象となる2つの項で構成されるデータを取得するデータ入力処理手段と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記データ入力処理手段によって取得された入力データが前記正の例データ群に存在するか否かを判定する存在判定処理手段と、
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データの各項が前記正の例データ記憶手段に格納された正の例データ群に出現する出現確率を算出し、当該入力データの各項の出現確率の積にもとづいて前記入力データが前記正の例データ群に出現する出現確率を算出する出現確率算出処理手段と、
前記出現確率算出処理手段によって算出された入力データの出現確率をもとに、前記入力データが前記問題について負の例である傾向を示す負の例度合いを求める負の例度合い算出処理手段とを備える
ことを特徴とする負の例予測処理装置。

【請求項10】
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データおよびその負の例度合いを出力する負の例出力処理手段を備える
ことを特徴とする請求項記載の負の例予測処理装置。

【請求項11】
前記負の例出力処理手段は、前記出力する入力データが複数である場合に、前記入力データを、その負の例度合いにもとづいて降順もしくは昇順に並べ替えて出力する
ことを特徴とする請求項10記載の負の例予測処理装置。

【請求項12】
前記出力する入力データを、その負の例度合いに対応する所定の区分けに応じて、色もしくは輝度を変更して表示し、または、異なる表示形態によって表示する負の例表示処理手段を備える
ことを特徴とする請求項記載の負の例予測処理装置。

【請求項13】
日本語表記の正誤検出処理において正または負であることが未知のデータについて日本語表記の誤りであることを示す負の例であるか否かを予測する負の例予測処理を用いて、入力されたデータの日本語表記誤りを検出する処理を、正しい日本語表記の例である正の例データ群を記憶する正の例データ記憶手段を備えたコンピュータに実行させるためのプログラムであって、
前記正の例データ記憶手段にアクセスする正の例データアクセス処理と、
検出処理の対象となるデータを取得するデータ入力処理と、
前記データ入力処理によって取得された入力データの文字の各すき間について、前記すき間に連接する前接文字列および後接文字列を項とするペアを生成するペア生成処理と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出されたペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該ペアの各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理と、
前記出現確率算出処理によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理と、
前記負の例度合い算出処理によって求められた前記負の例度合いが所定より大きいペアを表記の誤り箇所として検出する表記誤り検出処理とを、
コンピュータに実行させるための負の例予測処理を用いた日本語表記誤り検出処理プログラム。

【請求項14】
日本語表記の正誤検出処理において正または負であることが未知のデータについて日本語表記の誤りであることを示す負の例であるか否かを予測する負の例予測処理を用いて日本語表記誤りを検出するコンピュータである処理装置であって、
正しい日本語表記の例である正の例データ群を記憶する正の例データ記憶手段と、
検出処理の対象となるデータを取得し、前記取得された入力データの文字の各すき間について、前記すき間に連接する前接文字列および後接文字列を項とするペアを生成するペア生成処理手段と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理手段によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理手段と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出されたペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該ペアの各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理手段と、
前記出現確率算出処理手段によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理手段と、
前記負の例度合い算出処理手段によって求められた前記負の例度合いが所定より大きいペアを表記の誤り箇所として検出する表記誤り検出処理手段とを備える
ことを特徴とする負の例予測処理を用いた日本語表記誤り検出処理装置。

【請求項15】
連体節の格関係が未知のデータについて外の関係を示す負の例であるか否かを予測する負の例予測処理を用いて、入力されたデータの外の関係となる連体節を検出する処理を、格関係にある動詞と名詞との組を持つ正の例データ群を記憶する正の例データ記憶手段を備えたコンピュータに実行させるためのプログラムであって、
前記正の例データ記憶手段にアクセスする正の例データアクセス処理と、
検出処理の対象となるデータを取得するデータ入力処理と、
前記データ入力処理によって取得された入力データの連体修飾関係を構成する連体節の動詞とそのかかり先の名詞とを抽出し、前記動詞および前記名詞を項とするペアを生成するペア生成処理と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出したペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理と、
前記出現確率算出処理によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理と、
前記負の例度合い算出処理において求められた前記負の例度合いが所定より大きいペアを外の関係の連体節として検出する外の関係検出処理とを、
コンピュータに実行させるための負の例予測処理を用いた外の関係検出処理プログラム。

【請求項16】
連体節の格関係が未知のデータについて外の関係を示す負の例であるか否かを予測する負の例予測処理を用いて、入力されたデータの外の関係となる連体節を検出するコンピュータである処理装置であって、
格関係にある動詞と名詞との組を持つ正の例データ群を記憶する正の例データ記憶処理手段と、
検出処理の対象となるデータを取得し、前記取得された入力データが連体修飾関係を構成する連体節の動詞とそのかかり先の名詞とを抽出し、前記動詞および前記名詞を項とするペアを生成するペア生成処理手段と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理手段によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理手段と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出したペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理手段と、
前記出現確率算出処理手段によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理手段と、
前記負の例度合い算出処理手段によって求められた前記負の例度合いが所定より大きいペアを外の関係の連体節として検出する外の関係検出処理手段とを備える
ことを特徴とする負の例予測処理を用いた外の関係検出処理装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2001394112thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close