Top > Search of Japanese Patents > NEGATIVE EXAMPLE PREDICTING PROCESSING METHOD, NEGATIVE EXAMPLE PREDICTING PROCESSING PROGRAM, JAPANESE NOTATION ERROR DETECTING PROCESSING PROGRAM USING NEGATIVE EXAMPLE PREDICTING PROCESSING, JAPANESE NOTATION ERROR DETECTING DEVICE USING NEGATIVE EXAMPLE PREDICTING PROCESSING, SENTENCE EXTRACTING PROCESSING PROGRAM OF EXTERNAL RELATIONSHIP USING NEGATIVE EXAMPLE PREDICTING PROCESSING, AND SENTENCE EXTRACTING DEVICE OF EXTERNAL RELATIONSHIP USING NEGATIVE EXAMPLE PREDICTING PROCESSING

NEGATIVE EXAMPLE PREDICTING PROCESSING METHOD, NEGATIVE EXAMPLE PREDICTING PROCESSING PROGRAM, JAPANESE NOTATION ERROR DETECTING PROCESSING PROGRAM USING NEGATIVE EXAMPLE PREDICTING PROCESSING, JAPANESE NOTATION ERROR DETECTING DEVICE USING NEGATIVE EXAMPLE PREDICTING PROCESSING, SENTENCE EXTRACTING PROCESSING PROGRAM OF EXTERNAL RELATIONSHIP USING NEGATIVE EXAMPLE PREDICTING PROCESSING, AND SENTENCE EXTRACTING DEVICE OF EXTERNAL RELATIONSHIP USING NEGATIVE EXAMPLE PREDICTING PROCESSING commons

Patent code P140010705
File No. 01-92
Posted date Jul 3, 2014
Application number P2001-394112
Publication number P2003-196094A
Patent number P3783053
Date of filing Dec 26, 2001
Date of publication of application Jul 11, 2003
Date of registration Mar 24, 2006
Inventor
  • (In Japanese)村田 真樹
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title NEGATIVE EXAMPLE PREDICTING PROCESSING METHOD, NEGATIVE EXAMPLE PREDICTING PROCESSING PROGRAM, JAPANESE NOTATION ERROR DETECTING PROCESSING PROGRAM USING NEGATIVE EXAMPLE PREDICTING PROCESSING, JAPANESE NOTATION ERROR DETECTING DEVICE USING NEGATIVE EXAMPLE PREDICTING PROCESSING, SENTENCE EXTRACTING PROCESSING PROGRAM OF EXTERNAL RELATIONSHIP USING NEGATIVE EXAMPLE PREDICTING PROCESSING, AND SENTENCE EXTRACTING DEVICE OF EXTERNAL RELATIONSHIP USING NEGATIVE EXAMPLE PREDICTING PROCESSING commons
Abstract PROBLEM TO BE SOLVED: To provide a processing method for predicting a degree of being a negative example on data unknown to be a positive or negative example on a certain problem.
SOLUTION: An unknown example x is inputted to a presence determining part 11 to determine whether or not the example x exists in a positive example database 14. When the example x does not exists, an appearance probability estimating part 12 calculates a general appearance probability p (x) of the example x. A negative example degree calculating part 13 calculates a degree Q (x) being a negative example in the example x from the appearance probability p (x).
Outline of related art and contending technology (In Japanese)

正の例から負の例を予測する処理について、例えば日本語文の表記誤り検出の問題を考える。この場合に、大規模な既存のコーパス(日本語の文の集合)をすべて正しいと仮定すると、その既存のコーパスを正しい文(正の例)と考え、この正の例を用いて、日本語の表記誤り(負の例)を予測し抽出することになる。この意味で、正の例から負の例を予測する処理の実現は、実際の日本語文の表記誤りの検出など、正の例があるが負の例の取得が困難な問題の解決に役に立つ重要な課題である。

正の例からの負の例の予測方法について、単純な方法だと、既知の正の例のデータに現れなかったものを、すべて負の例とするという手法が考えられる。しかし、実際には未出現の正の例の存在が考えられるために、このような方法を用いると、多くの未出現の正の例を負の例であると判定してしまうことになるという問題があり、精度の高い処理に適用することができない。

また、以下の参考文献1でも述べられているように、正の例のみからの学習は一般的に困難であることが知られている。つまり、正の例と負の例の両方を教師信号として用いる機械学習手法であれば高精度な処理を期待することができるが、正の例のみの機械学習法では処理の精度に問題があると考えられる。

[参考文献1:横森貫 他,形式言語の学習-正の例からの学習を中心に-,情報処理学会誌,Vol.32, No.3, (1991), pp226-235 ]

このように、従来は、正の例から負の例を予測する処理について、実用が可能な程度に精度が高い処理方法は実現されていなかった。

Field of industrial application (In Japanese)

本発明は、負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに、負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置に関する。

本発明は、日本語文の表記誤りや日本語構文解析における格関係の判断等に応用することができる。特に、本発明は、実際の日本語文の表記誤りの検出に役に立ち、日本語ワードプロセッサシステムやOCR読み取りシステムへ適用することができる。

Scope of claims (In Japanese)
【請求項1】
 
ある問題について正または負であることが未知のデータについて負であるか否かを予測する処理を行うために、前記問題について正の例である正の例データ群を記憶する正の例データ記憶手段と、データ入力処理手段、存在判定処理手段、出現確率算出処理手段、および負の例度合い算出処理手段とを備えたコンピュータが行う処理方法であって、
前記データ入力処理手段が、予測処理の対象となる2つの項で構成されるデータを取得するデータ入力処理過程と、
前記存在判定処理手段が、前記正の例データ記憶手段に格納された正の例データ群を参照して、前記データ入力処理過程において取得された入力データが前記正の例データ群に存在するか否かを判定する存在判定処理過程と、
前記出現確率算出処理手段が、前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データの各項が前記正の例データ記憶手段に格納された正の例データ群に出現する出現確率を算出し、当該入力データの各項の出現確率の積にもとづいて前記入力データが前記正の例データ群に出現する出現確率を算出する出現確率算出処理過程と、
前記負の例度合い算出処理手段が、前記出現確率算出処理過程において算出された入力データの出現確率をもとに、前記入力データが前記問題について負の例である傾向を示す負の例度合いを求める負の例度合い算出処理過程とを備える
ことを特徴とする負の例予測処理方法。

【請求項2】
 
前記コンピュータは、負の例出力処理手段を備え、
前記負の例出力処理手段が、前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データおよびその負の例度合いを出力する負の例出力処理過程を備える
ことを特徴とする請求項1記載の負の例予測処理方法。

【請求項3】
 
前記負の例出力処理過程において、前記負の例出力処理手段が、前記出力する入力データが複数である場合に、前記入力データを、その負の例度合いにもとづいて降順もしくは昇順に並べ替えて出力する処理を行う
ことを特徴とする請求項2記載の負の例予測処理方法。

【請求項4】
 
前記コンピュータは、負の例表示処理手段を備え、
前記負の例表示処理手段が、前記出力する入力データを、その負の例度合いに対応する所定の区分けに応じて、色もしくは輝度を変更して表示し、または、異なる表示形態によって表示する負の例表示処理過程を備える
ことを特徴とする請求項1記載の負の例予測処理方法。

【請求項5】
 
ある問題について正または負であることが未知のデータについて負であるか否かを予測する処理を、前記問題について正の例である正の例データ群を記憶する正の例データ記憶手段を備えるコンピュータに実行させるためのプログラムであって、
前記正の例データ記憶手段にアクセスする処理と、
予測処理の対象となる2つの項で構成されるデータを取得するデータ入力処理と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記データ入力処理によって取得された入力データが前記正の例データ群に存在するか否かを判定する存在判定処理と、
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データの各項が前記正の例データ記憶手段に格納された正の例データ群に出現する出現確率を算出し、当該入力データの各項の出現確率の積にもとづいて前記入力データが前記正の例データ群に出現する出現確率を算出する出現確率算出処理と、
前記出現確率算出処理によって算出された入力データの出現確率をもとに、前記入力データが前記問題について負の例である傾向を示す負の例度合いを求める処理とを、
前記コンピュータに実行させるための負の例予測処理プログラム。

【請求項6】
 
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データおよびその負の例度合いを出力する処理を、
前記コンピュータに実行させるための請求項5記載の負の例予測処理プログラム。

【請求項7】
 
前記負の例出力処理において、前記出力する入力データが複数である場合に、前記入力データを、その負の例度合いにもとづいて降順もしくは昇順に並べ替えて出力する処理を、
前記コンピュータに実行させるための請求項6記載の負の例予測処理プログラム。

【請求項8】
 
前記出力する入力データを、その負の例度合いに対応する所定の区分けに応じて、色もしくは輝度を変更して表示し、または、異なる表示形態によって表示する負の例表示処理を、
前記コンピュータに実行させるための請求項5記載の負の例予測処理プログラム。

【請求項9】
 
ある問題について正または負であることが未知のデータについて負であるか否かを予測する処理を行うコンピュータである負の例予測処理装置であって、
前記問題について正の例である正の例データ群を記憶する正の例データ記憶手段と、
予測処理の対象となる2つの項で構成されるデータを取得するデータ入力処理手段と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記データ入力処理手段によって取得された入力データが前記正の例データ群に存在するか否かを判定する存在判定処理手段と、
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データの各項が前記正の例データ記憶手段に格納された正の例データ群に出現する出現確率を算出し、当該入力データの各項の出現確率の積にもとづいて前記入力データが前記正の例データ群に出現する出現確率を算出する出現確率算出処理手段と、
前記出現確率算出処理手段によって算出された入力データの出現確率をもとに、前記入力データが前記問題について負の例である傾向を示す負の例度合いを求める負の例度合い算出処理手段とを備える
ことを特徴とする負の例予測処理装置。

【請求項10】
 
前記入力データが前記正の例データ記憶手段に格納された正の例データ群に存在しない場合に、前記入力データおよびその負の例度合いを出力する負の例出力処理手段を備える
ことを特徴とする請求項9記載の負の例予測処理装置。

【請求項11】
 
前記負の例出力処理手段は、前記出力する入力データが複数である場合に、前記入力データを、その負の例度合いにもとづいて降順もしくは昇順に並べ替えて出力する
ことを特徴とする請求項10記載の負の例予測処理装置。

【請求項12】
 
前記出力する入力データを、その負の例度合いに対応する所定の区分けに応じて、色もしくは輝度を変更して表示し、または、異なる表示形態によって表示する負の例表示処理手段を備える
ことを特徴とする請求項9記載の負の例予測処理装置。

【請求項13】
 
日本語表記の正誤検出処理において正または負であることが未知のデータについて日本語表記の誤りであることを示す負の例であるか否かを予測する負の例予測処理を用いて、入力されたデータの日本語表記誤りを検出する処理を、正しい日本語表記の例である正の例データ群を記憶する正の例データ記憶手段を備えたコンピュータに実行させるためのプログラムであって、
前記正の例データ記憶手段にアクセスする正の例データアクセス処理と、
検出処理の対象となるデータを取得するデータ入力処理と、
前記データ入力処理によって取得された入力データの文字の各すき間について、前記すき間に連接する前接文字列および後接文字列を項とするペアを生成するペア生成処理と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出されたペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該ペアの各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理と、
前記出現確率算出処理によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理と、
前記負の例度合い算出処理によって求められた前記負の例度合いが所定より大きいペアを表記の誤り箇所として検出する表記誤り検出処理とを、
コンピュータに実行させるための負の例予測処理を用いた日本語表記誤り検出処理プログラム。

【請求項14】
 
日本語表記の正誤検出処理において正または負であることが未知のデータについて日本語表記の誤りであることを示す負の例であるか否かを予測する負の例予測処理を用いて日本語表記誤りを検出するコンピュータである処理装置であって、
正しい日本語表記の例である正の例データ群を記憶する正の例データ記憶手段と、
検出処理の対象となるデータを取得し、前記取得された入力データの文字の各すき間について、前記すき間に連接する前接文字列および後接文字列を項とするペアを生成するペア生成処理手段と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理手段によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理手段と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出されたペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該ペアの各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理手段と、
前記出現確率算出処理手段によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理手段と、
前記負の例度合い算出処理手段によって求められた前記負の例度合いが所定より大きいペアを表記の誤り箇所として検出する表記誤り検出処理手段とを備える
ことを特徴とする負の例予測処理を用いた日本語表記誤り検出処理装置。

【請求項15】
 
連体節の格関係が未知のデータについて外の関係を示す負の例であるか否かを予測する負の例予測処理を用いて、入力されたデータの外の関係となる連体節を検出する処理を、格関係にある動詞と名詞との組を持つ正の例データ群を記憶する正の例データ記憶手段を備えたコンピュータに実行させるためのプログラムであって、
前記正の例データ記憶手段にアクセスする正の例データアクセス処理と、
検出処理の対象となるデータを取得するデータ入力処理と、
前記データ入力処理によって取得された入力データの連体修飾関係を構成する連体節の動詞とそのかかり先の名詞とを抽出し、前記動詞および前記名詞を項とするペアを生成するペア生成処理と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出したペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理と、
前記出現確率算出処理によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理と、
前記負の例度合い算出処理において求められた前記負の例度合いが所定より大きいペアを外の関係の連体節として検出する外の関係検出処理とを、
コンピュータに実行させるための負の例予測処理を用いた外の関係検出処理プログラム。

【請求項16】
 
連体節の格関係が未知のデータについて外の関係を示す負の例であるか否かを予測する負の例予測処理を用いて、入力されたデータの外の関係となる連体節を検出するコンピュータである処理装置であって、
格関係にある動詞と名詞との組を持つ正の例データ群を記憶する正の例データ記憶処理手段と、
検出処理の対象となるデータを取得し、前記取得された入力データが連体修飾関係を構成する連体節の動詞とそのかかり先の名詞とを抽出し、前記動詞および前記名詞を項とするペアを生成するペア生成処理手段と、
前記正の例データ記憶手段に格納された正の例データ群を参照して、前記ペア生成処理手段によって生成されたペアが前記正の例データ群に存在するか否かを判定する存在判定処理手段と、
前記入力データから生成されたペアから前記正の例データ記憶手段に格納された正の例データ群に存在しないペアを抽出し、前記抽出したペアについて、当該ペアの各項が前記正の例データ群に出現する出現確率を算出し、当該各項の出現確率の積にもとづいて前記ペアが前記正の例データ群に出現する出現確率を算出する出現確率算出処理手段と、
前記出現確率算出処理手段によって算出された前記ペアの出現確率をもとに、前記ペアが負の例である傾向を示す負の例度合いを求める負の例度合い算出処理手段と、
前記負の例度合い算出処理手段によって求められた前記負の例度合いが所定より大きいペアを外の関係の連体節として検出する外の関係検出処理手段とを備える
ことを特徴とする負の例予測処理を用いた外の関係検出処理装置。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2001394112thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close