Top > Search of Japanese Patents > WORD DIVISION APPARATUS, METHOD, AND PROGRAM

WORD DIVISION APPARATUS, METHOD, AND PROGRAM

Patent code P160013312
File No. 4626
Posted date Sep 23, 2016
Application number P2014-142404
Publication number P2016-018489A
Patent number P6269953
Date of filing Jul 10, 2014
Date of publication of application Feb 1, 2016
Date of registration Jan 12, 2018
Inventor
  • (In Japanese)須藤 克仁
  • (In Japanese)永田 昌明
  • (In Japanese)森 信介
Applicant
  • (In Japanese)日本電信電話株式会社
  • (In Japanese)国立大学法人京都大学
Title WORD DIVISION APPARATUS, METHOD, AND PROGRAM
Abstract PROBLEM TO BE SOLVED: To enable accurate word division in a character string in a target field.
SOLUTION: A division position estimation section 34 applies a label indicating a word division position to each of character intervals, with respect to each of character strings included in a raw corpus. A learning feature extraction section 52 extracts a feature of each of the labeled character intervals, with respect to each of the character strings included in a word-division corpus, and extracts a feature of each of the character intervals with the labels indicating the word division position, with respect to each of the character strings included in the raw corpus. A model learning section 54 learns a word division model, on the basis of the features of each of the labeled character intervals. A feature extraction section 242 extracts features of each of input character intervals. A binary classification section 244 determines a word division position of an input character string, on the basis of the features of each of the character intervals and the word division model.
Outline of related art and contending technology (In Japanese)

日本語や中国語など正書法において単語区切りを明示しない言語を対象とする言語処理システムでは、通常単語分割処理を初期の段階で行い、入力文書あるいは入力文を構成する文字列を単語列に変換する。何をもって単語とするか、という厳格な定義は通常容易でなく、ある種の品詞体系に基づいて単語の単位を定めて利用することが一般的である。近年の言語処理システムではIPAdic、UniDicと呼ばれる辞書で用いられている品詞体系を利用して単語の単位を定めている。そうした単語の定義に基づいて行われる単語分割処理として、近年主流となっているのは、単語分割情報が付与された言語データ(以後、単語分割コーパスとする。)を利用して単語分割のための統計モデルを学習し、その統計モデルに基づいて入力文の単語分割処理を行う方法である(非特許文献1、非特許文献2)。

また、分野適応と呼ばれる技術が知られている。単語分割に対する分野適応の方法としては大きく2種類の方法がある。1つは対象分野の単語分割コーパスを用意し、元の単語分割コーパスと結合して統計モデルを学習する、もしくは学習済みのモデルを追加学習する方法である(非特許文献3)。非特許文献3の技術は単語分割を各文字間が単語の分割位置になるか否かの二値分類の問題として扱い、対象分野の文に対して学習済みの統計モデルを利用して単語分割を行い、分割の確信度が小さい箇所に対して人手で正解を与えることで部分的な単語分割の正解を作成して統計モデルの追加学習を漸進的に行う方法を記載している。もう1つは対象分野の単語分割されていないコーパス(以後、生コーパスとする。)から得られる文字列の統計量を単語分割時の特徴量(以後、素性とする。)として利用する方法である(非特許文献4、非特許文献5)。非特許文献5では、Accessor Variety(非特許文献6)と呼ばれる、ある部分文字列両端に接続する文字の異なり数がその部分文字列が独立した単語らしさを表すことを利用して、Accessor Varietyの値を素性として用い、Accessor Varietyの値が単語分割に貢献する度合いを元分野の単語分割コーパスから学習する。

Field of industrial application (In Japanese)

本発明は、単語分割装置、方法、及びプログラムに係り、特に、入力された文字列について単語分割するための単語分割装置、方法、及びプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
対象分野の文字列の集合である生コーパスに含まれる文字列に基づいて部分文字列毎に計算された、前記部分文字列の前後に接続される文字の異なり数又は曖昧性に関する統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与する分割位置推定部と、
前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出する学習素性抽出部と、
前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習するモデル学習部と、
入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出する素性抽出部と、
前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する二値分類部と、
を含む、単語分割装置。

【請求項2】
 
前記分割位置推定部は、前記生コーパスに含まれる、特定の文字種で構成される文字列の各々に対して、単語分割する位置及び単語分割しない位置を推定し、文字間の各々に、単語分割する位置を示すラベル、及び単語分割しない位置を示すラベルの何れか一つを付与し、
前記学習素性抽出部は、前記単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する請求項1記載の単語分割装置。

【請求項3】
 
前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、推定された単語分割する位置のうち、
前記元分野の単語分割コーパスに基づいて学習された、単語分割する位置を判定するための単語分割プログラムを用いて前記生コーパスに含まれる文字列の各々に対して単語分割する位置を推定した推定結果と一致する位置に、単語分割する位置を示すラベルを付与し、前記推定結果と一致しない位置に、分割有無不明位置を示すラベルを付与する請求項1記載の単語分割装置。

【請求項4】
 
分割位置推定部と、学習素性抽出部と、モデル学習部と、素性抽出部と、二値分類部とを含む単語分割装置における、単語分割方法であって、
前記分割位置推定部は、対象分野の文字列の集合である生コーパスに含まれる文字列に基づいて部分文字列毎に計算された、前記部分文字列の前後に接続される文字の異なり数又は曖昧性に関する統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与し、
前記学習素性抽出部は、前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、
前記モデル学習部は、前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、
前記素性抽出部は、入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出し、
前記二値分類部は、前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する
単語分割方法。

【請求項5】
 
コンピュータを、請求項1~請求項3の何れか1項記載の単語分割装置を構成する各部として機能させるためのプログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2014142404thum.jpg
State of application right Registered
Please contact us by e-mail or facsimile if you have any interests on this patent. Thanks.


PAGE TOP

close
close
close
close
close
close
close