TOP > 国内特許検索 > 単語分割装置、方法、及びプログラム

単語分割装置、方法、及びプログラム

国内特許コード P160013312
整理番号 4626
掲載日 2016年9月23日
出願番号 特願2014-142404
公開番号 特開2016-018489
出願日 平成26年7月10日(2014.7.10)
公開日 平成28年2月1日(2016.2.1)
発明者
  • 須藤 克仁
  • 永田 昌明
  • 森 信介
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 単語分割装置、方法、及びプログラム
発明の概要 【課題】対象分野の文字列について精度良く単語分割をすることができる。
【解決手段】分割位置推定部34により、生コーパスに含まれる文字列の各々に対して、文字間の各々に単語分割する位置を示すラベルを付与し、学習素性抽出部52により、単語分割コーパスに含まれる文字列の各々に対して、ラベルが付与された文字間の各々についての素性を抽出し、生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、モデル学習部54により、ラベルが付与された文字間の各々についての素性に基づいて、単語分割モデルを学習し、素性抽出部242により、入力された文字間の各々についての素性を抽出し、二値分類部244により、文字間の各々についての素性と、単語分割モデルとに基づいて、入力された文字列の単語分割する位置を判定する。
【選択図】図2
従来技術、競合技術の概要


日本語や中国語など正書法において単語区切りを明示しない言語を対象とする言語処理システムでは、通常単語分割処理を初期の段階で行い、入力文書あるいは入力文を構成する文字列を単語列に変換する。何をもって単語とするか、という厳格な定義は通常容易でなく、ある種の品詞体系に基づいて単語の単位を定めて利用することが一般的である。近年の言語処理システムではIPAdic、UniDicと呼ばれる辞書で用いられている品詞体系を利用して単語の単位を定めている。そうした単語の定義に基づいて行われる単語分割処理として、近年主流となっているのは、単語分割情報が付与された言語データ(以後、単語分割コーパスとする。)を利用して単語分割のための統計モデルを学習し、その統計モデルに基づいて入力文の単語分割処理を行う方法である(非特許文献1、非特許文献2)。



また、分野適応と呼ばれる技術が知られている。単語分割に対する分野適応の方法としては大きく2種類の方法がある。1つは対象分野の単語分割コーパスを用意し、元の単語分割コーパスと結合して統計モデルを学習する、もしくは学習済みのモデルを追加学習する方法である(非特許文献3)。非特許文献3の技術は単語分割を各文字間が単語の分割位置になるか否かの二値分類の問題として扱い、対象分野の文に対して学習済みの統計モデルを利用して単語分割を行い、分割の確信度が小さい箇所に対して人手で正解を与えることで部分的な単語分割の正解を作成して統計モデルの追加学習を漸進的に行う方法を記載している。もう1つは対象分野の単語分割されていないコーパス(以後、生コーパスとする。)から得られる文字列の統計量を単語分割時の特徴量(以後、素性とする。)として利用する方法である(非特許文献4、非特許文献5)。非特許文献5では、Accessor Variety(非特許文献6)と呼ばれる、ある部分文字列両端に接続する文字の異なり数がその部分文字列が独立した単語らしさを表すことを利用して、Accessor Varietyの値を素性として用い、Accessor Varietyの値が単語分割に貢献する度合いを元分野の単語分割コーパスから学習する。

産業上の利用分野


本発明は、単語分割装置、方法、及びプログラムに係り、特に、入力された文字列について単語分割するための単語分割装置、方法、及びプログラムに関する。

特許請求の範囲 【請求項1】
対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与する分割位置推定部と、
前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出する学習素性抽出部と、
前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習するモデル学習部と、
入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出する素性抽出部と、
前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する二値分類部と、
を含む、単語分割装置。

【請求項2】
前記生コーパスに含まれる文字列に基づいて、部分文字列毎に、前記部分文字列の前後に接続される文字の統計量を計算する統計量計算部を更に含み、
前記分割位置推定部は、前記統計量計算部において前記部分文字列毎に計算された前記部分文字列の前後に接続される文字の統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与する請求項1記載の単語分割装置。

【請求項3】
前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置及び単語分割しない位置を推定し、文字間の各々に、単語分割する位置を示すラベル、単語分割しない位置を示すラベル、及び分割有無不明位置を示すラベルの何れか一つを付与し、
前記学習素性抽出部は、前記単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する請求項1記載の単語分割装置。

【請求項4】
前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に、単語分割する位置を示すラベル、及び分割有無不明位置を示すラベルの何れか一方を付与する請求項1記載の単語分割装置。

【請求項5】
分割位置推定部と、学習素性抽出部と、モデル学習部と、素性抽出部と、二値分類部とを含む単語分割装置における、単語分割方法であって、
前記分割位置推定部は、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与し、
前記学習素性抽出部は、前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、
前記モデル学習部は、前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、
前記素性抽出部は、入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出し、
前記二値分類部は、前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する
単語分割方法。

【請求項6】
コンピュータを、請求項1~請求項4の何れか1項記載の単語分割装置を構成する各部として機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2014142404thum.jpg
出願権利状態 公開
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close