TOP > 国内特許検索 > 異表記取得装置、異表記取得方法、およびプログラム

異表記取得装置、異表記取得方法、およびプログラム コモンズ

国内特許コード P140010662
整理番号 09-58
掲載日 2014年6月17日
出願番号 特願2009-299287
公開番号 特開2011-138440
登録番号 特許第5470620号
出願日 平成21年12月30日(2009.12.30)
公開日 平成23年7月14日(2011.7.14)
登録日 平成26年2月14日(2014.2.14)
発明者
  • 村田 真樹
  • 小島 正裕
  • 鳥澤 健太郎
  • 風間 淳一
  • 黒田 航
  • 藤田 篤
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 異表記取得装置、異表記取得方法、およびプログラム コモンズ
発明の概要 【課題】従来、十分な異表記抽出の精度が得られなかった。
【解決手段】用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納し、編集距離が1以上の用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を取得する素性取得部と、用語対に対して、2以上の学習データと取得された複数の素性とを用いて、教師あり機械学習法により、各用語対が異表記の用語対であるか否かを判断する機械学習部と、判断結果を出力する出力部とを具備する異表記取得装置により、精度の高い異表記の用語対抽出ができる。
【選択図】図1
従来技術、競合技術の概要



従来の異表記を取り出す技術としては、荒牧らの研究がある(非特許文献1参照)。この研究は、医療分野の専門用語の異表記の取り出しを行うものであった。なお、異表記とは、例えば「スパゲティ」に対して、「スパゲッティ」など、同義語であるが異なる表現の用語を言う。また、異表記の二つの用語を異表記対という。





異表記対の第一の考え方は、以下である。例えば、用語対の例1(問い合わせメール,問合わせメール)、例2(学園闘争,学園紛争)について、例1は異表記対とし、例2は、異表記対ではなく日本語同義語対とする。つまり、第一の考え方において、同一語の異形なら異表記対とし、同一語でなければ、例え意味が同等でも異表記対としない。闘争と紛争は、ほぼ同等の意味を有するが、同一の語でないので、例2は異表記対とはしない。一方、例1の「問い合わせ」「問合わせ」は、表記は異なるが同一の語の異形と判断できるので、異表記対とする。





また、異表記対の第二の考え方は、同義語も異表記とする考え方である。第二の考え方では、上記の例1だけではなく、例2(学園闘争,学園紛争)も異表記対となる。





さらに、異表記、異表記対の考え方は、上記の考え方と類似する考え方でも良く、異表記、異表記対は広く解するものとする。





また、従来技術として、機械学習法についての技術がある(例えば、非特許文献2~非特許文献4参照)

産業上の利用分野



本発明は、異表記の用語対を取り出す異表記取得装置等に関するものである。

特許請求の範囲 【請求項1】
編集距離が1以上の用語対を1以上格納し得る用語対格納部と、
用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、前記用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、前記用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納し得る学習データ格納部と、
前記用語対格納部の用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を取得する素性取得部と、
前記各用語対に対して、前記学習データ格納部の2以上の学習データと、前記素性取得部が取得した複数の素性とを用いて、教師あり機械学習法により、前記用語対格納部の各用語対が異表記の用語対であるか否かを判断する機械学習部と、
前記機械学習部における判断結果を出力する出力部とを具備する異表記取得装置であって、
用語と、当該用語の代表表記とを有する1以上の用語情報を格納し得る用語辞書をさらに具備し、
前記辞書関連素性は、
用語対が有する2つの用語の代表表記が同一であるか否かを示す情報であり、
前記素性取得部は、
前記用語対格納部の用語対ごとに、用語対が有する2つの用語の代表表記を、前記用語辞書から取得し、当該取得した2つの代表表記が同一であるか否かを判断し、当該判断結果を辞書関連素性として取得する異表記取得装置

【請求項2】
前記字種関連素性は、
用語対が有する2つの用語の編集箇所の字種が異なり、かつ、当該2つの用語の編集箇所が同じ値の数字であるか否かを示す情報であり、
前記素性取得部は、
前記用語対格納部の用語対ごとに、用語対が有する2つの用語の編集箇所の字種が異なり、かつ、当該2つの用語の編集箇所が同じ値の数字であるという条件に合致するか否かを判断し、当該判断結果を字種関連素性として取得する請求項1記載の異表記取得装置。

【請求項3】
前記字種関連素性は、
用語対が有する2つの用語の編集箇所の字種がローマ字であり、かつ、当該2つの用語の編集箇所が大文字と小文字の違いであるか否かを示す情報であり、
前記素性取得部は、
前記用語対格納部の用語対ごとに、用語対が有する2つの用語の編集箇所の字種がローマ字であり、かつ、当該2つの用語の編集箇所が大文字と小文字の違いであるという条件に合致するか否かを判断し、当該判断結果を字種関連素性として取得する請求項1記載の異表記取得装置。

【請求項4】
前記用語情報は、
前記用語に対応付けて、当該用語の読みをも有し、
前記辞書関連素性は、
用語対が有する2つの用語の代表表記が同一であるか否かを示す情報であり、
前記素性取得部は、
前記用語対格納部の用語対ごとに、用語対が有する2つの用語の代表表記を、前記用語辞書から取得し、当該取得した2つの代表表記が同一であるか否かを判断し、当該判断結果を辞書関連素性として取得する請求項1記載の異表記取得装置。

【請求項5】
前記機械学習部は、
前記用語対格納部の各用語対が異表記の用語対であるか否かを判断するとともに、異表記の用語対である確度を示すスコアも取得し、
前記出力部は、
前記機械学習部が取得したスコアを出力する請求項1から請求項4いずれか記載の異表記取得装置。

【請求項6】
前記出力部は、
スコアの閾値を格納している閾値格納手段と、
前記機械学習部が取得したスコアが前記閾値以上または前記閾値より大きいか否かを判断する閾値判断手段と、
前記閾値判断手段が前記閾値以上または前記閾値より大きいと判断したスコアに対応する用語対を、異表記の用語対であるとの判断結果とし、当該判断結果または異表記の用語対または異表記でない用語対のいずれか1以上を出力する出力手段とを具備する請求項5記載の異表記取得装置。

【請求項7】
用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語対が有する2つの用語の代表表記が同一であるか否かを示す情報である辞書関連素性、前記用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、前記用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納し得る学習データ格納部と、
異表記のパターンを示す第一文字列と第二文字列とを対に有する異表記パターンを1以上格納し得る異表記パターン格納部と、
1以上の用語を受け付ける受付部と、
前記受付部が受け付けた1以上の各用語に対して、前記異表記パターン格納部の1以上の各異表記パターンが有するいずれかの文字列を含むか否かを判断し、含むと判断した場合に、当該用語に含まれる当該文字列の部分を、当該異表記パターンの文字列であり、当該含まれる文字列の他方の文字列に置き換えて、1以上の用語を生成し、前記1以上の各用語と前記生成した用語とを有する1以上の異表記の候補の用語対である異表記候補用語対を生成する用語対生成部と、
前記用語対生成部が生成した1以上の異表記候補用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上の素性を含む複数の素性を取得する素性取得部と、
前記用語対生成部が生成した各異表記候補用語対に対して、前記学習データ格納部の2以上の学習データと、前記素性取得部が取得した複数の素性とを用いて、教師あり機械学習法により、前記用語対格納部の各異表記候補用語対が異表記の用語対であるか否かを判断する機械学習部と、
前記機械学習部における判断結果を出力する出力部とを具備する異表記取得装置であって、
編集距離が1の異表記の用語対を1以上格納し得る異表記用語対格納部と、
前記異表記用語対格納部に格納されている1以上の異表記の用語対の編集箇所を、異表記の用語対ごとに取得する編集箇所取得部と、
前記編集箇所取得部が取得した編集箇所から、異表記の用語対ごとに、当該用語対を構成する一の用語の文字列に含まれる編集箇所を第一文字列とし、当該用語対を構成する他の用語の文字列に含まれる編集箇所を第二文字列として取得し、当該第一文字列と当該第二文字列とを対に有する異表記パターンを取得する異表記パターン取得部と、
前記異表記パターン取得部が取得した異表記パターンを、前記異表記パターン格納部に蓄積する異表記パターン蓄積部とをさらに具備する異表記取得装置。

【請求項8】
前記用語対の編集距離は2であり、
前記素性取得部は、
前記用語対の2つの差分文字の組を、それぞれ取得する差分文字取得手段と、
前記差分文字取得手段が取得した2つの差分文字を、独立に対象として、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を、2組取得する素性取得手段とを具備し、
前記機械学習部は、
前記素性取得手段が取得した2組の複数の素性のうちの組ごとに、当該各組の複数の素性と、前記学習データ格納部の2以上の学習データとを用いて、教師あり機械学習法により、前記用語対格納部の各組の複数の素性が異表記の用語対に対応する素性の組であるか否かを判断し、当該2つの判断結果を用いて、編集距離が2である用語対が異表記の用語対であるか否かを判断する請求項1から請求項7いずれか記載の異表記取得装置。

【請求項9】
記憶媒体に、
編集距離が1以上の用語対、
用語と、当該用語の代表表記とを有する1以上の用語情報を格納し得る用語辞書、および、
用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、前記用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、前記用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納しており、
素性取得部、機械学習部、および出力部により実現される異表記取得方法であって、
前記素性取得部により、前記記憶媒体の用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を取得する素性取得ステップと、
前記機械学習部により、前記各用語対に対して、前記記憶媒体の2以上の学習データと、前記素性取得ステップで取得された複数の素性とを用いて、教師あり機械学習法により、前記記憶媒体の各用語対が異表記の用語対であるか否かを判断する機械学習ステップと、
前記出力部により、前記機械学習ステップにおける判断結果を出力する出力ステップとを具備する異表記取得方法であって、
前記辞書関連素性は、
用語対が有する2つの用語の代表表記が同一であるか否かを示す情報であり、
前記素性取得ステップにおいて、
前記記憶媒体の用語対ごとに、用語対が有する2つの用語の代表表記を、前記用語辞書から取得し、当該取得した2つの代表表記が同一であるか否かを判断し、当該判断結果を辞書関連素性として取得する異表記取得方法

【請求項10】
記憶媒体に、
編集距離が1以上の用語対、
用語と、当該用語の代表表記とを有する1以上の用語情報を格納し得る用語辞書、および、
用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、前記用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、前記用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納しており、
コンピュータを、
前記記憶媒体の用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を取得する素性取得部と、
前記各用語対に対して、前記記憶媒体の2以上の学習データと、前記素性取得部が取得した複数の素性とを用いて、教師あり機械学習法により、前記記憶媒体の各用語対が異表記の用語対であるか否かを判断する機械学習部と、
前記機械学習部における判断結果を出力する出力部として機能させるためのプログラムであって、
前記辞書関連素性は、
用語対が有する2つの用語の代表表記が同一であるか否かを示す情報であり、
前記素性取得部は、
前記用語対格納部の用語対ごとに、用語対が有する2つの用語の代表表記を、前記用語辞書から取得し、当該取得した2つの代表表記が同一であるか否かを判断し、当該判断結果を辞書関連素性として取得するものとして、コンピュータを機能させるためのプログラム
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009299287thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close