TOP > 国内特許検索 > 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム

教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム コモンズ

国内特許コード P140010746
整理番号 03-136
掲載日 2014年7月7日
出願番号 特願2004-103862
公開番号 特開2005-292958
登録番号 特許第3899414号
出願日 平成16年3月31日(2004.3.31)
公開日 平成17年10月20日(2005.10.20)
登録日 平成19年1月12日(2007.1.12)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム コモンズ
発明の概要 【課題】 言語解析処理で実行される機械学習の教師データを、コーパスの一部のみを用いて作成できるようにする。
【解決手段】 タグ付与手段14は、コーパス入力手段11が入力したコーパス2のテキストデータ上でユーザが指定した箇所の前後に分類タグを挿入し、分類タグの付与箇所が含まれた教師データとして使用する範囲の前後に範囲指定タグを挿入し、コーパス記憶手段15に記憶する。ユーザ範囲抽出手段16は、タグが付与されたコーパスから範囲指定タグで囲まれたデータを抽出する。教師データ変換手段17は、抽出したデータを所定の単位に切り出し、分類タグに囲まれた単位に分類タグに対応する分類先を付与して教師データとする。
【選択図】 図1
従来技術、競合技術の概要


機械学習法を用いた言語データの解析処理では、精度の良い機械学習を実現するために教師あり機械学習法が採用されることが多い。教師あり機械学習では、学習処理過程の教師データとして、テキストデータに解析処理の結果となるような言語情報、例えば品詞情報、文字種情報、照応関係情報、意味情報などが付与された加工済みコーパスが利用される。



そして、言語情報が付与された加工済みコーパスを、言語情報が付与されていないテキストデータだけで構成される生コーパスから生成する場合に、原則として、コーパスの全てのテキストデータに対して言語情報を付与しておくことが必要である。一部分のテキストデータにのみ言語情報が付与されているようなコーパスを教師データとして用いて機械学習を行った場合には、機械学習の学習精度が低下するからである。



例えば、機械学習により人名や地名などの固有表現を抽出する処理(固有表現抽出処理)をする場合に教師データとするコーパスを想定する。付与される言語情報は、その名詞がどのような固有表現の分類であるかを示す分類ラベル(人名、地名など)である。分類ラベルを付与するためのコーパスのテキストデータの一部に、以下のような部分があるとする。
「…日本の首相は小泉さんです。小泉さんはいつも思いきったことをしています。…」
ユーザは、コーパス中の文「日本の首相は小泉さんです。」だけをチェックし、文中の単語「日本」に分類ラベル「地名」を、単語「小泉」に分類ラベル「人名」を付与する作業をしたとする。作業後の文は、以下のような状態になる。
「…”日本(地名)”の首相は”小泉(人名)”さんです。小泉さんはいつも思いきったことをしています。…」
このような言語情報(分類ラベル)を部分的にのみ付与したコーパスを教師データとして機械学習し、その学習結果を用いて固有表現抽出処理を行うとする。学習処理段階では、コーパス内の個々の単語の所定の素性を抽出し、付与された分類ラベルをもとに、その単語が「どのような素性の場合にどのような分類先になりやすいか」を学習する。素性とは、所定の解析処理のために用いる情報(例えば、品詞情報、字種情報、係り受け関係のような統語情報など)の一単位であって、文字や形態素などの所定の単位が備える性質を意味する。



ここで、単語ごとの各分類先へのなりやすさを評価する場合に、単語「小泉」の分類先「人名」へのなりやすさは、最初の文「”日本(地名)”の首相は”小泉(人名)”さんです。」の単語「小泉」に付与された分類ラベル「人名」によって高いスコアとなる。しかし、2番目の文「小泉さんはいつも思いきったことをしています。」の単語「小泉」には分類ラベル「人名」が付与されていないため、2番目の文中の単語「小泉」によって、「小泉」の分類先「人名」へのなりやすさのスコアは低下する。この2番目の文中の単語「小泉」のように、単にユーザが言語情報の付与作業をしなかった単語が存在することにより、学習処理での評価精度が低下してしまうことは問題である。



したがって、コーパスの全体に所定の言語情報を付与する必要があるが、付与作業は、作業量が非常に膨大であり処理負担が大きい。そのため、通常、コーパスを利用した教師データは、言語解析処理装置の管理者や開発者によって準備されることが多い。ユーザの教師データ作成作業の負担を軽減するために、生コーパスから教師データを自動的に生成して機械学習で利用する技術がある(例えば、特許文献1参照)。



また、言語データ解析処理の一つとして、文章データからその内容を表わすために重要と考えられる文(重要文という)を抽出して自動的に要約を生成する要約処理装置がある。要約結果に対する評価はユーザ個人の指向や要約の用途によって相違することが知られている。そのため、個々のユーザの指向や用途に適応した要約処理が行えるようにする必要がある。そのため、文章データに対する要約に対するユーザの評価を機械学習法を用いて学習し、ユーザに適応した要約処理を行えるようにする技術がある(例えば、特許文献2参照)。
【特許文献1】
特開2003-122750
【特許文献2】
特開2003-248676

産業上の利用分野



本発明は、言語データの解析処理で実行される機械学習処理用の教師データをコーパスから作成する教師データ作成装置に関する。また、本発明は、前記教師データ作成装置によって作成された教師データを用いて機械学習法による言語データの解析処理を行う言語解析処理装置もしくは要約処理装置、および前記処理装置としてコンピュータを機能させるためのプログラムに関する。





コーパスとは、コンピュータが読み取り可能な大量のテキストデータなどの言語資源であって、例えば新聞記事、小説、論文などの文章の電子化データである。

特許請求の範囲 【請求項1】
機械学習法を用いた所定の言語解析処理において使用する教師データをコーパスから作成する教師データ作成装置であって、
テキストデータで構成されるコーパスを入力するコーパス入力手段と、
前記コーパスのテキストデータにおいて、ユーザによって選択された文字列の前後に、所定の言語解析の結果となる言語情報の個々の分類先を示すタグであってマークアップ言語の形式で記述された分類タグを挿入する分類タグ付与手段と、
前記分類タグが挿入されたテキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲の前後に、教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述された範囲指定タグを挿入する範囲指定タグ付与手段と、
前記分類タグおよび前記範囲指定タグが挿入されたテキストデータから、前記範囲指定タグに囲まれたデータをユーザ範囲データとして抽出するユーザ範囲抽出手段とを、備える
ことを特徴とする教師データ作成装置。

【請求項2】
ユーザによって入力された分類タグをタグ記憶手段に記憶するタグ登録手段を備え、
前記分類タグ付与手段は、前記タグ記憶手段に記憶された分類タグを前記コーパスのテキストデータに挿入する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項3】
前記範囲指定タグ付与手段は、前記分類タグが挿入されたテキストデータにおいて、ユーザによって指定された前記分類タグが挿入された箇所を含む範囲の前後に前記範囲指定タグを挿入する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項4】
前記範囲指定タグ付与手段は、前記分類タグが挿入されたテキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲を所定の範囲指定規則にもとづいて指定し、前記指定された範囲の前後に前記範囲指定タグを挿入する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項5】
ユーザによって定義されたユーザ範囲指定規則を規則記憶手段に記憶する規則登録手段を備え、
前記範囲指定タグ付与手段は、前記規則記憶手段に記憶されたユーザ範囲指定規則に従って前記範囲指定タグを挿入する
ことを特徴とする請求項4記載の教師データ作成装置。

【請求項6】
前記分類タグ付与手段は、前記テキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲の前後に、前記分類タグのうちユーザによって指定された特定の分類先だけに対する教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述されたユーザ指定分類タグ用範囲指定タグを付与し、
前記ユーザ範囲抽出手段は、前記ユーザ指定分類タグ用範囲指定タグが挿入されたテキストデータから、前記ユーザ指定分類タグ用範囲指定タグに囲まれたデータを、前記特定の分類先に対する教師データを生成するためのユーザ範囲データとして抽出する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項7】
さらに、前記ユーザ範囲データを所定の単位ごとに分割し、前記ユーザ範囲データから前記分類タグに囲まれた文字列を検出し、前記分割した単位のうち前記検出した文字列に対応する部分に前記分類タグに対応する分類先を前記単位ごとに付与し、各単位のデータを、解を前記分類先とする教師データに変換する教師データ変換手段を備える
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項8】
前記教師データ変換手段は、前記検出した文字列が複数の単位である場合に、前記分類先に前記文字列における単位の位置を示す情報を付加したものを、単位ごとに付与する
ことを特徴とする請求項7記載の教師データ作成装置。

【請求項9】
さらに、前記教師データから所定の種類の素性を抽出し、前記単位について、前記素性の集合と前記付与された分類先との組を生成する素性抽出手段を備える
ことを特徴とする請求項7記載の教師データ作成装置。

【請求項10】
前記素性抽出手段は、前記教師データに対して形態素解析を行い所定の種類の素性を抽出する
ことを特徴とする請求項9記載の教師データ作成装置。

【請求項11】
前記素性抽出手段は、前記教師データから所定の文字または文字列を切り出して素性とする
ことを特徴とする請求項9記載の教師データ作成装置。

【請求項12】
教師データを用いた機械学習法により所定の言語解析処理を行う言語解析処理装置であって、
テキストデータで構成されるコーパスであって、所定の言語解析の結果となる言語情報の個々の分類先を示すタグであってマークアップ言語の形式で記述された分類タグと、前記分類タグが挿入された箇所を含む所定の範囲の前後に、教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述された範囲指定タグとが付与されたものを入力し、前記コーパスから、前記範囲指定タグに囲まれたデータをユーザ範囲データとして抽出するユーザ範囲抽出手段と、
前記ユーザ範囲データを所定の単位ごとに切り出し、前記ユーザ範囲データから前記分類タグに囲まれた文字列を検出し、前記切り出した単位のうち前記検出した文字列に対応するものに前記分類タグに対応する分類先を付与し、前記切り出した単位のうち前記検出した文字列に対応しないものに分類先がないことを示す分類先を付与し、単位ごとのデータを教師データとする教師データ変換手段と、
前記教師データから所定の種類の素性を抽出し、前記単位について、前記素性の集合と前記付与された分類先との組を生成する素性抽出手段と、
前記素性の集合と前記分類先との組を利用して、前記単位について、前記素性の集合の場合にどのような分類先になりやすいかを学習し、前記学習の結果を記憶しておく機械学習手段と、
言語解析処理の対象とするテキストデータを入力するデータ入力手段と、
前記入力データから所定の解析処理または切り出し処理により素性を抽出する所定の種類の素性を抽出する素性抽出手段と、
前記学習結果を利用して、前記入力データの所定の単位のデータについて、前記素性の場合になりやすい分類先を推定する解推定手段と、
前記推定された分類先に対応する分類タグを、前記入力データの前記推定の対象となった単位に対応する文字列の前後に挿入するタグ付与手段とを、備える
ことを特徴とする言語解析処理装置。

【請求項13】
さらに、分類タグが挿入された前記入力データから、前記分類タグに囲まれた文字列を、前記分類タグに囲まれていない文字列と異なる表示態様で表示する解析結果表示処理手段を備える
ことを特徴とする請求項12記載の言語解析処理装置。

【請求項14】
請求項1記載の教師データ生成装置として、コンピュータを機能させるための教師データ生成プログラム。

【請求項15】
請求項12記載の言語解析処理装置として、コンピュータを機能させるための言語解析処理プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2004103862thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close