Top > Search of Japanese Patents > TEACHER DATA PREPARATION DEVICE AND PROGRAM, LANGUAGE ANALYSIS PROCESSOR AND PROGRAM AND SUMMARY PROCESSOR AND PROGRAM

TEACHER DATA PREPARATION DEVICE AND PROGRAM, LANGUAGE ANALYSIS PROCESSOR AND PROGRAM AND SUMMARY PROCESSOR AND PROGRAM commons

Patent code P140010746
File No. 03-136
Posted date Jul 7, 2014
Application number P2004-103862
Publication number P2005-292958A
Patent number P3899414
Date of filing Mar 31, 2004
Date of publication of application Oct 20, 2005
Date of registration Jan 12, 2007
Inventor
  • (In Japanese)村田 真樹
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title TEACHER DATA PREPARATION DEVICE AND PROGRAM, LANGUAGE ANALYSIS PROCESSOR AND PROGRAM AND SUMMARY PROCESSOR AND PROGRAM commons
Abstract PROBLEM TO BE SOLVED: To prepare the teacher data of machine learning to be executed by language analysis processing by using only a portion of a corpus.
SOLUTION: A tag applying means 14 inserts classification tags before and after parts designated by a user on the text data of a corpus 2 inputted by a corpus inputting means 11, and inserts range designation tags before and after a range to be used as teacher data including the application parts of the classification tags, and stores them in a corpus storage means 15. A user range extracting means 16 extracts data surrounded by the range designation tags from the corpus applied with the tags. A teacher data converting means 17 segments the extracted data by predetermined units, and applies classification designations corresponding to the classification tags to the units surrounded by the classification tags in order to prepare teacher data.
Outline of related art and contending technology (In Japanese)

機械学習法を用いた言語データの解析処理では、精度の良い機械学習を実現するために教師あり機械学習法が採用されることが多い。教師あり機械学習では、学習処理過程の教師データとして、テキストデータに解析処理の結果となるような言語情報、例えば品詞情報、文字種情報、照応関係情報、意味情報などが付与された加工済みコーパスが利用される。

そして、言語情報が付与された加工済みコーパスを、言語情報が付与されていないテキストデータだけで構成される生コーパスから生成する場合に、原則として、コーパスの全てのテキストデータに対して言語情報を付与しておくことが必要である。一部分のテキストデータにのみ言語情報が付与されているようなコーパスを教師データとして用いて機械学習を行った場合には、機械学習の学習精度が低下するからである。

例えば、機械学習により人名や地名などの固有表現を抽出する処理(固有表現抽出処理)をする場合に教師データとするコーパスを想定する。付与される言語情報は、その名詞がどのような固有表現の分類であるかを示す分類ラベル(人名、地名など)である。分類ラベルを付与するためのコーパスのテキストデータの一部に、以下のような部分があるとする。
「…日本の首相は小泉さんです。小泉さんはいつも思いきったことをしています。…」
ユーザは、コーパス中の文「日本の首相は小泉さんです。」だけをチェックし、文中の単語「日本」に分類ラベル「地名」を、単語「小泉」に分類ラベル「人名」を付与する作業をしたとする。作業後の文は、以下のような状態になる。
「…”日本(地名)”の首相は”小泉(人名)”さんです。小泉さんはいつも思いきったことをしています。…」
このような言語情報(分類ラベル)を部分的にのみ付与したコーパスを教師データとして機械学習し、その学習結果を用いて固有表現抽出処理を行うとする。学習処理段階では、コーパス内の個々の単語の所定の素性を抽出し、付与された分類ラベルをもとに、その単語が「どのような素性の場合にどのような分類先になりやすいか」を学習する。素性とは、所定の解析処理のために用いる情報(例えば、品詞情報、字種情報、係り受け関係のような統語情報など)の一単位であって、文字や形態素などの所定の単位が備える性質を意味する。

ここで、単語ごとの各分類先へのなりやすさを評価する場合に、単語「小泉」の分類先「人名」へのなりやすさは、最初の文「”日本(地名)”の首相は”小泉(人名)”さんです。」の単語「小泉」に付与された分類ラベル「人名」によって高いスコアとなる。しかし、2番目の文「小泉さんはいつも思いきったことをしています。」の単語「小泉」には分類ラベル「人名」が付与されていないため、2番目の文中の単語「小泉」によって、「小泉」の分類先「人名」へのなりやすさのスコアは低下する。この2番目の文中の単語「小泉」のように、単にユーザが言語情報の付与作業をしなかった単語が存在することにより、学習処理での評価精度が低下してしまうことは問題である。

したがって、コーパスの全体に所定の言語情報を付与する必要があるが、付与作業は、作業量が非常に膨大であり処理負担が大きい。そのため、通常、コーパスを利用した教師データは、言語解析処理装置の管理者や開発者によって準備されることが多い。ユーザの教師データ作成作業の負担を軽減するために、生コーパスから教師データを自動的に生成して機械学習で利用する技術がある(例えば、特許文献1参照)。

また、言語データ解析処理の一つとして、文章データからその内容を表わすために重要と考えられる文(重要文という)を抽出して自動的に要約を生成する要約処理装置がある。要約結果に対する評価はユーザ個人の指向や要約の用途によって相違することが知られている。そのため、個々のユーザの指向や用途に適応した要約処理が行えるようにする必要がある。そのため、文章データに対する要約に対するユーザの評価を機械学習法を用いて学習し、ユーザに適応した要約処理を行えるようにする技術がある(例えば、特許文献2参照)。
【特許文献1】
特開2003-122750
【特許文献2】
特開2003-248676

Field of industrial application (In Japanese)

本発明は、言語データの解析処理で実行される機械学習処理用の教師データをコーパスから作成する教師データ作成装置に関する。また、本発明は、前記教師データ作成装置によって作成された教師データを用いて機械学習法による言語データの解析処理を行う言語解析処理装置もしくは要約処理装置、および前記処理装置としてコンピュータを機能させるためのプログラムに関する。

コーパスとは、コンピュータが読み取り可能な大量のテキストデータなどの言語資源であって、例えば新聞記事、小説、論文などの文章の電子化データである。

Scope of claims (In Japanese)
【請求項1】
 
機械学習法を用いた所定の言語解析処理において使用する教師データをコーパスから作成する教師データ作成装置であって、
テキストデータで構成されるコーパスを入力するコーパス入力手段と、
前記コーパスのテキストデータにおいて、ユーザによって選択された文字列の前後に、所定の言語解析の結果となる言語情報の個々の分類先を示すタグであってマークアップ言語の形式で記述された分類タグを挿入する分類タグ付与手段と、
前記分類タグが挿入されたテキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲の前後に、教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述された範囲指定タグを挿入する範囲指定タグ付与手段と、
前記分類タグおよび前記範囲指定タグが挿入されたテキストデータから、前記範囲指定タグに囲まれたデータをユーザ範囲データとして抽出するユーザ範囲抽出手段とを、備える
ことを特徴とする教師データ作成装置。

【請求項2】
 
ユーザによって入力された分類タグをタグ記憶手段に記憶するタグ登録手段を備え、
前記分類タグ付与手段は、前記タグ記憶手段に記憶された分類タグを前記コーパスのテキストデータに挿入する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項3】
 
前記範囲指定タグ付与手段は、前記分類タグが挿入されたテキストデータにおいて、ユーザによって指定された前記分類タグが挿入された箇所を含む範囲の前後に前記範囲指定タグを挿入する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項4】
 
前記範囲指定タグ付与手段は、前記分類タグが挿入されたテキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲を所定の範囲指定規則にもとづいて指定し、前記指定された範囲の前後に前記範囲指定タグを挿入する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項5】
 
ユーザによって定義されたユーザ範囲指定規則を規則記憶手段に記憶する規則登録手段を備え、
前記範囲指定タグ付与手段は、前記規則記憶手段に記憶されたユーザ範囲指定規則に従って前記範囲指定タグを挿入する
ことを特徴とする請求項4記載の教師データ作成装置。

【請求項6】
 
前記分類タグ付与手段は、前記テキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲の前後に、前記分類タグのうちユーザによって指定された特定の分類先だけに対する教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述されたユーザ指定分類タグ用範囲指定タグを付与し、
前記ユーザ範囲抽出手段は、前記ユーザ指定分類タグ用範囲指定タグが挿入されたテキストデータから、前記ユーザ指定分類タグ用範囲指定タグに囲まれたデータを、前記特定の分類先に対する教師データを生成するためのユーザ範囲データとして抽出する
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項7】
 
さらに、前記ユーザ範囲データを所定の単位ごとに分割し、前記ユーザ範囲データから前記分類タグに囲まれた文字列を検出し、前記分割した単位のうち前記検出した文字列に対応する部分に前記分類タグに対応する分類先を前記単位ごとに付与し、各単位のデータを、解を前記分類先とする教師データに変換する教師データ変換手段を備える
ことを特徴とする請求項1記載の教師データ作成装置。

【請求項8】
 
前記教師データ変換手段は、前記検出した文字列が複数の単位である場合に、前記分類先に前記文字列における単位の位置を示す情報を付加したものを、単位ごとに付与する
ことを特徴とする請求項7記載の教師データ作成装置。

【請求項9】
 
さらに、前記教師データから所定の種類の素性を抽出し、前記単位について、前記素性の集合と前記付与された分類先との組を生成する素性抽出手段を備える
ことを特徴とする請求項7記載の教師データ作成装置。

【請求項10】
 
前記素性抽出手段は、前記教師データに対して形態素解析を行い所定の種類の素性を抽出する
ことを特徴とする請求項9記載の教師データ作成装置。

【請求項11】
 
前記素性抽出手段は、前記教師データから所定の文字または文字列を切り出して素性とする
ことを特徴とする請求項9記載の教師データ作成装置。

【請求項12】
 
教師データを用いた機械学習法により所定の言語解析処理を行う言語解析処理装置であって、
テキストデータで構成されるコーパスであって、所定の言語解析の結果となる言語情報の個々の分類先を示すタグであってマークアップ言語の形式で記述された分類タグと、前記分類タグが挿入された箇所を含む所定の範囲の前後に、教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述された範囲指定タグとが付与されたものを入力し、前記コーパスから、前記範囲指定タグに囲まれたデータをユーザ範囲データとして抽出するユーザ範囲抽出手段と、
前記ユーザ範囲データを所定の単位ごとに切り出し、前記ユーザ範囲データから前記分類タグに囲まれた文字列を検出し、前記切り出した単位のうち前記検出した文字列に対応するものに前記分類タグに対応する分類先を付与し、前記切り出した単位のうち前記検出した文字列に対応しないものに分類先がないことを示す分類先を付与し、単位ごとのデータを教師データとする教師データ変換手段と、
前記教師データから所定の種類の素性を抽出し、前記単位について、前記素性の集合と前記付与された分類先との組を生成する素性抽出手段と、
前記素性の集合と前記分類先との組を利用して、前記単位について、前記素性の集合の場合にどのような分類先になりやすいかを学習し、前記学習の結果を記憶しておく機械学習手段と、
言語解析処理の対象とするテキストデータを入力するデータ入力手段と、
前記入力データから所定の解析処理または切り出し処理により素性を抽出する所定の種類の素性を抽出する素性抽出手段と、
前記学習結果を利用して、前記入力データの所定の単位のデータについて、前記素性の場合になりやすい分類先を推定する解推定手段と、
前記推定された分類先に対応する分類タグを、前記入力データの前記推定の対象となった単位に対応する文字列の前後に挿入するタグ付与手段とを、備える
ことを特徴とする言語解析処理装置。

【請求項13】
 
さらに、分類タグが挿入された前記入力データから、前記分類タグに囲まれた文字列を、前記分類タグに囲まれていない文字列と異なる表示態様で表示する解析結果表示処理手段を備える
ことを特徴とする請求項12記載の言語解析処理装置。

【請求項14】
 
請求項1記載の教師データ生成装置として、コンピュータを機能させるための教師データ生成プログラム。

【請求項15】
 
請求項12記載の言語解析処理装置として、コンピュータを機能させるための言語解析処理プログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2004103862thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close