TOP > 国内特許検索 > 解データ編集処理装置および処理方法 > 明細書

明細書 :解データ編集処理装置および処理方法

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4106470号 (P4106470)
公開番号 特開2006-318509 (P2006-318509A)
登録日 平成20年4月11日(2008.4.11)
発行日 平成20年6月25日(2008.6.25)
公開日 平成18年11月24日(2006.11.24)
発明の名称または考案の名称 解データ編集処理装置および処理方法
国際特許分類 G06F  17/21        (2006.01)
G06F  17/30        (2006.01)
FI G06F 17/21 550A
G06F 17/30 220A
G06F 17/30 170A
請求項の数または発明の数 6
全頁数 27
出願番号 特願2006-222723 (P2006-222723)
分割の表示 特願2004-168944 (P2004-168944)の分割、【原出願日】平成14年2月22日(2002.2.22)
出願日 平成18年8月17日(2006.8.17)
審査請求日 平成18年8月25日(2006.8.25)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
発明者または考案者 【氏名】村田 真樹
個別代理人の代理人 【識別番号】100119161、【弁理士】、【氏名又は名称】重久 啓子
【識別番号】100111822、【弁理士】、【氏名又は名称】渡部 章彦
審査官 【審査官】成瀬 博之
参考文献・文献 特開2003-223456(JP,A)
特開平02-056054(JP,A)
特開平02-297134(JP,A)
特開平10-207891(JP,A)
特開平07-244663(JP,A)
特開2001-344260(JP,A)
調査した分野 G06F 17/20-17/30
特許請求の範囲 【請求項1】
文書データであるテキストを機械学習法により自動要約する処理で用いる解データを編集する解データ編集処理装置であって,
文書データであるテキストを記憶するテキスト記憶手段と,
前記テキスト記憶手段から取得したテキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約として表示する要約表示手段と,
要約の評価として使用される要約の特徴を示す情報であって,要約として短い文を重視しているかどうかを示す短文重視の性質,数量についての表現が要約に含まれていることを重視しているかどうかを示す数量表現重視の性質,要約に手法についての表現が含まれていることを重視しているかどうかを示す手法重視の性質,要約の文体を重視しているかどうかを示す文体重視の性質,または要約が読みやすいかどうかを重視していることを示す読みやすさ重視の性質のいずれか2つ以上の性質を含む複数の性質について,当該性質各々に対する評価値を入力する項目を表示し,前記ユーザ指定要約に対する前記性質各々のユーザの評価値の入力を受け付ける評価付与手段と,
問題および解で構成される解データを記憶する解データ記憶手段と,
前記テキストおよび前記ユーザ指定要約を問題とし,当該問題に前記ユーザが入力した評価値を解として付与して解データを生成し,前記テキストから文を取り出しあらゆる文の選択の状態を要約候補とする重要文選択処理,前記テキストから文節を取り出しあらゆる文節の選択の状態を要約候補とする重要箇所選択処理,または前記テキストの文を予め定めた変形規則に従って変形し当該変形した状態を要約候補とする変形処理のいずれか1つの処理を行って前記テキストの要約候補を生成し,前記テキストおよび前記要約候補であって前記ユーザ指定要約以外の部分からなる要約候補を問題とし,当該問題に当該要約候補が前記ユーザ指定要約ではないことを示す悪評価を解として付与して解データを生成し,前記ユーザによって入力された評価値を解とする解データおよび前記悪評価を解とする解データを前記解データ記憶手段に出力する評価カスタマイズ手段とを備える
ことを特徴とする解データ編集処理装置。
【請求項2】
請求項1に記載の解データ編集処理装置において,
前記評価カスタマイズ手段は,前記ユーザによって指定された前記テキストの部分の語句の変更の入力を受け付け,当該変更された部分を前記ユーザ指定要約とする要約編集手段を備える
ことを特徴とする解データ編集処理装置。
【請求項3】
請求項1に記載の解データ編集処理装置において,
前記評価カスタマイズ手段は,前記要約生成処理によって生成された要約候補であって前記ユーザ指定要約以外の部分からなる要約候補に対する前記性質各々の評価値を入力する項目を表示し,前記項目各々のユーザの評価値の入力を受け付け,前記テキストおよび前記表示された要約候補である問題に当該入力された評価値の組合せを解として付与して前記解データを生成する
ことを特徴とする解データ編集処理装置。
【請求項4】
テキスト記憶手段,要約表示手段,評価付与手段,評価カスタマイズ手段,および解データ記憶手段を備えるコンピュータが,文書データであるテキストを機械学習法により自動要約する処理で用いる解データを編集する解データ編集処理方法であって,
前記要約表示手段が,文書データであるテキストを記憶する前記テキスト記憶手段にアクセスしてテキストを取得し,前記テキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約として表示する処理過程と,
前記評価付与手段が,要約の評価として使用される要約の特徴を示す情報であって,要約として短い文を重視しているかどうかを示す短文重視の性質,数量についての表現が要約に含まれていることを重視しているかどうかを示す数量表現重視の性質,要約に手法についての表現が含まれていることを重視しているかどうかを示す手法重視の性質,要約の文体を重視しているかどうかを示す文体重視の性質,または要約が読みやすいかどうかを重視していることを示す読みやすさ重視の性質のいずれか2つ以上の性質を含む複数の性質について,当該性質各々に対する評価値を入力する項目を表示し,前記ユーザ指定要約に対する前記性質各々のユーザの評価値の入力を受け付ける処理過程と,
前記評価カスタマイズ手段が,前記テキストおよび前記ユーザ指定要約を問題とし,当該問題に前記ユーザが入力した評価値を解として付与して解データを生成し,前記テキストから文を取り出しあらゆる文の選択の状態を要約候補とする重要文選択処理,前記テキストから文節を取り出しあらゆる文節の選択の状態を要約候補とする重要箇所選択処理,または前記テキストの文を予め定めた変形規則に従って変形し当該変形した状態を要約候補とする変形処理のいずれか1つの処理を行って前記テキストの要約候補を生成し,前記テキストおよび前記要約候補であって前記ユーザ指定要約以外の部分からなる要約候補を問題とし,当該問題に当該要約候補が前記ユーザ指定要約ではないことを示す悪評価を解として付与して解データを生成し,前記ユーザによって入力された評価値を解とする解データおよび前記悪評価を解とする解データを前記解データ記憶手段に出力する処理過程とを備える
ことを特徴とする解データ編集処理方法。
【請求項5】
請求項4に記載の解データ編集処理方法において,
前記コンピュータは,要約編集手段を備え,
前記評価カスタマイズ手段が実行する処理過程では,前記要約編集手段が,前記ユーザによって指定された前記テキストの部分の語句の変更の入力を受け付け,当該変更された部分を前記ユーザ指定要約とする処理を行う
ことを特徴とする解データ編集処理方法。
【請求項6】
請求項4に記載の解データ編集処理方法において,
前記評価カスタマイズ手段が実行する処理過程では,前記要約生成処理によって生成された要約候補であって前記ユーザ指定要約以外の部分からなる要約候補に対する前記性質各々の評価値を入力する項目を表示し,前記項目各々のユーザの評価値の入力を受け付け,前記テキストおよび前記表示された要約候補である問題に当該入力された評価値の組合せを解として付与して前記解データを生成する処理を行う
ことを特徴とする解データ編集処理方法。
発明の詳細な説明 【技術分野】
【0001】
本発明は,機械学習法により文章を自動要約する処理において,編集可能な解データの編集処理および解データを用いる機械学習法を用いた自動要約処理に関する。
【背景技術】
【0002】
近年,情報技術の発展に伴ってコンピュータを用いた文章の自動要約処理が盛んになってきている。しかし,個人的な嗜好や要約結果の用途などにより,所望する要約結果の傾向に相違があると考えられる。
【0003】
例えば,以下の非特許文献1では,複数の者がそれぞれ重要文抽出による要約を行なった結果に対する相互評価の尺度として再現率と適合率とを求めて表4に示している。非特許文献1の表4から明らかなように,20文を抽出する処理の場合に,人-人(評価者相互)の評価(再現率および適合率)は,各評価者A,B,Cの一致度は50~70%であってあまり高い値とはいえず,要約結果に対する評価に個人差が存在することが推定できる。
【0004】
また,以下の非特許文献2では,サポート・ベクトル・マシン(Support Vector Machine)による重要文抽出処理において,処理セットA,B,Cについて交差検定の精度が最もよいことを表4により示している。非特許文献2の表4に示された交差検定は,同一評価者による処理と同一視でき,セットA,B,Cを作成した者が同一かどうかは不明であるが,少なくとも同一時期もしくは同一人物により学習データを作成したほうが精度が良いということがわかる。

【非特許文献1】伊藤山彦他,「講演文を対象にした重要文抽出」,言語処理学会第7回年次大会発表論文集,言語処理学会,2001年,pp.305-308
【非特許文献2】平尾勉他,「Support Vector Machineによる重要文抽出」,情報学会基礎論文63-16 ,情報学会,2001年,pp.121-127
【発明の開示】
【発明が解決しようとする課題】
【0005】
このように,要約結果に対する評価に個人差や用途差が存在すると考えることができることから,機械学習法を用いた自動要約処理においても,同じ評価にもとづいた要約を行なうのではなく,ユーザに特化した要約ができる必要がある。そのために,教師となる解データをユーザが自由に編集できる必要がある。
【0006】
本発明の目的は,機械学習法で用いる解データとなる要約結果または要約結果に対する評価をユーザが任意に編集できる解データの編集処理を実現することである。および,この解データを用いた機械学習法を用いてユーザごとに特化した要約を行える自動要約処理技術を実現することである。
【課題を解決するための手段】
【0007】
上記の目的を達成するため,本発明は,予め備えた解データを用いた機械学習処理に対してユーザがどのような要約結果を高く評価したかの情報をフィードバックするために,ユーザが要約結果やその評価を編集できるようにする。また,ユーザが編集した解データのフィードバックにより,機械学習処理においてユーザごとの特性を学習し,ユーザに特化した要約を行なうことができるようにするものである。
【0008】
本発明は,文書データであるテキストを機械学習法により自動要約する処理で用いる解データを編集する解データ編集処理装置であって,1)文書データであるテキストを記憶するテキスト記憶手段と,2)前記テキスト記憶手段から取得したテキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約として表示する要約表示手段と,3)要約の評価として使用される要約の特徴を示す情報であって,要約として短い文を重視しているかどうかを示す短文重視の性質,数量についての表現が要約に含まれていることを重視しているかどうかを示す数量表現重視の性質,要約に手法についての表現が含まれていることを重視しているかどうかを示す手法重視の性質,要約の文体を重視しているかどうかを示す文体重視の性質,または要約が読みやすいかどうかを重視していることを示す読みやすさ重視の性質のいずれか2つ以上の性質を含む複数の性質について,当該性質各々に対する評価値を入力する項目を表示し,前記ユーザ指定要約に対する前記性質各々のユーザの評価値の入力を受け付ける評価付与手段と,4)問題および解で構成される解データを記憶する解データ記憶手段と,5)前記テキストおよび前記ユーザ指定要約を問題とし,当該問題に前記ユーザが入力した評価値を解として付与して解データを生成し,前記テキストから文を取り出しあらゆる文の選択の状態を要約候補とする重要文選択処理,前記テキストから文節を取り出しあらゆる文節の選択の状態を要約候補とする重要箇所選択処理,または前記テキストの文を予め定めた変形規則に従って変形し当該変形した状態を要約候補とする変形処理のいずれか1つの処理を行って前記テキストの要約候補を生成し,前記テキストおよび前記要約候補であって前記ユーザ指定要約以外の部分からなる要約候補を問題とし,当該問題に当該要約候補が前記ユーザ指定要約ではないことを示す悪評価を解として付与して解データを生成し,前記ユーザによって入力された評価値を解とする解データおよび前記悪評価を解とする解データを前記解データ記憶手段に出力する評価カスタマイズ手段とを備えることを特徴とする。
【0009】
また,本発明は,文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって,1)テキストおよび前記テキストの要約を記憶するテキスト記憶手段と,2)前記要約を表示装置に表示する要約表示処理手段と,3)前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と,4)前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶する解データ出力処理手段と,5)前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,6)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,7)前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対を生成する要約候補-推定解対生成処理手段と,8)前記要約候補-推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。
【0010】
本発明は,テキスト記憶手段に記憶されたテキストの要約を表示装置に表示し,前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする。そして,前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶し,前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する。
【0011】
その後,要約対象のテキストを入力し,前記入力テキストから要約候補を生成し,前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対(要約候補-推定解対)を生成する。そして,前記要約候補-推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする。
【0012】
これにより,表示した要約に対するユーザの評価を用いてユーザが良いと考える要約を機械学習し,その後に入力したテキストについてユーザに特化した要約を行うことができる。
【0013】
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と,5)前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,6)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,7)前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対を生成する要約候補-推定解対生成処理手段と,8)前記要約候補-推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。
【0014】
本発明は,テキスト記憶手段に記憶されたテキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする。そして,所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する。さらに,前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する。その後,要約対象のテキストを入力し,前記入力テキストから要約候補を生成し,前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対(要約候補-推定解対)を生成する。そして,前記要約候補-推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする。
【0015】
これにより,表示したテキストからユーザによって抽出された部分をユーザが良いと評価した要約として機械学習し,その後に入力したテキストについてユーザに特化した要約を行うことができる。
【0016】
または,本発明は,1)テキストおよび前記テキストの要約を記憶するテキスト記憶手段と,2)前記要約を表示装置に表示する要約表示処理手段と,3)前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と,4)前記テキストおよび前記要約で構成される問題に対し前記ユーザが設定した評価を解として付与した解データを生成し,解データ記憶手段に記憶する解データ出力処理手段と,5)所定の評価のうち前記解となった評価以外の評価を解候補として,前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し,前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性-解対・素性-解候補対抽出処理手段と,6)前記抽出した組を教師信号として,どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,7)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,8)前記所定の評価を解の候補として,前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し,当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し,前記推定した結果を推定解として前記要約候補と解の候補の組と前記推定解との対を生成する要約候補-推定解対生成処理手段と,9)前記要約候補と解の候補の組-推定解対から,解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。
【0017】
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と,5)所定の評価のうち前記解となった評価以外の評価を解候補として,前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し,前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性-解対・素性-解候補対抽出処理手段と,6)前記抽出した組を教師信号として,どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,7)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,8)前記所定の評価を解の候補として,前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し,当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し,前記推定した結果を推定解として前記要約候補と解の候補との組と前記推定解との対を生成する要約候補-推定解対生成処理手段と,9)前記要約候補と解の候補との組-推定解対から,解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。
【0018】
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と,5)前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,6)要約対象のテキストを入力し,前記入力テキストから素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定する解推定処理手段と,7)前記解推定処理手段で推定された解を前記入力テキストの要約として出力する要約選択処理手段とを備える。
【0019】
これにより,表示した要約に対するユーザの評価を用いて要約処理を機械学習し,入力したテキストについてユーザに特化した要約を行うことができる。
【0020】
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と,5)所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記要約のうち前記ユーザ指定要約以外の部分からなるものを解候補とし,前記解データから解もしくは解候補と前記問題の素性の集合との組を抽出し,前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性-解対・素性-解候補対抽出処理手段と,6)前記抽出した組を教師信号として,どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,7)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,8)前記要約候補を解の候補として,前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し,当該素性の集合と解の候補との組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し,前記推定した結果を推定解として,前記要約候補と推定解との対を生成する要約候補-推定解対生成処理手段と,9)前記要約候補-推定解対から前記推定解の正例の確率が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。
【0021】
これにより,表示したテキストから抽出された部分をユーザが良いと評価した要約として要約処理を機械学習し,入力したテキストについてユーザに特化した要約を行うことができる。
【0022】
本発明にかかる処理装置の各手段または機能または要素は,コンピュータが実行可能なプログラムによっても実現できる。このプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
【発明の効果】
【0023】
本発明によれば,ユーザは,機械学習の解データとされる要約結果に対する評価を任意に設定することができるため,コンピュータを用いた自動要約処理においても,一つの類型で要約するのではなく,ユーザに特化した要約を行なえることが可能となる。
【0024】
機械学習法を用いた自動要約処理においても,同じ評価にもとづいた要約を行なうのではなく,ユーザに特化した要約を可能にするために,教師となる解データをユーザが自由に編集できる。
【0025】
また,同一人物であっても要約の評価が変化することが考えられるが,本発明によれば,同一人物であっても随時要約結果に対する評価を設定でき,新たな解データを用いて機械学習し直すことにより,新しい評価態度に合わせた要約を行なうことが可能となる。
【発明を実施するための最良の形態】
【0026】
〔第1の実施の形態〕
図1に,第1の実施の形態における本発明の処理装置の構成例を示す。
【0027】
自動要約処理装置10は,評価カスタマイズ手段110と,解データ記憶部120と,解-素性対抽出部121と,機械学習部122と,学習結果データ記憶部123と,要約候補生成部124と,素性抽出部125と,要約候補-推定解対生成部126と,要約選択部128とを備える。
【0028】
評価カスタマイズ手段110は,解データ編集処理を実現する処理手段である。また,解データ記憶部120と,解-素性対抽出部121と,機械学習部122と,学習結果データ記憶部123とは,特許請求の範囲に示す自動要約処理装置の機械学習処理手段を実現する処理手段である。
【0029】
評価カスタマイズ手段110は,要約結果やその評価をユーザごとにカスタマイズする手段であって,要約表示部111と,評価付与部112とを備える。
【0030】
要約表示部111は,予め用意されたテキスト・要約4の要約結果を表示装置(図1に図示しない)に表示する手段である。
【0031】
テキスト・要約4は,テキストとその要約結果からなる。テキストは,一または複数の記事などからなる文書データである。要約結果は,テキストを要約した文書データである。要約結果としては,人手で生成したもの,自動要約処理装置10が入力したテキスト2に対して出力した要約3もしくは要約候補生成部124が生成し解データ記憶部120に記憶した要約候補であってもよい。
【0032】
評価付与部112は,要約表示部111が表示した要約結果に対してユーザが入力した評価を付与し,または,要約結果に予め与えられている評価をユーザが入力した評価に変更する手段である。
【0033】
解データ記憶部120は,機械学習部122が機械学習法を実行する際に教師とする解データを記憶する手段である。解データ記憶部120には,解データとして,テキストおよびその要約結果とからなる問題と要約結果に対する評価である解との組である事例が記憶される。
【0034】
解-素性対抽出部121は,解データ記憶部120に記憶されている事例ごとに解と素性の集合との組を抽出する手段である。
【0035】
素性とは,解析に用いる情報の細かい1単位を意味し,ここでは,1)文のなめらかさを示す情報,2)内容をよく表しているかどうかを示す情報,および,3)自動要約処理で用いられる特徴的な情報などである。
【0036】
機械学習部122は,解-素性対抽出部121により抽出された解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し,学習結果を学習結果データ記憶部123に保存する手段である。機械学習部122は,解データを用いた機械学習法であればどのような手法で処理を行ってもよい。手法としては,例えば,決定木法,サポートベクトル法,パラメータチューニング法,シンプルベイズ法,最大エントロピー法,決定リスト法などがある。
【0037】
学習結果データ記憶部123は,機械学習部122の学習結果データを記憶する手段である。
【0038】
要約候補生成部124は,入力されたテキスト2から,所定の方法にもとづいて要約候補を生成する手段である。要約候補生成部124は,重要文選択モデル,重要箇所選択モデル,変形規則を利用したモデル,ランダムジェネレーションを利用したモデルなどの種々のモデルを用いて要約候補を生成する。
【0039】
素性抽出部125は,テキスト2および要約候補生成部124で生成された要約候補について素性の集合を抽出して要約候補-推定解対生成部126へ渡す手段である。
【0040】
要約候補-推定解対生成部126は,学習結果データ記憶部123の学習結果データを参照して,素性抽出部125から渡された素性の集合の場合に,どのような解になりやすいかを推定して,要約候補と推定解との対(要約候補-推定解対)127を生成する手段である。要約候補-推定解対生成部126は,さらに,各要約候補-推定解対127に,その推定解である確信度(確率)を求めて付与しておく。
【0041】
要約選択部128は,要約候補-推定解対127を受け取り,確信度の値が最も高い要約候補-推定解対127を選択し,その要約候補を要約3とする手段である。
【0042】
第1の実施の形態における評価カスタマイズ処理を説明するため,3人のユーザA,B,Cが要約結果をカスタマイズする場合を考える。
【0043】
ユーザAは要約結果に精度に関する記載が含まれていることを重視して評価すると仮定する。ユーザBは要約結果に手法に関する記載が含まれていることを重視し,ユーザCは,要約結果に手法と精度の両方に関する記載が含まれていることを重視して評価すると仮定する。また,要約結果の評価を3段階に分けて,評価1=よい,評価2=どちらでもない,評価3=悪い,のいずれかの分類先(評価)を与えるとする。
【0044】
図2に,第1の実施の形態における評価カスタマイズ処理の流れを示す。
【0045】
まず,テキスト・要約4が用意されているとする。図3にテキスト・要約4のテキストの例を示し,図4に要約結果の例を示す。図4(A)~(C)のそれぞれに,3つの要約結果r1,r2,r3を示す。
【0046】
要約表示部111は,テキスト・要約4から取り出した要約結果を表示画面に表示する(ステップS1)。そして,評価付与部112は,ユーザが入力した評価を受け付け,その入力された評価を表示された要約結果の解(評価)とする(ステップS2)。
【0047】
ここで,ユーザAが自動要約処理装置10を使用する場合を想定する。ユーザAは,図4(A)の要約結果r1に対して,精度に関係することが要約結果として抽出されているため,評価1をつける。すると,評価付与部112は,ユーザの入力(評価1)を受け付けて,事例c1の解として評価1を設定する。
【0048】
次に,要約表示部111が図4(B)に示す事例c2の要約結果r2を表示した場合には,要約結果r2は精度に関係することが抽出されていないため,ユーザAは,要約結果r2に対して評価3をつけ,評価付与部112は,事例c2の解として評価3を設定する。
【0049】
さらに,要約表示部111が図4(C)に示す事例c3の要約結果r3を表示した場合には,要約結果r3は精度に関係するところが抽出されているが若干冗長であるため,ユーザAは評価2をつけ,評価付与部112は事例c3の解として評価2を設定する。
【0050】
同様に,ユーザBの場合を想定する。ユーザBは,図4(A)に示す要約結果r1に対して手法に関係するところが抽出されていないために評価3をつけ,図4(B)に示す要約結果r2に対して手法に関係するところが抽出されていることから評価1をつけ,図4(C)に示す要約結果r3に対して手法に関係するところが抽出されているが若干冗長であるため評価2をつける。
【0051】
また,同様に,ユーザCの場合を想定する。ユーザCは,図4(A)に示す要約結果r1に対して精度に関係するところが抽出されているが手法に関係するところが抽出されれていないため評価2をつけ,図4(B)に示す要約結果r2に対して手法に関係するところが抽出されているが精度に関係するところが抽出されていないため評価2をつけ,図4(C)に示す要約結果r3について手法および精度のいずれにも関係するところが抽出されているが若干冗長であるため評価1をつける。
【0052】
評価付与部112は,ユーザBおよびユーザCごとに要約結果r1~r3に対する入力評価を,それぞれの事例c1~c3の解(評価)として設定する。
【0053】
そして,評価カスタマイズ手段110は,テキスト・要約4で与えられたテキストとその要約結果と解とを事例として解データ記憶部120に記憶する(ステップS3)。
【0054】
図5に,機械学習処理および自動要約処理の流れを示す。
【0055】
解-素性対抽出部121は,解データ記憶部120から,事例ごとに解と素性の集合との組を抽出する(ステップS11)。
【0056】
解-素性対抽出部121は,例えば,1)文のなめらかさを示す情報として,k-gram 形態素列のコーパスでの存在,かかりうけ文節間の意味的整合度などを,また,2)内容をよく表しているかどうかを示す情報として,要約前のテキストにあったキーフレーズの包含率などを,また,3)自動要約で用いられる情報として,その文の位置やリード文かどうか,TF/IDF(TFは文書中でのその語の出現回数もしくは頻度を示す値,IDFはあらかじめ持っている多数の文書群のうち,その語が出現する文書数の逆数をいう。),文の長さ,固有表現・接続詞・機能語などの手がかり表現の存在などを,素性として抽出する。
【0057】
次に,機械学習部122は,解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し,学習結果を学習結果データ記憶部123に記憶する(ステップS12)。
【0058】
ここでユーザAの処理の場合に,解データ記憶部120に記憶される解データの「事例:問題→解」は,
事例c1:テキスト-要約結果r1→評価1,
事例c2:テキスト-要約結果r2→評価3,
事例c3:テキスト-要約結果r3→評価2
となり,機械学習部122は,これらの解データをもとに,どのような場合に評価1~評価3になるかを機械学習で学習する。例えば,事例c1→評価1や事例c3→評価2から,機械学習部122は,精度の表現,例えば「数字+[%]」の表現が出現すると評価が高くなるなどを学習する。ここで,「数字+[%]」の表現は,学習に用いる素性の例である。
【0059】
また,ユーザBの処理の場合に,「事例:問題→解」は,
事例c1:テキスト-要約結果r1→評価3,
事例c2:テキスト-要約結果r2→評価1,
事例c3:テキスト-要約結果r3→評価2
となり,機械学習部122は,「手がかり表現」や「用例」などの手法に相当する専門用語が出現すると評価が高くなるように学習する。
【0060】
また,ユーザCの処理の場合に,「事例:問題→解」は,
「事例c1:テキスト-要約結果r1→評価2,
事例c2:テキスト-要約結果r2→評価2,
事例c3:テキスト-要約結果r3→評価1」
となり,機械学習部122は,精度の表現または手法に相当する表現の両方が出現すると評価が高くなるように学習する。
【0061】
また,要約結果として出力される文章は短いほどよいので,それぞれの処理の場合において,文章の長さが短いほど評価が高くなるように学習する。
【0062】
機械学習の手法としては,例えば,シンプルベイズ法,決定リスト法,最大エントロピー法,サポートベクトルマシン法などを用いる。
【0063】
シンプルベイズ法は,ベイズの定理にもとづいて各分類になる確率を推定し,その確率値が最も大きい分類を求める分類とする方法である。
【0064】
決定リスト法は,素性と分類先の組とを規則とし,それらをあらかじめ定めた優先順序でリストに蓄えおき,検出する対象となる入力が与えられたときに,リストで優先順位の高いところから入力のデータと規則の素性とを比較し,素性が一致した規則の分類先をその入力の分類先とする方法である。
【0065】
最大エントロピー法は,あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき,所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め,その確率分布にしたがって求まる各分類の確率のうち,もっとも大きい確率値を持つ分類を求める分類とする方法である。
【0066】
サポートベクトルマシン法は,空間を超平面で分割することにより,2つの分類からなるデータを分類する手法である。
【0067】
決定リスト法および最大エントロピー法については,以下の参考文献1に,サポートベクトルマシン法については,以下の参考文献2および参考文献3に説明されている。
[参考文献1:村田真樹,内山将夫,内元清貴,馬青,井佐原均,種々の機械学習法を用いた多義解消実験,電子情報通信学会言語理解とコミュニケーション研究会,NCL2001-2, (2001) ]
[参考文献2:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,(Cambridge University Press,2000) ]
[参考文献3:Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000) ]
その後,要約を求めたいテキスト2が入力されると(ステップS13),要約候補生成部124は,例えば以下に示すような処理モデルを用いて,テキスト2から要約候補を作成する(ステップS14)。
【0068】
1)重要文選択モデル
重要文選択モデルとは,文を単位に要約し,重要と思われる文のみを選択して残すことにより要約を実現するモデルである。このモデルの場合には,あらゆる文選択の状態をすべて解の候補とするとよい。また,すべてを解の候補とすると計算速度に支障が生じる場合には,予め備えておいた選択規則を用いて,この選択規則を満足する文の選択状態のみを解の候補とする。すなわち,所定の選択規則により候補数を減少させて処理の負荷を軽減する。なお,選択規則は,人手による規則であってもよい。
【0069】
2)重要箇所選択モデル
重要箇所選択モデルとは,文よりも小さいものを要約の単位として,不要なものを削除することにより要約を実現するモデルである。単位を文より小さいものとすること以外については,上記1)重要文選択モデルと同様である。文よりも小さいものとして,例えば文節を用いる。すなわち,文節を単位として不要な文節を消していくことにより要約を実現する。この重要箇所選択モデルの場合は,あらゆる文節の選択の状態をすべて解の候補とする。また,すべてを解の候補とすると計算速度に支障が生じる場合には,上記1)重要文選択モデルと同様に,予め選択規則を用意しておき,この選択規則を満足する文の選択状態のみを解の候補とする。
【0070】
3)変形規則を利用したモデル
変形規則を利用したモデルとは,予め用意した変形規則を利用して要約結果を生成するモデルである。変形規則は,自動処理により獲得するか,または人手で作成しておいたものを利用する。例えば,「Xして,Yした。」を「Xした。」もしくは「Yした。」に書き換えるような変形規則を作っておき,この変形規則に従って入力「Aして,Bした。」が与えられたときに「Aした。」や「Bした。」という要約候補を生成する。
【0071】
4)ランダムジェネレーションを利用したモデル
ランダムジェネレーションを利用したモデルは,例えば,入力「・・・X・・・」があったときに「・・・Y・・・」を要約候補とするようなモデルである。このとき,置き換えられるXはランダムに選ばれてもよいし,予め用意しておいた置換規則によって指定してもよい。置換規則は,人手によって生成されたものや,自動獲得したものなどを用いる。また,置き換えた先の表現Yは,ある辞書の単語もしくは文字列の集合からランダムに選ばれてもよいし,予め用意しておいた変換規則によって指定してもよい。変換規則は,置換規則と同様,人手によって生成されたものや,自動獲得したものなどを用いる。このとき,XやYをランダムに選ばずに,変換規則にもとづいて選ぶとすると,変形規則を利用したモデルと同じようなものになる。
【0072】
素性抽出部125は,解-素性対抽出部121とほぼ同様の処理によって,入力したテキスト2および要約候補から素性の集合を抽出し,要約候補-推定解対生成部126へ渡す(ステップS15)。
【0073】
そして,要約候補-推定解対生成部126は,受け取った素性の集合の場合にどのような解になりやすいかを,学習結果データをもとに推定し,すなわち,複数の要約候補のそれぞれの解(評価)とその確信度を学習結果データにもとづき算出し,要約候補と推定解との対(要約候補-推定解対)127を生成する(ステップS16)。
【0074】
そして,要約選択部128は,生成された要約候補-推定解対127から,推定解の確信度の値が最もよい要約候補-推定解対127を選択し,その要約候補を要約3とする(ステップS17)。
【0075】
図6に,第1の実施の形態における本発明の処理装置の別の構成例を示す。
【0076】
本形態では,解(分類先)として多数の候補が考えられるが,分類先の種類数が多くなり過ぎて,一般の機械学習法で処理ができない場合が生じうる。このような場合に,図6に示す自動要約処理装置20では,機械学習部132は,実際の機械学習処理において正例と負例の二種類の解(分類先)のみを考える機械学習手法を用いることにより処理が可能となる。
【0077】
また,図6に示す自動要約処理装置20では,機械学習部132の学習の素性に評価という情報を用いることもできる。
【0078】
自動要約処理装置20は,評価カスタマイズ手段110と,解データ記憶部130と,素性-解対・素性-解候補対抽出部131と,機械学習部132と,学習結果データ記憶部133と,要約候補生成部134と,素性-解候補抽出部135と,要約候補-推定解対生成部136と,要約選択部138とを備える。
【0079】
解データ記憶部130と,素性-解対・素性-解候補対抽出部131と,機械学習部132と,学習結果データ記憶部133とは,特許請求の範囲に示す自動要約処理装置の機械学習処理手段を実現する処理手段である。また,要約候補生成部134と,素性-解候補抽出部135と,要約候補-推定解対生成部136とは,特許請求の範囲に示す要約候補生成処理手段を実現する処理手段である。
【0080】
評価カスタマイズ手段110および要約候補生成部134は,図1に示す自動要約処理装置10の評価カスタマイズ手段110および要約候補生成部124と同様の処理を行う。
【0081】
素性-解対・素性-解候補対抽出部131は,解データ記憶部130に記憶されている事例ごとに,解もしくは解候補と素性の集合との組を抽出する手段である。ここでは,解の候補は解以外の解の候補を意味し,ユーザが設定した評価を解とする。また,解と素性の集合の組を正例とし,解の候補と素性の集合との組を負例とする。
【0082】
機械学習部132は,解もしくは解の候補と素性の集合との組から,どのような解もしくは解の候補と素性の集合のときに正例である確率や負例である確率を学習し,その学習結果を学習結果データ記憶部133に記憶する手段である。
【0083】
素性-解候補抽出部135は,素性-解対・素性-解候補対抽出部131と同様の処理により,入力されたテキストおよび要約候補について,解の候補と素性の集合との組を抽出する手段である。
【0084】
要約候補-推定解対生成部136は,渡された解の候補と素性の集合との組の場合に正例である確率や負例である確率を求め,正例である確率が最も大きい解を推定解として,その場合の要約候補と推定解との対(要約候補-推定解対)137を生成する手段である。
【0085】
要約選択部138は,要約候補-推定解対137の要約候補を要約3とする手段である。
【0086】
図7に,自動要約処理装置20の機械学習処理および自動要約処理の流れを示す。
【0087】
素性-解対・素性-解候補対抽出部131は,解データ記憶部130から,各事例ごとに解もしくは解の候補と素性の集合との組を抽出する(ステップS21)。そして,機械学習部132は,解もしくは解の候補と素性の集合との組から,どのような解もしくは解の候補と素性の集合のときに,正例である確率や負例である確率を機械学習法により学習し,学習結果を学習結果データ記憶部133に記憶する(ステップS22)。
【0088】
その後,要約を求めたいテキスト2が入力されると(ステップS23),要約候補生成部134は,所定の方法でテキスト2から要約候補を生成する(ステップS24)。そして,素性-解候補抽出部135は,入力したテキスト2および要約候補から素性の集合と解の候補との組を抽出し,要約候補-推定解対生成部136へ渡す(ステップS25)。
【0089】
要約候補-推定解対生成部136は,受け取った解の候補と素性の集合との組の場合に正例や負例である確率を学習結果データをもとに推定し,正例である確率が最も大きい解の候補を推定解として,要約候補-推定解対137を生成し(ステップS26),要約選択部138は,要約候補-推定解対137の要約候補を要約3とする(ステップS27)。
【0090】
第1の実施の形態では,ユーザは必要なときに自動要約処理装置1を使用しながら,その使用の際に出力された要約結果に対して評価1~3をつければよい。したがって,ユーザは,操作負担を感じることなく要約結果の評価をカスタマイズすることが可能となる。
【0091】
〔第2の実施の形態〕
図8に,第2の実施の形態における本発明の処理装置の構成例を示す。図8に示す自動要約処理装置30は,図1に示す自動要約処理装置10の評価カスタマイズ手段110の代わりに評価カスタマイズ手段140を備え,また自動要約処理装置10を構成する評価カスタマイズ手段110以外の処理手段を備える。
【0092】
評価カスタマイズ手段140は,テキスト表示部141と,要約編集部142とを備える。
【0093】
テキスト表示部141は,予め用意したテキスト5を表示装置(図8に図示しない)に表示する手段である。
【0094】
要約編集部142は,テキスト表示部141が表示したテキスト5からユーザが要約として指定した部分を抽出して,または,ユーザが指定した部分内の表現を変更して要約を編集する手段である。
【0095】
図9に,第2の実施の形態における評価カスタマイズ処理の流れを示す。
【0096】
テキスト表示部141は,予め用意したテキスト5を取り込み,表示装置に表示する(ステップS31)。表示したテキスト5上でユーザに要約結果として良いと思われる部分を指定させ,ユーザが指定した範囲を受け付けて抽出する(ステップS32)。また,指定した範囲の部分が編集されたら,その編集内容を受け付け,編集後の指定範囲部分を要約結果とする(ステップS33)。
【0097】
ユーザは,表示されたテキスト上をマウスなどのポインティング・デバイスによるドラッグや,カーソルキー移動による開始位置および終了位置の指定などにより要約とする範囲を指定する。テキスト表示部141は,指定された範囲を,反転もしくはマーキングなどの表示により,指定されなかった範囲と区別して表示する。
【0098】
図10に,表示されるテキストの例およびユーザAが指定した範囲の例を示す。ユーザAは,破線で囲む部分「小説を対象にして実験を行なったところ,テストサンプルで再現率84%,適合率82%の精度で解析できた。」を要約としてよい部分であると指定する。要約編集部142は,図10のテキストの破線の矩形で示された部分を要約結果とする。
【0099】
また,ユーザBは,図11に示すように,テキストの破線で囲む部分「自然言語では,動詞を省略するということがある。この省略された動詞を復元することは,対話システムや高品質の機械翻訳システムの実現には不可欠なことである。そこで本研究では,この省略された動詞を表層の表現(手がかり語) と用例から補完することを行なう。」を要約として良いと指定する。また,ユーザCの場合には,図12に示すように,2つの破線の矩形で囲まれた部分「自然言語では,動詞を省略するということがある。この省略された動詞を復元することは,対話システムや高品質の機械翻訳システムの実現には不可欠なことである。そこで本研究では,この省略された動詞を表層の表現(手がかり語) と用例から補完することを行なう。」と部分「小説を対象にして実験を行なったところ,テストサンプルで再現率84%,適合率82%の精度で解析できた。」とを要約としてよいと指定する。要約編集部142は,図11および図12に示すテキストの破線の矩形で示された部分をそれぞれ要約結果とする。
【0100】
なお,ユーザが指定した範囲をテキストと別に表示し,指定範囲内の表現について,ユーザが任意の箇所を削除したり,または表現を変更したりして,その内容を編集できるようにしてもよい。図13に示すように,テキスト上で指定した範囲をテキストと別に表示して,指定範囲内の語句などを削除し,追加し,訂正することができるようにする。要約編集部142は,要約決定ボタンがクリック等の操作で選択されると,その選択を受け付けて,指定範囲の内容を要約結果とする。なお,キャンセルボタンが選択された場合には,指定範囲の内容をクリアする。
【0101】
そして,要約編集部142は,テキスト5と要約結果とを,所定の解(良い評価)とともに解データ記憶部130に記憶する(ステップS34)。さらに,評価カスタマイズ手段140は,第1の実施の形態において,自動要約処理装置20が生成した要約,自動要約処理装置20の要約候補生成部124が生成した要約候補,人手でランダムに生成した要約などのユーザが指定した要約以外の要約に対して所定の解(悪い評価)を付与した解データも解データ記憶部130へ記憶する。
【0102】
以降,機械学習処理および自動要約処理の流れは,図5に示す処理の流れと同様である。ここで,機械学習部122は,それぞれのユーザごとに,図3に示すテキストと,図10~図12に示す要約結果のいずれか(すなわち,ユーザ指定範囲)と,解とする事例について学習する。
【0103】
図14に,第2の実施の形態における本発明の処理装置の別の構成例を示す。本形態においても,解(分類先)の種類数が多くなり過ぎて,一般の機械学習法で処理ができない場合が生じうる。
【0104】
このため,図14に示す自動要約処理装置40では,機械学習部132は,実際の機械学習処理において正例と負例の二種類の解(分類先)のみを考える機械学習手法を用いることにより処理を可能としている。
【0105】
自動要約処理装置40は,図6に示す自動要約処理装置20を構成する処理手段と同様の処理手段を備え,かつ,評価カスタマイズ手段110の代わりに評価カスタマイズ手段140を備えるものである。
【0106】
本形態では,ユーザに要約としてよい範囲をテキスト上で指定させるため,第1の実施の形態に比べてユーザの負担は大きい。しかし,ユーザが求める要約結果により近いものを解データ(教師)とすることができるため,ユーザが所望する要約結果をより早く出力できるように学習することができる。
【0107】
〔第3の実施の形態〕
図15に,第3の実施の形態における本発明の処理装置の構成例を示す。図15に示す自動要約処理装置50は,図1に示す自動要約処理装置10の評価カスタマイズ手段110の代わりに評価カスタマイズ手段150を備え,また他の処理手段として,自動要約処理装置10を構成する処理手段と同様の処理手段を備える。
【0108】
評価カスタマイズ手段150は,要約表示部151と,性質情報設定部152とを備える。
【0109】
要約表示部151は,予め用意しておいたテキスト・要約4の要約結果を表示装置(図15に図示しない)に表示する手段である。
【0110】
性質情報設定部152は,要約結果の評価にかかわる複数の性質情報を生成し,性質情報ごとの評価を設定する手段である。
【0111】
性質情報とは,要約結果の評価を構成する種々の性質に関する情報であり,例えば,短い文を重視しているかどうかという情報(短文重視),要約結果に数量についての表現が含まれていることを重視しているかどうかという情報(数量表現重視),要約結果に手法についての表現が含まれていることを重視しているかどうかという情報(手法重視),要約結果の文体を重視しているかどうかという情報(文体重視),要約結果の読みやすさを重視しているかどうかという情報(読みやすさ重視)などである。
【0112】
評価カスタマイズ手段150は,機械学習部122において要約結果の評価にかかわる複数の性質をそれぞれ学習することができるように,ユーザが随時必要となった評価にかかわる複数の性質情報を任意に設定できるようにして,要約結果に対するユーザの評価を複数の性質情報を用いて定義する。
【0113】
本形態では,性質情報設定部152で設定された性質情報の数に対応して解データ記憶部120を用意し,各性質情報ごとに機械学習を行なう。したがって,解-素性対抽出部121,機械学習部122,学習結果データ記憶部123,要約候補-推定解対生成部126の各処理手段は,性質情報の数に対応して備えられる。
【0114】
図16に,評価カスタマイズ処理の流れを示す。
【0115】
要約表示部151は,テキスト・要約4から取り出した要約結果を表示する(ステップS41)。性質情報設定部152は,表示した要約結果に対して複数の性質情報の項目を表示し,ユーザに各項目の値や,新規項目の設定などを促し,ユーザの入力を受け付ける(ステップS42)。
【0116】
図17および図18に,性質情報設定画面の例を示す。性質情報設定画面では,複数の位置情報のそれぞれに対応してスライドバーが設けられている。ユーザはそれぞれの性質情報のスライドバー上でスライドボタンを右側や左側など任意の位置を定めて性質情報ごとの評価を指定できる。例えば,ユーザは,表示された要約結果に対して「短い文重視,数量表現重視,手法重視,文体重視,読みやすさ重視」などの性質情報の項目ごとに,それぞれどのくらいの評価になるかを,スライドバー上でスライドボタンを移動させて設定する。図17および図18では,スライドバーの左端から右端に向かって評価が高くなるように設定されているとする。また,ユーザはスライドバーの横に任意の性質情報を入力することにより,スライドバーが何を意味するかについて自由に定義できる。
【0117】
要約表示部151が図4(A)に示す要約結果r1を表示した場合に,図17に示すように,ユーザAは,要約結果r1が短い文なので「短い文重視」のスライドボタンを右側へ,また数量に関する表現があるので「数量表現重視」のスライドボタンを右側へ,また手法にふれていないので「手法重視」のスライドボタンを左側へ,文体と読みやすさとはそれほど悪くないので,「文体重視」および「読みやすさ重視」のスライドボタンを右側へ位置させる。
【0118】
また,要約表示部151が図4(B)に示す要約結果r2を表示した場合に,ユーザAは,図18に示すように,要約結果r2がそれほど短くないので,「短い文重視」のスライドボタンを左側へ,その他の性質情報は,まあまあよいので,その他の性質情報のスライドボタンを右側へ移動させる。
【0119】
そして,性質情報設定部152は,入力された性質情報ごとの値をそれぞれ解とし,その解とテキストと要約結果とを事例として性質情報ごとの解データ記憶部120に記憶する(ステップS43)。
【0120】
以降,機械学習処理および自動要約処理の流れは,図5に示す処理の流れとほぼ同様である。ここで,性質情報ごとに備えられた機械学習部122は,対応する性質情報の解データ記憶部120に記憶された事例を解データ(教師データ)として使用する。機械学習部122は,それぞれの性質情報ごとに学習を行なう。例えば,性質情報「短い文重視」については,各事例の解は,事例c1(要約結果r1)では「解=最右側」,事例c2(要約結果r2)では,「解=左側」という解ができる。機械学習部122は,これらの解データを教師データとして利用して,どういうときに短い文重視で評価されるのかを学習していく。また,その他の性質情報についても同様の学習を行なう。
【0121】
本形態では,機械学習処理後,要約候補生成部124は,入力されたテキスト2から所定の方法で要約候補を生成し,素性抽出部125は,入力テキスト2および要約候補から素性の集合を抽出する。
【0122】
そして,各性質情報に対応する要約候補-推定解対生成部126は,受け取った素性の集合の場合にどのような解になりやすいかを学習結果データをもとに推定し,要約候補と推定解との対(要約候補-推定解対)127を生成する。例えば,要約候補-推定解対生成部126は,複数の要約候補のそれぞれの推定解とその確信度を学習結果データにもとづき算出して,それぞれの性質情報ごとの要約候補-推定解対127を生成する。
【0123】
要約選択部128は,要約結果に対する評価の性質情報をどの程度重視するかを設定したユーザ評価設定情報7を受け付けて,要約候補-推定解対127で各性質情報の評価の値を,ユーザ評価設定情報7と比較して,最も似た要約候補-推定解対,もしくはユーザ評価設定情報7に最も適した要約候補-推定解対を選択し,その要約候補-推定解対127の要約候補を要約3とする。
【0124】
要約選択部128は,図17に示すような性質情報設定画面を表示して,ユーザが現在必要な要約結果の性質であるユーザ評価設定情報7を,性質情報の各項目のスライドバー上のスライドボタンの位置を変更して設定するように促してもよい。
【0125】
例えば,「短い文重視」,「数量表現重視」,「手法重視」のスライドボタンを最右側に移動させ,「文体重視」,「読みやすさ重視」のスライドボタンを最左側へ移動させる場合には,ユーザは,なるべく短く,また,数量表現および手法は欠かさず,しかし,文体や読みやすさは軽視するというような性質の評価に適合する要約3を要求していることを意味するユーザ評価設定情報7となる。
【0126】
また,要約選択部128は,要約候補-推定解対127の簡単な選択方法として,例えば以下の式を利用して,すべての解の組合せの値Total _Score を求めてもよい。
【0127】
Total _Score =a(短い文重視)×score(短い文重視)
+a(数量表現重視)×score(数量表現重視)
+a(手法重視) ×score(手法重視)
+a(文体重視) ×score(文体重視)
+a(読みやすさ重視) ×score(読みやすさ重視)
ただし,a(X)はユーザが指定した性質情報Xのスライドバーのスライドボタン位置から求まる値である。スライドボタンがスライドバーの右側に位置するほど大きな値を持つとしている。score(X)は学習結果データにもとづいて算出された性質情報Xの評価の値である。要約選択部128は,この組合せ値 Total_Score が最も大きい要約候補-推定解対127を選択し,その要約候補を要約3として出力する。
【0128】
本形態では,機械学習部122で用いる要約結果を表示させてユーザに評価させるという,第1の実施の形態における処理に近い処理方法を採用した。しかし,本形態では,第2の実施の形態における機械学習の手法のように,ユーザにテキストから要約結果としてよいと思われる範囲を指定させた上で,さらに,ユーザに評価にかかわる複数の性質をスライドバーなどを用いて評価させて,教師信号である解データを収集するようにしてもよい。かかる処理の場合には,同一ユーザであっても処理を行なう度に所望する要約のタイプが異なるような状況にも対処することが可能となる。また,同時に複数の性質情報を学習することが可能であるため,ユーザが評価(解)を与える際の処理負担も全体として軽減することが可能となる。
【0129】
本形態では,図19に示すような処理手段の構成を持つ自動要約処理装置60としてもよい。図19の自動要約処理装置60は,図6に示す自動要約処理装置20を構成する処理手段と同様の処理手段を備え,かつ評価カスタマイズ手段110の代わりに評価カスタマイズ手段150を備えるものである。
【0130】
自動要約処理装置60は,実際の機械学習処理において,正例と負例の二種類の解(分類先)のみを考える機械学習手法を用いることにより,機械学習での過重な処理負担を回避することができる。
【0131】
以上,本発明をその実施の態様により説明したが,本発明はその主旨の範囲において種々の変形が可能である。例えば,第1の実施の形態ないし第3の実施の形態のいずれの形態をも組み合わせて実施することも可能である。
【0132】
〔第4の実施の形態〕
図20に,第4の実施の形態における本発明の処理の構成例を示す。図20に示す自動要約処理装置70は,解データ記憶部120と,解-素性対抽出部121と,機械学習部122と,学習結果データ記憶部123と,素性抽出部125と,解推定部160と,評価カスタマイズ手段140とを備える。
【0133】
自動要約処理装置70の解データ記憶部120,解-素性対抽出部121,機械学習部122,学習結果データ記憶部123,素性抽出部125および評価カスタマイズ手段140とは,図8に示す同一番号が付与された処理手段とほぼ同様の処理を行う手段である。
【0134】
解推定部160は,学習結果データ記憶部123の学習結果データを参照して,素性抽出部125から渡された素性の集合の場合に,どのような解になり易いかを推定し,その推定解161を要約3とする手段である。
【0135】
本形態では,解データ記憶部120は,テキストを問題としテキストの要約結果を解とする解データを記憶し,機械学習部122は,かかる解データから抽出された解-素性対を用いて機械学習を行う。また,素性抽出部125は,入力されたテキスト2の素性を抽出して,解推定部160に渡す。
【0136】
図21に,第4の実施の形態における機械学習処理および自動要約処理の流れを示す。
【0137】
解-素性対抽出部121は,解データ記憶部120から,事例ごとに解と素性の集合との組を抽出し(ステップS51),次に,機械学習部122は,解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し,学習結果を学習結果データ記憶部123に記憶する(ステップS52)。なお,ステップS51,S52の処理は,図5に示すステップS11,S12の処理と同様である。
【0138】
その後,要約を求めたいテキスト2が入力されると(ステップS53),素性抽出部125は,解-素性対抽出部121とほぼ同様の処理によって,入力したテキスト2から素性の集合を抽出し,解推定部160へ渡す(ステップS54)。そして,解推定部160は,受け取った素性の集合の場合にどのような解になりやすいかを,学習結果データをもとに推定し,その推定解161を要約3とする(ステップS55)。
【0139】
本形態では,テキストの要約結果を解とする解データを用いて機械学習を行い,その学習結果を参照した解推定処理において要約とするべき推定解を直接求めるようにする。
【0140】
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
【0141】
また,本発明は,コンピュータにより読み取られ実行される処理プログラムとして実施するものとして説明したが,本発明を実現する処理プログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
【図面の簡単な説明】
【0142】
【図1】第1の実施の形態における本発明の処理装置の構成例を示す図である。
【図2】第1の実施の形態における評価カスタマイズ処理の流れを示す図である。
【図3】対象となるテキストの例を示す図である。
【図4】要約結果の例を示す図である。
【図5】図1に示す処理装置における機械学習処理および自動要約処理の流れを示す図である。
【図6】第1の実施の形態における本発明の処理装置の別の構成例を示す図である。
【図7】図6に示す処理装置における機械学習処理および自動要約処理の流れを示す図である。
【図8】第2の実施の形態における本発明の処理装置の構成例を示す図である。
【図9】第2の実施の形態における評価カスタマイズ処理の流れを示す図である。
【図10】表示されるテキストの例およびユーザAの指定範囲の例を示す図である。
【図11】表示されるテキストの例およびユーザBの指定範囲の例を示す図である。
【図12】表示されるテキストの例およびユーザCの指定範囲の例を示す図である。
【図13】ユーザが指定した範囲の表示の例を示す図である。
【図14】第2の実施の形態における本発明の処理装置の別の構成例を示す図である。
【図15】第3の実施の形態における本発明の処理装置の構成例を示す図である。
【図16】第3の実施の形態における評価カスタマイズ処理の流れを示す図である。
【図17】性質情報設定画面の例を示す図である。
【図18】性質情報設定画面の例を示す図である。
【図19】第3の実施の形態における本発明の処理装置の別の構成例を示す図である。
【図20】第4の実施の形態における本発明の処理装置の構成例を示す図である。
【図21】図20に示す処理装置における機械学習処理および自動要約処理の流れを示す図である。
【符号の説明】
【0143】
10 自動要約処理装置
110 評価カスタマイズ手段
111 要約表示部
112 評価付与部
120 解データ記憶部
121 解-素性対抽出部
122 機械学習部
123 学習結果データ記憶部
124 要約候補生成部
125 素性抽出部
126 要約候補-推定解対生成部
127 要約候補-推定解対
128 要約選択部
130 解データ記憶部
131 素性-解対・素性-解候補対抽出部
132 機械学習部
133 学習結果データ記憶部
134 要約候補生成部
135 素性-解候補抽出部
136 要約候補-推定解対生成部
137 要約候補-推定解対
138 要約選択部
140 評価カスタマイズ手段
141 テキスト表示部
142 要約編集部
150 評価カスタマイズ手段
151 要約表示部
152 性質情報設定部
160 解推定部
161 推定解
2 テキスト
3 要約
4 テキスト・要約
5 テキスト
7 ユーザ評価設定情報
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19
【図21】
20