TOP > 国内特許検索 > 文書要約装置、文書処理装置、及びプログラム

文書要約装置、文書処理装置、及びプログラム コモンズ

国内特許コード P140010661
整理番号 09-56
掲載日 2014年6月17日
出願番号 特願2009-297708
公開番号 特開2011-138306
登録番号 特許第5388038号
出願日 平成21年12月28日(2009.12.28)
公開日 平成23年7月14日(2011.7.14)
登録日 平成25年10月18日(2013.10.18)
発明者
  • 村田 真樹
  • 鳥澤 健太郎
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 文書要約装置、文書処理装置、及びプログラム コモンズ
発明の概要 【課題】文書を自動要約する文書要約装置を提供する。
【解決手段】要約元文書が記憶される要約元文書記憶部11と、要約元文書から言語表現を抽出する抽出部12と、抽出された言語表現に関連する複数の要約候補を取得する第1の取得部14と、取得された要約候補に関連する言語表現を取得する第2の取得部15と、要約元文書に含まれる言語表現と、第2の取得部15が取得した言語表現とを少なくとも用いて、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部16と、要約候補ごとに算出されたリコールとプレシジョンとを用いて、要約を選択する選択部18と、選択された要約を出力する出力部19と、を備える。
【選択図】図1
従来技術、競合技術の概要



従来、文書を自動的に要約する文書要約に関する研究がなされている(例えば、非特許文献1参照)。

産業上の利用分野



本発明は、文書を要約する文書要約装置等や、文書における関連する箇所を特定する文書処理装置等に関する。

特許請求の範囲 【請求項1】
要約元の文書である要約元文書が記憶される要約元文書記憶部と、
前記要約元文書から言語表現を抽出する抽出部と、
前記抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部と、
前記第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部と、
前記要約元文書に含まれる言語表現と、前記第2の取得部が取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部と、
前記算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択部と、
前記選択部が選択した要約を出力する出力部と、を備えた文書要約装置。
【請求項2】
前記抽出部が抽出する言語表現は、フレーズ以上の長さを有するものであり、
前記第1の取得部は、前記抽出部が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索し、検索結果の文書集合に偏って出現する言語表現を取得する、請求項1記載の文書要約装置。
【請求項3】
前記第1の取得部は、前記抽出部が抽出した言語表現と共起の高い言語表現である要約候補を取得する、請求項1記載の文書要約装置。
【請求項4】
関連する言語表現のペアであるペア情報を複数有する情報である関連辞書情報が記憶される関連辞書情報記憶部をさらに備え、
前記第1の取得部は、前記抽出部が抽出した言語表現と前記ペア情報によって対応付けられている言語表現である要約候補を取得する、請求項1または請求項3記載の文書要約装置。
【請求項5】
前記要約元文書に含まれる言語表現ごとの重要度を算出する重要度算出部をさらに備え、
前記算出部は、前記重要度算出部が算出した重要度を、前記要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出する、請求項2から請求項4のいずれか記載の文書要約装置。
【請求項6】
前記選択部は、リコール、プレシジョン、要約候補、要約候補の属性情報を少なくとも素性として用い、当該素性の値及び要約候補の適否を教師データとする機械学習によって選択を行う、請求項2から請求項5のいずれか記載の文書要約装置。
【請求項7】
前記要約元文書において、言語表現の関連を特定する関連特定部をさらに備え、
前記選択部は、前記関連特定部が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行う、請求項6記載の文書要約装置。
【請求項8】
前記関連特定部は、
前記要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、
前記関連言語表現取得手段が取得した関連言語表現が前記要約元文書に含まれるかどうか判断する判断手段と、
前記判断手段によって、前記関連言語表現が前記要約元文書に含まれると判断された場合に、当該要約元文書中の関連言語表現と、当該関連言語表現の取得元である要約元文書中の言語表現との関連を特定する特定手段と、を備える、請求項7記載の文書要約装置。
【請求項9】
前記出力部が出力した要約に関連する言語表現を取得する第3の取得部と、
前記抽出部が抽出した言語表現のうち、前記第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、
前記出力部は、前記特定部が特定した言語表現をも出力する、請求項2から請求項8のいずれか記載の文書要約装置。
【請求項10】
前記出力部が出力した要約に関連する言語表現を取得する第3の取得部と、
前記抽出部が抽出した言語表現のうち、前記第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、
前記特定部が特定した言語表現に対しても、前記第1の取得部による要約候補の取得、前記第2の取得部による要約候補に関連する言語表現の取得、前記算出部によるリコール及びプレシジョンの算出、前記選択部による要約の選択、前記出力部による選択された要約の出力の各処理が行われる、請求項2から請求項8のいずれか記載の文書要約装置。
【請求項11】
要約元の文書である要約元文書が記憶される要約元文書記憶部と、抽出部と、第1の取得部と、第2の取得部と、算出部と、選択部と、出力部とを用いて処理される文書要約方法であって、
前記抽出部が、前記要約元文書から言語表現を抽出する抽出ステップと、
前記第1の取得部が、前記抽出ステップで抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得ステップと、
前記第2の取得部が、前記第1の取得ステップで取得した要約候補に関連する言語表現を取得する第2の取得ステップと、
前記算出部が、前記要約元文書に含まれる言語表現と、前記第2の取得ステップで取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出ステップと、
前記選択部が、前記算出ステップで要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択ステップと、
前記出力部が、前記選択ステップで選択した要約を出力する出力ステップと、を備えた文書要約方法。
【請求項12】
コンピュータを、
要約元の文書である要約元文書が記憶される要約元文書記憶部で記憶されている要約元文書から言語表現を抽出する抽出部、
前記抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部、
前記第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部、
前記要約元文書に含まれる言語表現と、前記第2の取得部が取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部、
前記算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択部、
前記選択部が選択した要約を出力する出力部として機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009297708thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close