TOP > 国内特許検索 > 文書要約装置、文書処理装置、及びプログラム > 明細書

明細書 :文書要約装置、文書処理装置、及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5388038号 (P5388038)
公開番号 特開2011-138306 (P2011-138306A)
登録日 平成25年10月18日(2013.10.18)
発行日 平成26年1月15日(2014.1.15)
公開日 平成23年7月14日(2011.7.14)
発明の名称または考案の名称 文書要約装置、文書処理装置、及びプログラム
国際特許分類 G06F  17/30        (2006.01)
FI G06F 17/30 220A
G06F 17/30 170A
請求項の数または発明の数 12
全頁数 56
出願番号 特願2009-297708 (P2009-297708)
出願日 平成21年12月28日(2009.12.28)
審査請求日 平成24年11月19日(2012.11.19)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
発明者または考案者 【氏名】村田 真樹
【氏名】鳥澤 健太郎
個別代理人の代理人 【識別番号】100115749、【弁理士】、【氏名又は名称】谷川 英和
【識別番号】100121223、【弁理士】、【氏名又は名称】森本 悟道
審査官 【審査官】野崎 大進
参考文献・文献 特開2003-281164(JP,A)
特開2004-265169(JP,A)
特開2001-202367(JP,A)
特開2002-197096(JP,A)
特開昭63-175965(JP,A)
特開平10-293762(JP,A)
特開平11-045270(JP,A)
特開2009-140411(JP,A)
特開2007-241794(JP,A)
特開2002-278949(JP,A)
特開平03-278270(JP,A)
特開2003-223456(JP,A)
特開平09-245059(JP,A)
特開2000-011003(JP,A)
特開2007-011973(JP,A)
調査した分野 G06F 17/30
JSTPlus(JDreamIII)
特許請求の範囲 【請求項1】
要約元の文書である要約元文書が記憶される要約元文書記憶部と、
前記要約元文書から言語表現を抽出する抽出部と、
前記抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部と、
前記第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部と、
前記要約元文書に含まれる言語表現と、前記第2の取得部が取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部と、
前記算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択部と、
前記選択部が選択した要約を出力する出力部と、を備えた文書要約装置。
【請求項2】
前記抽出部が抽出する言語表現は、フレーズ以上の長さを有するものであり、
前記第1の取得部は、前記抽出部が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索し、検索結果の文書集合に偏って出現する言語表現を取得する、請求項1記載の文書要約装置。
【請求項3】
前記第1の取得部は、前記抽出部が抽出した言語表現と共起の高い言語表現である要約候補を取得する、請求項1記載の文書要約装置。
【請求項4】
関連する言語表現のペアであるペア情報を複数有する情報である関連辞書情報が記憶される関連辞書情報記憶部をさらに備え、
前記第1の取得部は、前記抽出部が抽出した言語表現と前記ペア情報によって対応付けられている言語表現である要約候補を取得する、請求項1または請求項3記載の文書要約装置。
【請求項5】
前記要約元文書に含まれる言語表現ごとの重要度を算出する重要度算出部をさらに備え、
前記算出部は、前記重要度算出部が算出した重要度を、前記要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出する、請求項2から請求項4のいずれか記載の文書要約装置。
【請求項6】
前記選択部は、リコール、プレシジョン、要約候補、要約候補の属性情報を少なくとも素性として用い、当該素性の値及び要約候補の適否を教師データとする機械学習によって選択を行う、請求項2から請求項5のいずれか記載の文書要約装置。
【請求項7】
前記要約元文書において、言語表現の関連を特定する関連特定部をさらに備え、
前記選択部は、前記関連特定部が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行う、請求項6記載の文書要約装置。
【請求項8】
前記関連特定部は、
前記要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、
前記関連言語表現取得手段が取得した関連言語表現が前記要約元文書に含まれるかどうか判断する判断手段と、
前記判断手段によって、前記関連言語表現が前記要約元文書に含まれると判断された場合に、当該要約元文書中の関連言語表現と、当該関連言語表現の取得元である要約元文書中の言語表現との関連を特定する特定手段と、を備える、請求項7記載の文書要約装置。
【請求項9】
前記出力部が出力した要約に関連する言語表現を取得する第3の取得部と、
前記抽出部が抽出した言語表現のうち、前記第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、
前記出力部は、前記特定部が特定した言語表現をも出力する、請求項2から請求項8のいずれか記載の文書要約装置。
【請求項10】
前記出力部が出力した要約に関連する言語表現を取得する第3の取得部と、
前記抽出部が抽出した言語表現のうち、前記第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、
前記特定部が特定した言語表現に対しても、前記第1の取得部による要約候補の取得、前記第2の取得部による要約候補に関連する言語表現の取得、前記算出部によるリコール及びプレシジョンの算出、前記選択部による要約の選択、前記出力部による選択された要約の出力の各処理が行われる、請求項2から請求項8のいずれか記載の文書要約装置。
【請求項11】
要約元の文書である要約元文書が記憶される要約元文書記憶部と、抽出部と、第1の取得部と、第2の取得部と、算出部と、選択部と、出力部とを用いて処理される文書要約方法であって、
前記抽出部が、前記要約元文書から言語表現を抽出する抽出ステップと、
前記第1の取得部が、前記抽出ステップで抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得ステップと、
前記第2の取得部が、前記第1の取得ステップで取得した要約候補に関連する言語表現を取得する第2の取得ステップと、
前記算出部が、前記要約元文書に含まれる言語表現と、前記第2の取得ステップで取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出ステップと、
前記選択部が、前記算出ステップで要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択ステップと、
前記出力部が、前記選択ステップで選択した要約を出力する出力ステップと、を備えた文書要約方法。
【請求項12】
コンピュータを、
要約元の文書である要約元文書が記憶される要約元文書記憶部で記憶されている要約元文書から言語表現を抽出する抽出部、
前記抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部、
前記第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部、
前記要約元文書に含まれる言語表現と、前記第2の取得部が取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部、
前記算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択部、
前記選択部が選択した要約を出力する出力部として機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、文書を要約する文書要約装置等や、文書における関連する箇所を特定する文書処理装置等に関する。
【背景技術】
【0002】
従来、文書を自動的に要約する文書要約に関する研究がなされている(例えば、非特許文献1参照)。
【先行技術文献】
【0003】

【非特許文献1】平尾努、鈴木潤、磯崎秀樹、「識別学習による組合せ最適化問題としての文短縮手法」、人工知能学会論文誌、Vol.22,No.6,p.574-584,2007年
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の文書要約は、要約元の文書に存在する単語等を用いて要約を行っていたため、端的な要約を生成することができないこともあった。
【0005】
また、従来の文書処理では、文書における関連する箇所を自動的に知ることができないという問題もあった。
【0006】
本発明は、上記課題を解決するためになされたものであり、その一の目的は、要約元の文書に含まれない表現をも用いて要約を自動生成することができる文書要約装置等を提供することである。
【0007】
また、本発明の他の目的は、文書における関連する箇所を特定する文書処理装置等を提供することである。
【課題を解決するための手段】
【0008】
上記目的の少なくとも一つを達成するため、本発明による文書要約装置は、要約元の文書である要約元文書が記憶される要約元文書記憶部と、要約元文書から言語表現を抽出する抽出部と、抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部と、第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部と、要約元文書に含まれる言語表現と、第2の取得部が取得した言語表現とを少なくとも用いて、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部と、算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、要約元文書の要約を選択する選択部と、選択部が選択した要約を出力する出力部と、を備えたものである。
【0009】
このような構成により、要約元文書に含まれる言語表現に関連する要約候補の中から、より適切であると考えられるものを選択した要約を出力することができる。したがって、要約元文書に含まれていない言語表現が要約となることもある。その結果、従来の文書要約の手法よりも端的で適切な要約を出力することができうる。
【0010】
また、本発明による文書要約装置では、抽出部が抽出する言語表現は、フレーズ以上の長さを有するものであり、第1の取得部は、抽出部が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索し、検索結果の文書集合に偏って出現する言語表現を取得してもよい。
このような構成により、情報検索的な手法を用いて抽出された言語表現に関連する言語表現である要約候補を取得することができる。
【0011】
また、本発明による文書要約装置では、第1の取得部は、抽出部が抽出した言語表現と共起の高い言語表現である要約候補を取得してもよい。
このような構成により、抽出された言語表現と共起の高いもの、すなわち、その抽出された言語表現から連想されると考えられる言語表現である要約候補を取得することができる。
【0012】
また、本発明による文書要約装置では、関連する言語表現のペアであるペア情報を複数有する情報である関連辞書情報が記憶される関連辞書情報記憶部をさらに備え、第1の取得部は、抽出部が抽出した言語表現とペア情報によって対応付けられている言語表現である要約候補を取得してもよい。
【0013】
このような構成により、抽出された言語表現と関連辞書によって関連づけられているもの、すなわち、その抽出された言語表現から推察することができる言語表現である要約候補を取得することができる。その関連づけは、例えば、類似の関連であってもよく、上位下位の関連であってもよく、原因結果の関連であってもよくその他の関連であってもよい。
【0014】
また、本発明による文書要約装置では、要約元文書に含まれる言語表現ごとの重要度を算出する重要度算出部をさらに備え、算出部は、重要度算出部が算出した重要度を、要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出してもよい。
このような構成により、要約元文書において重要な箇所を重視した文書要約を行うことができる。すなわち、要約元文書において重要な箇所が、そうでない箇所よりも、より要約に影響を与えるようにすることができる。
【0015】
また、本発明による文書要約装置では、選択部は、リコール、プレシジョン、要約候補、要約候補の属性情報を少なくとも素性として用い、素性の値及び要約候補の適否を教師データとする機械学習によって選択を行ってもよい。
このような構成により、教師ありの機械学習法を用いて、要約候補から要約を選択することができる。
【0016】
また、本発明による文書要約装置では、要約元文書において、言語表現の関連を特定する関連特定部をさらに備え、選択部は、関連特定部が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行ってもよい。
このような構成により、機械学習法において、要約元文書における言語表現間の関連に関する情報をも考慮することができるようになる。
【0017】
また、本発明による文書要約装置では、関連特定部は、要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、関連言語表現取得手段が取得した関連言語表現が要約元文書に含まれるかどうか判断する判断手段と、判断手段によって、関連言語表現が要約元文書に含まれると判断された場合に、要約元文書中の関連言語表現と、関連言語表現の取得元である要約元文書中の言語表現との関連を特定する特定手段と、を備えてもよい。
このような構成により、要約元文書に含まれる言語表現に関連する関連言語表現を取得することによって、要約元文書における言語表現間の関連を特定することができる。
【0018】
また、本発明による文書要約装置では、出力部が出力した要約に関連する言語表現を取得する第3の取得部と、抽出部が抽出した言語表現のうち、第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、出力部は、特定部が特定した言語表現をも出力してもよい。
このような構成により、要約元文書に含まれる言語表現のうち、出力される要約と関連のないもの、すなわち、その要約によって適切に要約されていないものも出力することができる。
【0019】
また、本発明による文書要約装置では、出力部が出力した要約に関連する言語表現を取得する第3の取得部と、抽出部が抽出した言語表現のうち、第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、特定部が特定した言語表現に対しても、第1の取得部による要約候補の取得、第2の取得部による要約候補に関連する言語表現の取得、算出部によるリコール及びプレシジョンの算出、選択部による要約の選択、出力部による選択された要約の出力の各処理が行われてもよい。
このような構成により、要約元文書に含まれる言語表現のうち、出力される要約と関連のないもの、すなわち、その要約によって適切に要約されていないものについて、再度、要約を行い、その結果も出力することができる。
【0020】
また、本発明による文書処理装置は、文書が記憶される文書記憶部と、前記文書において、言語表現の関連を特定する関連特定部と、前記関連特定部が特定した関連を示す情報を出力する出力部と、を備えたものである。
このような構成により、文書における言語表現の関連を示す情報を出力することができる。その結果、例えば、その情報によって、文書において関連する箇所を知ることができるようになる。
【0021】
また、本発明による文書処理装置では、関連特定部は、文書記憶部で記憶されている文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、前記関連言語表現取得手段が取得した関連言語表現が文書記憶部で記憶されている文書に含まれるかどうか判断する判断手段と、前記判断手段によって、関連言語表現が文書に含まれると判断された場合に、文書中の関連言語表現と、関連言語表現の取得元である文書中の言語表現との関連を特定する特定手段とを備えてもよい。
このような構成により、文書に含まれる言語表現に関連する関連言語表現を取得することによって、その文書における言語表現間の関連を特定することができる。
【発明の効果】
【0022】
本発明による文書要約装置等によれば、要約元の文書に含まれない表現をも用いて要約を自動生成することができる。また、本発明による文書処理装置等によれば、文書における言語表現の関連を示す情報を出力することができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施の形態1による文書要約装置の構成を示すブロック図
【図2】同実施の形態における関連特定部の構成を示すブロック図
【図3】同実施の形態による文書要約装置の動作を示すフローチャート
【図4】同実施の形態による文書要約装置の動作を示すフローチャート
【図5】同実施の形態における関連辞書情報の一例を示す図
【図6】同実施の形態による文書要約装置の構成の他の一例を示すブロック図
【図7】本発明の実施の形態2による文書処理装置の構成を示すブロック図
【図8】同実施の形態による文書処理装置の動作を示すフローチャート
【図9】同実施の形態におけるサポートベクトルマシンについて説明するための図
【図10】上記各実施の形態におけるコンピュータシステムの外観一例を示す模式図
【図11】上記各実施の形態におけるコンピュータシステムの構成の一例を示す図
【発明を実施するための形態】
【0024】
以下、本発明による文書要約装置、文書処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

【0025】
(実施の形態1)
本発明の実施の形態1による文書要約装置について、図面を参照しながら説明する。本実施の形態による文書要約装置は、要約元文書に含まれる言語表現に関連する言語表現である要約を取得するものである。

【0026】
図1は、本実施の形態による文書要約装置1の構成を示すブロック図である。本実施の形態による文書要約装置1は、要約元文書記憶部11と、抽出部12と、関連辞書情報記憶部13と、第1の取得部14と、第2の取得部15と、算出部16と、関連特定部17と、選択部18と、出力部19と、第3の取得部20と、特定部21とを備える。

【0027】
要約元文書記憶部11では、要約元の文書である要約元文書が記憶される。要約元文書は、要約を生成する対象となる文書のことである。すなわち、本実施の形態による文書要約装置1では、要約元文書の要約を生成することになる。その要約元文書は、例えば、一文の文書であってもよく、複数の文を含む文書であってもよい。後者の場合には、例えば、要約元文書は、1または複数の段落を有する文書であってもよい。その要約元文書の内容は問わない。なお、その要約元文書は、通常、テキスト情報である。

【0028】
抽出部12は、要約元文書から言語表現を抽出する。ここで、言語表現は、例えば、単語であってもよく、フレーズ以上の長さを有するものであってもよい。後述する第1の取得部14において、共起や関連辞書情報を用いた取得を行う場合には、言語表現は単語であることが好適である。一方、その第1の取得部において、情報検索的考え方を用いた取得を行う場合には、言語表現はフレーズ以上の長さを有するものである。なお、フレーズ以上の長さを有するものとは、フレーズであってもよく、一の文であってもよく、2以上の文であってもよく、段落であってもよく、それら以外の、文書におけるフレーズ以上の範囲であってもよい。フレーズは、例えば、一の文において読点やコンマによって区切られる範囲であってもよく、その他の範囲であってもよい。抽出部12が抽出した1または2以上の言語表現は、図示しない記録媒体において記憶されてもよい。

【0029】
抽出部12が単語を抽出する場合には、その抽出する単語の品詞があらかじめ決められていてもよく、そうでなくてもよい。前者の場合には、例えば、抽出部12は、名詞の単語を抽出してもよく、動詞の単語を抽出してもよく、形容詞の単語を抽出してもよく、副詞の単語を抽出してもよく、その他の種類の単語を抽出してもよく、任意の2以上の品詞の単語(例えば、名詞の単語と動詞の単語)を抽出してもよい。また、2以上の名詞が連続している場合には、それを一の名詞であるとして抽出してもよく、そうでなくてもよい。なお、抽出部12は、その単語の抽出を行う際に、要約元文書を読み出して形態素解析を行い、その形態素解析の結果を用いて、単語の抽出を行ってもよい。形態素解析を行うことによって、単語の区切りや、単語の品詞を知ることができるからである。本実施の形態では、第1の取得部14において、共起や関連辞書情報を用いた取得を行う場合には、抽出部12が名詞の単語を抽出するものとして説明する。抽出部12が単語を抽出する場合には、通常、抽出部12は2以上の単語を抽出する。例えば、要約元文書が1以上の文である場合に、抽出部12は、その1以上の文に含まれる複数の単語をそれぞれ抽出してもよい。

【0030】
なお、形態素解析として、日本語の場合には、例えば、奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。また、英語の場合には、英単語に品詞を付与するソフトウェアとして、例えば、「TnT」(http://www.coli.uni-saarland.de/~thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/~brill/)等が知られている。Brillのものについては、例えば、次の文献を参照されたい。
文献:Eric Brill、「Transformation-Based Error-Driven Learning and Natural Language Processing:A Case Study in Part-of-Speech Tagging」、Computational Linguistics,Vol.21,No.4,p.543-565、1995年

【0031】
抽出部12がフレーズ以上の長さを有するものを抽出する場合には、読点「、」や句点「。」、改行コード等を手がかり句として用いて、そのフレーズ以上の長さを有するものを抽出してもよい。例えば、抽出部12がフレーズを抽出する場合には、文書の始点、読点または句点から始まり、文書の終点、読点または句点で終わる範囲を抽出してもよい。なお、その抽出される範囲の始点と終点以外には、読点や句点が含まれないものとする。また、例えば、抽出部12が一文を抽出する場合には、文書の始点または句点から始まり、文書の終点または句点で終わる範囲を抽出してもよい。なお、その抽出される範囲の始点と終点以外には、句点が含まれないものとする。また、例えば、抽出部12が一の段落を抽出する場合には、文書の始点または改行コードから始まり、文書の終点または改行コードで終わる範囲を抽出してもよい。なお、その抽出される範囲の始点と終点以外には、改行コードは含まれないものとする。また、抽出部12がこれら以外の方法によってフレーズ以上の長さを有する言語表現を抽出してもよいことは言うまでもない。なお、抽出部12が一文を抽出するものであり、要約元文書記憶部11において一文である要約元文書が記憶されている場合には、抽出部12は、その要約元文書の全体である一文を抽出してもよい。このように、抽出部12による抽出には、要約元文書の一部を抽出することと、要約元文書の全部を抽出することの両方が含まれるものとする。本実施の形態では、第1の取得部14において、情報検索的考え方を用いた取得を行う場合には、抽出部12が一文を抽出するものとして説明する。抽出部12がフレーズ以上の長さを有するものを抽出する場合には、通常、抽出部12は1以上の「フレーズ以上の長さを有するもの」を抽出する。例えば、要約元文書が2以上の文である場合に、抽出部12は、その2以上の文に含まれる複数の文をそれぞれ抽出してもよい。

【0032】
また、抽出部12が2以上の言語表現を抽出した場合に、同じ言語表現が重複して抽出されることもある。その場合には、抽出された言語表現に対するユニーク処理を行って、抽出された言語表現の重複を解消してもよい。

【0033】
関連辞書情報記憶部13では、関連辞書情報が記憶される。関連辞書情報は、複数のペア情報を有する情報である。ペア情報は、関連する言語表現のペアを有する情報である。このペア情報に含まれる言語表現は、例えば、単語であってもよく、フレーズであってもよく、その他の長さのものであってもよいが、通常、単語である。また、その単語の品詞が決まっていてもよい。その品詞は、例えば、名詞であってもよく、動詞であってもよく、その他の品詞であってもよく、任意の2以上の品詞の組合せであってもよい。また、その関連辞書情報において、各ペア情報に関連の種類が対応付けられていてもよい。関連の種類は、例えば、類似語や類義語(例えば、飲み物と飲料)であってもよく、上位下位(例えば、飲み物とコーヒー)であってもよく、原因結果(例えば、豪雨と洪水)であってもよく、ライバルや対義語(例えば、上と下)であってもよく、製品とメーカー(例えば、掃除機とA社)であってもよく、事象と方法(例えば、爆発と爆弾)であってもよく、事象とツール(例えば、授業と教科書)であってもよく、事象と防ぐもの(例えば、病気と薬)であってもよく、物と材料(例えば、缶とアルミニウム)であってもよく、その他の種類の関連であってもよい。関連辞書情報は、例えば、図5で示されるものである。図5で示されるように、ペア情報には、関連する2個の単語(言語表現)が含まれる。また、そのペア情報に対して、関連の種類も対応付けられている。図5では、飲み物に対して、飲料、ドリンクは類似の関連であることが示されている。また、飲み物に対して、コーヒー、紅茶は、下位の関係であることが示されている。また、飲み物に対して、飲食物は、上位の関係であることが示されている。なお、類似の関係には方向性がないが、下位、上位の関係には方向性があることになる。例えば、飲み物の下位がコーヒーであって、その逆ではない、ということになる。また、関連辞書情報において、ペア情報に関連性の度合いを示す情報が含まれてもよい。その情報は、例えば、関連性が高いほど、高くなる値であってもよい。また、この関連辞書情報に含まれるペア情報で対応付けられている2個の言語表現は、何らかの関連があるものであれば、どのような関連で対応するものであってもよい。後述するように、その2個の言語表現は、通常、一方の言語表現から他方の言語表現を推論的に導くことができるものであるが、それに限定されるものではなく、例えば、一方の言語表現から他方の言語表現を連想的に導くことができるものであってもよい。

【0034】
なお、その関連辞書情報を生成する方法は問わない。例えば、手作業で作成してもよく、あるいは、機械的に作成してもよい。後者の場合には、例えば、次の文献に記載されている手法などを用いてもよい。その文献に記載されている手法は、自動的に類似語のリストを生成するものである。
文献:風間淳一、Stijn De Saeger、鳥澤健太郎、村田真樹、「係り受けの確率的クラスタリングを用いた大規模類似語リストの作成」、言語処理学会第15回年次大会,p.84-87,2009年3月

【0035】
第1の取得部14は、抽出部12が抽出した言語表現に関連する言語表現である要約候補を取得する。通常、第1の取得部14は、複数の要約候補を抽出する。第1の取得部14は、抽出された一の言語表現ごとに、要約候補を取得してもよく(例えば、抽出された言語表現A1から、要約候補B1,B2,B3を取得してもよい)、あるいは、抽出された二以上の言語表現を一括して用いて、要約候補を取得してもよい(例えば、抽出された言語表現A1,A2から、要約候補B1,B2,B3を取得してもよい)。第1の取得部14は、連想的知識や、推論的知識を用いて、抽出された言語表現に対応する言語表現である要約候補を取得するものである。すなわち、抽出された言語表現から連想される言語表現や、抽出された言語表現から推論的に導かれる言語表現が、要約候補として取得されることになる。なお、要約候補である言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。第1の取得部14によって取得された要約候補は、図示しない記録媒体で記憶されてもよい。

【0036】
その要約候補の取得方法として、例えば、(1)共起を用いる方法、(2)関連辞書情報を用いる方法、(3)情報検索的考え方を用いる方法がある。以下、その各方法について説明する。説明の便宜上、(1)(2)の方法の場合には、抽出部12によって、単語である言語表現が抽出されているものとして説明を行う。また、(3)の方法の場合には、抽出部12によって、フレーズ以上の長さを有する言語表現が抽出されているものとして説明を行う。なお、(1)~(3)以外の方法によって、抽出部12が抽出した言語表現に関連する言語表現を取得してもよいことは言うまでもない。

【0037】
(1)共起を用いる方法
この方法では、第1の取得部14は、抽出部12が抽出した言語表現と共起の高い言語表現である要約候補を取得する。まず、共起について説明する。言語表現Aと、言語表現Bとが共起するとは、決められた長さの範囲内(例えば、一文の範囲内、一段落の範囲内、一ページの範囲内、一の文書の範囲内、一のウェブページの範囲内等)において、同時に出現することである。共起が高いとは、共起を示す尺度が高いことである。共起を示す尺度としては、例えば、共起頻度や共起率、Simpson係数、コサイン距離等が存在する。言語表現Aと言語表現Bとの共起頻度とは、決められた長さの範囲内において、言語表現A,Bが同時に出現する数である。共起率については後述する。また、Simpson係数は、共起率の分母を、後述するX,Yの最小値にしたものである。また、コサイン距離は、共起率の分母を、後述するXとYの積の絶対値の自乗根にしたものである。なお、これらの共起を示す尺度についてはすでに公知である。したがって、共起の代表的な尺度である共起率についての説明のみを行い、それ以外の共起の尺度に関する説明を省略する。また、上記以外の共起の尺度を用いてもよいことは言うまでもない。例えば、後述するX,Y,Zについて、Z/XとZ/Yを共起の尺度として用いるようにしてもよい。

【0038】
共起率は、言語表現Aの出現数をXとして、言語表現Bの出現数をYとして、言語表現A,Bが同時に出現する数をZとすると、
共起率=Z/(X+Y-Z)
となる。なお、言語表現Aの出現数Xは、例えば、言語表現Aを検索キーとして検索した場合における、ヒットした、決められた長さの範囲(例えば、一文)の数である。Y,Zに関しても同様である。例えば、その範囲が一文である場合には、検索キー「言語表現A」の検索でヒットした文数がXである。また、例えば、その範囲が一文である場合には、検索キー「言語表現A AND 言語表現B」の検索でヒットした文数がZである。

【0039】
なお、その共起率を算出する際には、多くの文書を有するデータベースが必要になる。そのデータベースは、例えば、文書要約装置1が保持していてもよく、あるいは、装置外に存在してもよい。後者の場合には、例えば、そのデータベースは、ウェブサイトであってもよく、あるいは、所定のサーバが有するデータベースであってもよい。また、その共起率を算出する際の検索等の処理は、第1の取得部14がそのデータベースにアクセスすることによって行ってもよく、あるいは、第1の取得部14は、外部の装置やサーバに対して、抽出された言語表現を渡し、その外部の装置やサーバにおいて生成された、抽出された言語表現と共起する言語表現や共起率を受け取るだけであってもよい。

【0040】
第1の取得部14は、抽出部12が抽出した言語表現と共起する言語表現と、その共起率とを取得する。この処理は、例えば、第1の取得部14が、抽出された言語表現と、あらゆる言語表現との共起率を算出することによって行われる。その処理で用いられるあらゆる言語表現は、例えば、あらかじめ図示しない記録媒体で記憶されている単語群であってもよく、あるいは、共起率の算出時に用いられるデータベースから抽出した単語群であってもよい。そして、共起率の高い言語表現を、抽出された言語表現に関連する要約候補として取得する。なお、共起率が高い言語表現とは、例えば、しきい値以上の共起率である言語表現であってもよく、あるいは、共起率の高いものからあらかじめ決められた個数の言語表現であってもよい。なお、その2個の条件を合わせて用いてもよい。例えば、共起率の高い言語表現は、しきい値以上の共起率である言語表現であって、かつ、共起率の高いものからあらかじめ決められた個数内の言語表現であってもよい。そのしきい値は、例えば、共起率の最大値にあらかじめ決められた1未満の数(例えば、0.9や0.8など)を掛けた値であってもよく、あらかじめ決められた値であってもよい。このことは、共起率以外の共起の尺度を用いて、抽出された言語表現と共起の高い言語表現を取得する場合にも同様である。すなわち、この段落の説明において、共起率を適宜、他の共起の尺度に置き換えてもよい。

【0041】
なお、抽出部12が2以上の言語表現を抽出した場合には、各言語表現に対して共起率の高い言語表現である要約候補が取得される。また、そのような場合には、同じ要約候補が重複して取得されることもあるため、要約候補の取得が終了した後に、要約候補に対するユニーク処理を行い、要約候補の重複を解消してもよい。

【0042】
また、上記説明では、第1の取得部14が2個の言語表現に関する共起率を用いて要約候補を取得する場合について説明したが、第1の取得部14は、3個以上の言語表現に関する共起率を用いて要約候補を取得してもよい。例えば、抽出部12が2以上の言語表現を抽出した場合に、第1の取得部14は、その2以上の言語表現から選択した2個の言語表現と共起率の高い言語表現である要約候補を取得してもよい。その場合の共起率は、言語表現Aの出現数をXとして、言語表現Bの出現数をYとして、言語表現Cの出現数をZとして、言語表現A,Bの同時の出現数をPとして、言語表現B,Cの同時の出現数をQとして、言語表現C,Aの同時の出現数をRとして、言語表現A,B,Cの同時の出現数をSとすると、
共起率=S/(X+Y+Z-P-Q-R+S)
となる。この場合には、第1の取得部14は、抽出された2以上の言語表現におけるすべての2個の言語表現の組合せについて、上述のように3個の言語表現に関する共起率を用いて要約候補を取得してもよい。その場合には、共起率を求める3個の言語表現のうち、抽出部12が抽出した2個の言語表現が共起しないまたは共起率の非常に小さい言語表現である場合には、その2個の言語表現を含む3個の言語表現に対して求められるすべての共起率が非常に小さい値となる。その場合には、要約候補を取得しなくてもよいため、共起率にあらかじめ決められたしきい値を設定することによって、足切りを行うようにしてもよい。また、4個以上の言語表現に関する共起率を用いて要約候補を取得する場合も、同様にして行うことができる。また、第1の取得部14は、2個の言語表現の共起率を用いた要約候補の取得と、3個以上の言語表現の共起率を用いた要約候補の取得との両方を行って要約候補を取得してもよい。

【0043】
また、あらゆる言語表現の組合せについてあらかじめ共起率を算出し、その共起率が高い組合せを保持しておくことによって、ある言語表現Aと共起率の高い言語表現を、その組合せから取得するようにしてもよい。具体的には、言語表現Aと共起率の高い言語表現B,C,D…が言語表現Aに対応付けられて保持されており、抽出部12によって言語表現Aが抽出された場合には、第1の取得部14は、その言語表現Aで検索することによって、その言語表現Aに対応する言語表現B,C,D…を取得してもよい。

【0044】
また、通常、ある言語表現に対して共起率の高い言語表現を取得する際には、元の言語表現を含めない。しかし、第1の取得部14は、抽出された言語表現そのものを、要約候補として取得してもよい。その場合に、第1の取得部14は、抽出された言語表現であって、その言語表現そのものとの共起率の高いもののみを要約候補として取得してもよく、あるいは、抽出された言語表現すべてを、共起率が高いとして要約候補にしてもよい。なお、共起率に関して説明したことは、共起率以外の共起の尺度についても、適宜、適用できるものである。

【0045】
(2)関連辞書情報を用いる方法
この方法では、第1の取得部14は、抽出部12が抽出した言語表現とペア情報によって対応付けられている言語表現である要約候補を取得する。抽出された言語表現とペア情報によって対応付けられている言語表現とは、例えば、抽出された言語表現がAである場合に、そのAを含むペア情報に含まれるAではない言語表現(すなわち、Aとペアになっている言語表現)のことである。したがって、第1の取得部14は、抽出された言語表現を検索キーとして関連辞書情報を検索し、ヒットしたペア情報から、検索キーである言語表現とペアになっている言語表現を取得することによって、要約候補を取得することができる。例えば、関連辞書情報が図5で示されるものであり、抽出された言語表現が「飲み物」であれば、第1の取得部14は、その「飲み物」を検索キーとして、ペア情報の左側のカラムを検索する。そして、ヒットしたペア情報から、右側のカラムの言語表現、例えば、「飲料」「ドリンク」「コーヒー」「紅茶」「飲食物」…を要約候補として取得する。その取得の際に、第1の取得部14は、検索でヒットしたすべてのペア情報から要約候補を取得してもよく、あるいは、検索でヒットしたペア情報のうち、一部のペア情報から要約候補を取得してもよい。後者の場合には、例えば、ペア情報において、そのペア情報に含まれる2個の言語表現の関連性の度合いを示す情報が存在するのであれば、その情報によって示される関連性の度合いの高いものを要約候補として取得してもよい。その関連性の度合いが、関連性が強いほど高い値となる指標によって示される場合には、前述の共起の高いものを要約候補として取得する場合と同様にして、抽出された言語表現と関連性の強い要約候補を取得することができる。なお、その関連性の度合いを示す情報は、例えば、ペア情報が類似する言語表現のペアである場合には、類似度であってもよい。

【0046】
(3)情報検索的考え方を用いる方法
この方法では、第1の取得部14は、抽出部12が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索する。そして、第1の取得部14は、その検索結果の文書集合に偏って出現する言語表現(この言語表現は通常、単語であるが、単語以上の長さを有するものであってもよい)を取得する。なお、この方法については、例えば、特開2007-241794で開示されているため、その文献を参照されたい。なお、以下その方法について簡単に説明する。

【0047】
[文書集合に偏って出現する言語表現の取得方法]
文書の検索対象となるデータベースに含まれる文書群をCとする。この文書群Cは、データベース全体でもよく、あるいは、その一部であってもよい。また、ここでの文書は、文であってもよく、段落であってもよく、それ以上の長さを有するものであってもよい。また、抽出部12が抽出した言語表現に類似する文書の集合を、文書群Bとする。また、その文書群Bに偏って出現する言語表現の集合を単語群Aとする。なお、この説明では、第1の取得部14が取得する言語表現を単語であるとしている。また、単語群Aに含まれる要素である単語をaとする。

【0048】
(取得方法1:出現率の比を用いる場合)
まず、第1の取得部14は、文書群C中のaの出現率と、文書群B中のaの出現率を求める。
C中のaの出現率=C中のaの出現回数/C中の単語総数
B中のaの出現率=B中のaの出現回数/B中の単語総数

【0049】
次に、第1の取得部14は、「出現率の比=B中のaの出現率/C中のaの出現率」を求めて、この値が大きいものほど、文書群Bに偏って出現する単語とする。そして、その出現率の比の大きい単語aを1以上取得することによって、その1以上のaの集合である単語群Aを取得することができる。この単語群Aが、文書集合に偏って出現する言語表現(単語)の集合となる。

【0050】
(取得方法2:有意差検定を利用する場合)
・二項検定の場合の説明
aのCでの出現数をNとする。aのBでの出現数をN1とする。また、N2=N-N1とする。
aがCに現れたときにそれがB中に現れる確率を0.5と仮定して、Nの総出現のうち、N2回以下、aがCに出現してBに出現しなかった確率を求める。

【0051】
この確率は、
P1=ΣC(N1+N2,x)*0.5^(x)*0.5^(N1+N2-x)
(ただし、Σは、x=0からx=N2の和であり、C(X,Y)は、X個の異なったものからY個のものを取り出す場合の数であり、^は、指数を意味する。)
で表され、この確率の値が十分小さければ、N1とN2は等価でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。

【0052】
5%検定ならP1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準になる。

【0053】
N1がN2に比べて有意に大きいと判断されたものを文書群Bに偏って出現する単語とする。また、P1が小さいものほど、文書群Bによく偏って出現する単語とする。

【0054】
・カイ二乗検定の場合の説明
B中のaの出現回数をN1、B中の単語の総出現数をF1、
CにあってBにない、aの出現回数をN2、
CにあってBにない、単語の総出現数をF2とする。

【0055】
N=N1+N2として、
カイ二乗値=(N*(F1*(N2-F2)-(N1-F1)*F2)^2)/((F1+F2)*(N-(F1+F2))*N1*N2)
を求める。

【0056】
そして、このカイ二乗値が大きいほどR1(=N1/F1)とR2(=N2/F2)は有意差があると言え、カイ二乗値が3.84よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき危険率1%の有意差があると言える。
N1>N2で、かつ、カイ二乗値が大きいものほど、文書群Bによく偏って出現する単語とする。

【0057】
・比の検定、正確に言うと、比率の差の検定の説明
p=(F1+F2)/(N1+N2)
p1=R1
p2=R2
として、
Z=|p1-p2|/sqrt(p*(1-p)*(1/N1+1/N2))
(ただしsqrtはルートを意味する)
を求め、そして、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき危険率5%の有意差があると言え、Zが2.58よりも大きいとき危険率1%の有意差があると言える。
N1>N2で、かつ、Zが大きいものほど、文書群Bによく偏って出現する単語とする。

【0058】
これら三つの検定の方法と、先の単純に、B中のaの出現率/C中のaの出現率を求めて判定する方法を組み合わせてもよい。
例えば、危険率5%以上有意差があるもののうち、B中のaの出現率/C中のaの出現率、の値が大きいものほど文書群Bによく偏って出現する単語としてもよい。

【0059】
[抽出された言語表現に類似する文書の検索]
情報検索の基礎知識として以下の式がある。ここで、Score(D)が大きいものを取る。

【0060】
・基本的な方法(TF・IDF法)の説明
score(D)=Σ(tf(w,D)*log(N/df(w)))
ここで、w∈Wで加算を行う。また、Wは抽出部12が抽出した言語表現に含まれる単語の集合である。tf(w,D)は文書Dでのwの出現回数であり、df(w)は全文書でWが出現した文書の数である。また、Nは文書の総数である。
そして、score(D)が高い文書を検索結果として出力する。その検索結果である文書の集合が、前述の文書群Bとなる。

【0061】
・RobertsonらのOkapi weightingの説明
文献:村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均、「位置情報と分野情報を用いた情報検索」、自然言語処理(言語処理学会誌),7巻,2号,p.141~160、2000年4月
の(1)式が性能がよいことが知られている。これの式(1)のΣで積を取る前のtf項とidf項の積がOkapiのウェイティング法になって、この値を単語の重みに使う。

【0062】
Okapiの式なら
score(D)=Σ(tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w)))
となる。ただし、w ∈Wで加算であり、lengthは文書Dの長さ、deltaは文書の長さの平均である。文書の長さは、文書のバイト数、また、文書に含まれる単語数などを使う。

【0063】
さらに、以下の情報検索を行うこともできる。
Okapiの参考文献:S.E.Robertson,S.Walker,S.Jones,M.M.Hancock-Beaulieu,and M.Gatford Okapi at TREC-3,TREC-3,1994年
SMARTの参考文献:Amit Singhal AT&T at TREC-6,TREC-6,1997

【0064】
より高度な情報検索の方法として、tf・idfを使うだけの式でなく、これらのOkapiやSMARTの式を用いてもよい。
これらの方法では、tf・idfだけでなく、文書の長さなども利用して、より高精度な情報検索を行うことができる。

【0065】
今回の検索方法では、さらに、Rocchio's formulaを使うことができる。
文献:J.J.Rocchio,「Relevance feedback in information retrieval」,「The SMART retrieval System」,「Edited by G. Salton」,Prentice Hall, Inc.,p.313-323,1971年

【0066】
この方法は、log(N/df(w))の代わりに、
{E(t)+k_af*(RatioC(t)-RatioD(t))}*log(N/df(w))
を使う。
E(t)=1(元の検索にあったキーワード)
=0(それ以外)
RatioC(t)は文書群Bでのtの出現率
RatioD(t)は文書群Cでのtの出現率

【0067】
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど、抽出部12が抽出した言語表現に含まれる単語をより多く含む文書として取り出すものである。

【0068】
なお、第1の取得部14は、上記(1)~(3)のいずれかの方法で要約候補を取得してもよく、あるいは、(1)~(3)の任意の2以上の方法を組み合わせて要約候補を取得してもよい。後者の場合であって、(3)の方法と、(1)及び/または(2)の方法とが組み合わされた場合には、抽出部12は、共起やペア情報を用いた要約候補の取得で用いられる言語表現(通常は単語)と、情報検索的考え方を用いた要約候補の取得で用いられる言語表現(通常は文など)との両方を抽出するものであってもよい。また、重複した要約候補が取得された場合には、ユニーク処理を行ってもよい。

【0069】
また、第1の取得部14は、上述のようにして取得した要約候補に加えて、要約元文書に含まれる言語表現を、要約候補として取得してもよく、あるいは、取得しなくてもよい。前者の場合であって、抽出部12が単語である言語表現を抽出している場合には、例えば、第1の取得部14は、その抽出部12が抽出した単語である言語表現そのものを、要約候補に加えるようにしてもよい。また、前者の場合であって、抽出部12が単語である言語表現を抽出していない場合には、例えば、第1の取得部14は、その抽出部12が抽出したフレーズ以上の長さを有する言語表現から、単語である要約候補を取得してもよい。この場合には、抽出部12に関する箇所で説明したように、第1の取得部14は、そのフレーズ以上の長さを有する言語表現に対して形態素解析を行うことによって、単語である要約候補を取得してもよい。また、その取得する単語の品詞は、あらかじめ決められたものであってもよい。

【0070】
なお、後述するリコールやプレシジョンの算出において用いられるRelatedWord_Iが、要約候補の集合と異なる場合には、第1の取得部14が、そのRelatedWord_Iの取得をも行ってもよい。すなわち、第1の取得部14は、要約候補の集合を取得すると共に、抽出された言語表現に関連する言語表現であるRelatedWord_Iの取得をも行ってもよい。このRelatedWord_Iの取得も、抽出された言語表現との関連が異なる以外は、要約候補の集合の取得と同様にして行うことができる。なお、RelatedWord_Iについては後述する。

【0071】
第2の取得部15は、第1の取得部14が取得した要約候補に関連する言語表現を取得する。通常、第2の取得部15は、要約候補に関連する複数の言語表現を取得する。また、第1の取得部14が複数の要約候補を取得した場合には、第2の取得部15は、各要約候補について、関連する言語表現の取得を行う。第2の取得部15も、第1の取得部14と同様に、連想的知識や、推論的知識を用いて、要約候補に関連する言語表現を取得するものである。すなわち、取得された要約候補から連想される言語表現や、取得された要約候補から推論的に導かれる言語表現が取得されることになる。なお、このようにして取得された言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。第2の取得部15によって取得された言語表現は、図示しない記録媒体で記憶されてもよい。その言語表現の取得方法として、例えば、前述した(1)共起を用いる方法、(2)関連辞書情報を用いる方法がある。それらの方法については前述の通りであり、その説明を省略する。なお、(2)の方法を用いる場合には、第2の取得部15は、関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、言語表現の取得を行ってもよい。また、第2の取得部15は、上記(1)(2)のいずれかの方法で言語表現を取得してもよく、あるいは、その両方を用いて言語表現を取得してもよい。また、一の要約候補に関連する言語表現として、重複した言語表現が取得された場合には、ユニーク処理を行ってもよい。なお、(1)(2)以外の方法によって、要約候補に関連する言語表現を取得してもよいことは言うまでもない。この第2の取得部15による言語表現の取得の処理によって、要約候補と、その要約候補に関連する1以上の言語表現との対が取得されることになる。また、第2の取得部15が言語表現を取得する方法は、第1の取得部14が要約候補を取得する方法と同じであってもよく、あるいは、異なっていてもよい。前者の場合には、例えば、第1の取得部14及び第2の取得部15が、(1)共起を用いる方法によって言語表現の取得を行ってもよい。また、後者の場合には、例えば、第1の取得部14は、(1)共起を用いる方法によって要約候補を取得し、第2の取得部15は、(2)関連辞書情報を用いる方法によって言語表現を取得してもよい。

【0072】
また、第2の取得部15は、第1の取得部14が取得した要約候補が要約元文書に含まれる言語表現である場合(例えば、抽出部12が抽出した言語表現である場合)には、その要約候補に関連する言語表現として、その要約候補そのものを取得してもよく、あるいは、そのようにしなくてもよい。前者のようにすることによって、後述するリコールやプレシジョンがよりよい値になりうる。

【0073】
算出部16は、要約元文書に含まれる言語表現と、第2の取得部15が取得した言語表現とを少なくとも用いて、リコールと、プレシジョンとを算出する。リコールは、再現率に類似するものであり、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるものである。なお、このリコールは、ここで定義されたとおりのものであって、再現率に類似しているが、厳密には再現率と異なるものである。プレシジョンは、適合率に類似するものであり、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるものである。なお、このプレシジョンは、ここで定義されたとおりのものであって、適合率に類似しているが、厳密には適合率と異なるものである。算出部16は、そのリコールやプレシジョンを算出する際に、要約候補をも用いてもよい。

【0074】
ここで、要約候補を評価する方法について説明する。端的な要約のよさを計る基準として、次の3つが存在する。

【0075】
(i)端的な要約から十分に文書の内容を連想及び/または推論できるものほど、よい要約である。すなわち、要約候補が要約元文書に含まれる言語表現と関連しているほど、よりよい要約候補であることになる。

【0076】
(ii)端的な要約から連想及び/または推論されるものに、要約元文書にないものが生じないものほどよい要約である。すなわち、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど、よりよい要約候補であることになる。

【0077】
(iii)端的な要約が短いほどよい要約である。

【0078】
上記(i)は、要約元文書に含まれる言語表現を正解データとして、その正解データをどれだけ漏らさずに取り出せるかを示しているため、再現率に類似することになり、前述のように、リコールと呼ぶことにする。そのリコールは、例えば、次式によって算出してもよい。
【数1】
JP0005388038B2_000002t.gif

【0079】
ここで、InputWordは、要約元文書に含まれる言語表現の集合である。その言語表現は、通常、単語である。抽出部12が単語である言語表現を抽出する場合には、そのInputWordに含まれる言語表現である単語の品詞は、抽出部12が抽出する言語表現である単語の品詞と同じであるとする。一方、抽出部12がフレーズ以上の長さを有する言語表現を抽出する場合には、そのInputWordに含まれる言語表現である単語の品詞は、別途、自由に決めることができる。例えば、その品詞は名詞であってもよい。なお、抽出部12が単語である言語表現を抽出する場合には、算出部16は、InputWordとして、その抽出された単語群を用いることができる。一方、抽出部12が単語の言語表現を抽出しない場合には、要約元文書からInputWordを取得する処理を算出部16が行ってもよい。また、RelatedWord_Cは、一の要約候補に関連する言語表現の集合である。このRelatedWord_Cは、第2の取得部15によって取得されたものである。また、Count{U}は、集合Uの要素数をカウントする関数である。算出部16は、上記のリコールの式を用いることによって、要約候補ごとに、リコールを算出する。

【0080】
なお、リコールは、上述の意味合いを示す値であれば、上記の式(1)以外で算出されるものであってもよい。例えば、次式で算出されてもよい。RelatedWord_Iは、InputWordに関連する言語表現の集合である。なお、このRelatedWord_Iは、第1の取得部14によって取得されてもよく、あるいは、他の図示しない構成要素によって取得されてもよい。また、このRelatedWord_Iは、要約候補の集合と一致していてもよく、あるいは、そうでなくてもよい。後者の場合には、例えば、要約候補の集合は、共起を用いて取得されたものであり、RelatedWord_Iは、関連辞書情報を用いて取得されたものであってもよい。また、例えば、要約候補の集合は、上位下位の関連辞書情報を用いて取得されたものであり、RelatedWord_Iは、原因結果の関連辞書情報を用いて取得されたものであってもよい。
【数2】
JP0005388038B2_000003t.gif

【0081】
上記(ii)は、要約元文書に含まれる言語表現を正解データとして、その正解データをどれだけ逸脱していないかを示しているため、適合率に類似することになり、前述のように、プレシジョンと呼ぶことにする。そのプレシジョンは、例えば、次式によって算出してもよい。算出部16は、次式を用いることによって、要約候補ごとに、プレシジョンを算出する。
【数3】
JP0005388038B2_000004t.gif

【0082】
なお、プレシジョンも、上述の意味合いを示す値であれば、上記の式以外で算出されるものであってもよい。例えば、次式で算出されてもよい。
【数4】
JP0005388038B2_000005t.gif

【0083】
また、上記の式(2)(3)の「InputWord∪RelatedWord_Iの集合」において、含まれる言語表現のユニーク処理を行ってもよく、あるいは、行わなくてもよい。ユニーク処理を行った場合には、「InputWord∪RelatedWord_Iの集合」において、異なる言語表現のみが含まれるようになるが、一方、ユニーク処理を行わない場合には、「InputWord∪RelatedWord_Iの集合」において、「のべ」の言語表現が含まれることになり、重複されたカウントがなされることになる。なお、その「のべ」のカウントでよい場合には、Count{RelatedWord_C∩(InputWord∪RelatedWord_I)}=Count{RelatedWord_C∩InputWord}+Count{RelatedWord_C∩RelatedWord_I}とできる。また、「のべ」のカウントを行う場合には、プレシジョンが1を超えることがありうる。

【0084】
上記(iii)は、文書要約で一般的に用いられる基準である。なお、本実施の形態による文書要約装置1の場合、システムの設計によって、出力される要約の長さが決まることがある。例えば、1個の単語である要約が出力される場合や、2個の単語である要約が出力される場合などがある。そのような場合には、この(iii)の基準は、用いなくてもよいことになる。

【0085】
前述したように、算出部16は、要約元文書に含まれる言語表現の集合と、第2の取得部15が取得した要約候補に関連する言語表現と、場合によっては、第1の取得部14が取得した要約候補の集合を用いて、要約候補ごとに、リコールとプレシジョンとを算出する。したがって、この算出部16による算出の結果、要約候補と、リコール及びプレシジョンとの対応を得ることができる。その要約候補と、リコール等とを対応付ける情報は、図示しない記録媒体で記憶されてもよい。

【0086】
関連特定部17は、要約元文書において、言語表現の関連を特定する。その言語表現の関連を特定する方法として、例えば、(A)前述の(1)~(3)の方法を用いる方法、(B)機械学習を用いる方法がある。以下、その各方法について説明する。なお、(A)(B)以外の方法によって、関連特定部17が要約元文書における言語表現の関連を特定してもよいことは言うまでもない。

【0087】
(A)前述の(1)~(3)の方法を用いる方法
この方法について、図2を参照して説明する。図2は、その関連特定部17の構成を示すブロック図である。関連特定部17は、関連言語表現取得手段22と、判断手段23と、特定手段24とを備える。

【0088】
関連言語表現取得手段22は、要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する。要約元文書に含まれる言語表現は、例えば、単語であってもよく、あるいは、フレーズ以上の長さを有するものであってもよい。関連言語表現を取得する際に、前述の(1)(2)の方法を用いるのであれば、要約元文書に含まれる言語表現は、例えば、単語(前述のように、品詞が決まっていてもよく、そうでなくてもよい)となり、前述の(3)の方法を用いるのであれば、要約元文書に含まれる言語表現は、フレーズ以上の長さを有するもの、例えば、フレーズや一文、段落等になる。

【0089】
また、関連言語表現取得手段22は、通常、要約元文書に含まれる一の言語表現に対して、複数の関連言語表現を取得する。また、関連言語表現取得手段22は、要約元文書に含まれる各言語表現に対して、関連言語表現を取得する処理を行う。関連言語表現取得手段22も、第1の取得部14と同様に、連想的知識や、推論的知識を用いて、言語表現に関連する関連言語表現を取得するものである。すなわち、要約元文書に含まれる言語表現から連想される言語表現や、要約元文書に含まれる言語表現から推論的に導かれる言語表現が取得されることになる。なお、このようにして取得された言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。関連言語表現取得手段22によって取得された言語表現は、図示しない記録媒体で記憶されてもよい。その言語表現の取得方法として、例えば、前述した(1)共起を用いる方法、(2)関連辞書情報を用いる方法、(3)情報検索的考え方を用いる方法がある。それらの方法については前述の通りであり、その説明を省略する。なお、(2)の方法を用いる場合には、関連言語表現取得手段22は、関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、言語表現の取得を行ってもよい。また、関連言語表現取得手段22は、上記(1)~(3)のいずれかの方法で言語表現を取得してもよく、あるいは、その(1)~(3)の任意の2以上の方法を用いて言語表現を取得してもよい。また、一の言語表現に関連する言語表現として、重複した言語表現が取得された場合には、ユニーク処理を行ってもよい。なお、(1)~(3)以外の方法によって、言語表現に関連する言語表現を取得してもよいことは言うまでもない。この関連言語表現取得手段22による言語表現の取得の処理によって、要約元文書に含まれる言語表現と、その言語表現に関連する1以上の関連言語表現との対が取得されることになる。

【0090】
判断手段23は、関連言語表現取得手段22が取得した関連言語表現が要約元文書に含まれるかどうか判断する。判断手段23は、例えば、関連言語表現を検索キーとして、要約元文書を検索することにより、その判断を行ってもよい。その検索でヒットした場合には、関連言語表現が要約元文書に含まれることになり、その検索でヒットしなかった場合には、関連言語表現が要約元文書に含まれないことになる。なお、判断手段23は、その検索でヒットした、要約元文書におけるすべての関連言語表現の箇所を特定することが好適である。

【0091】
特定手段24は、判断手段23によって、取得された関連言語表現が要約元文書に含まれると判断された場合に、要約元文書中の関連言語表現と、その関連言語表現の取得元である要約元文書中の言語表現との関連を特定する。2個の言語表現の関連を特定するとは、例えば、その2個の言語表現の位置を示す情報を対応付けて蓄積することであってもよく、その2個の言語表現を対応付けて蓄積することであってもよく、要約元文書そのものに、関連する言語表現を指し示す情報(例えば、関連する言語表現の位置を示す情報を有するタグを付与することなど)を追記することであってもよく、2個の言語表現が関連していることを示すことができる方法であれば、その関連の特定方法は問わない。また、2個の言語表現の関連を特定することには、その2個の言語表現の位置関係の特定だけでなく、両者の関連の種類を示す情報(例えば、共起の関係や、上位下位の関係、原因結果の関係等)の特定が含まれてもよい。言語表現の位置を示す情報は、例えば、要約元文書における先頭や後端からの文字数を示すものであってもよく、先頭や後端からの単語数を示すものであってもよく、その言語表現の含まれる文のIDを示すものであってもよく、その他の情報であってもよい。特定手段24は、例えば、関連言語表現取得手段22から、ある言語表現(これを言語表現Aとする)またはその位置を示す情報と、その言語表現Aに関連する1以上の関連言語表現と、その言語表現Aと関連言語表現との関連の種類を示す情報とを受け取り、また、判断手段23から、関連言語表現取得手段22が取得した言語表現Aに関連する関連言語表現であって、要約元文書に含まれる関連言語表現を受け取ってもよい。なお、判断手段23から、要約元文書に含まれる関連言語表現の位置を示す情報も受け取ってもよい。そして、特定手段24は、判断手段34から受け取った関連言語表現と、言語表現Aまたはその位置を示す情報と、その関連言語表現と言語表現Aとの関連を示す情報とを有する情報を図示しない記録媒体に蓄積してもよい。その情報には、さらに、要約元文書に含まれる関連言語表現の位置を示す情報が含まれてもよい。例えば、要約元文書が「机に向かい教科書と授業のノートを開いた。今日の復習と明日の予習をする必要がある。」である場合に、関連言語表現取得手段22が、要約元文書に含まれる単語「授業」と、その単語「授業」に類似する関連言語表現「講座」「セミナー」「講義」「予習」…と、その単語「授業」とツールの関係を有する関連言語表現「ソフト」「ノート」「教科書」「制服」…とを取得したとする。また、判断手段34が、関連言語表現のうち、「予習」「ノート」「教科書」が要約元文書に含まれると判断したとする。すると、特定手段24は、「(要約元に含まれる言語表現) (要約元文書に含まれる関連言語表現) (その関連の種類)」である「授業 予習 類似」「授業 ノート ツール」「授業 教科書 ツール」を図示しない記録媒体に蓄積してもよい。また、特定手段24は、その処理を、判断手段23から受け取ったすべての関連言語表現について行ってもよい。また、特定手段24は、それらの処理を、要約元文書に含まれるすべての言語表現について行ってもよい。

【0092】
なお、特定手段24は、要約元文書に含まれる言語表現と、その言語表現に対応する関連言語表現とのすべての関連を特定してもよく、そうでなくてもよい。例えば、後の処理において、所定の範囲間の関連(例えば、文間の関連や、段落間の関連等)のみを用いて、その範囲内における関連を用いない場合には、特定手段24は、その範囲内における関連を特定しなくてもよい。例えば、前述の「机に向かい教科書と授業のノートを開いた。今日の復習と明日の予習をする必要がある。」の例の場合に、異なる文に含まれる「授業」と「予習」の関連は特定するが、同一の文に含まれる「授業」と「ノート」の関連や、「授業」と「教科書」の関連は特定しなくてもよい。

【0093】
ここで、特定手段24によって特定された2個の言語表現のすべての関連を後述する処理において用いてもよく、あるいは、その一部の関連を後述する処理において用いてもよい。後者の場合には、例えば、特定手段24が言語表現Aと言語表現Bとの関連と、言語表現Cと言語表現Dとの関連とを特定した場合に、言語表現Aと言語表現Bとの関連は、後述する処理において用い、言語表現Cと言語表現Dとの関連は、後述する処理において用いない、というように絞り込みを行ってもよい。特定された2個の言語表現の関連のうち、一部の関連を後述する処理において用いる場合には、(A-1)ルールを用いて絞り込む方法と、(A-2)機械学習を用いて絞り込む方法とがある。以下、その各方法について説明する。なお、(A-1)(A-2)以外の方法によって、特定された2個の言語表現の関連の絞り込みを行ってもよいことは言うまでもない。また、本実施の形態では、特定手段24がその絞り込みをも行う場合について説明するが、他の構成要素、例えば、図示しない絞り込み手段等によって、その絞り込みの処理が行われてもよい。

【0094】
(A-1)ルールを用いて絞り込む方法
この方法では、特定手段24は、特定した2個の言語表現の関連のうち、ルールを用いて、一部の言語表現の関連を選択する。そのルールは、例えば、あらかじめ決められた関連(例えば、共起の関係や、上位下位の関係、原因結果の関係等)を有する関連のみを選択することであってもよく、あらかじめ決められた関連以外の関連のみを選択することであってもよく、その他のルールであってもよい。例えば、特定手段24が、2個の言語表現の位置を示す情報と、両言語表現の関連を示す情報とを蓄積した場合に、その両言語表現の関連を示す情報と、ルールとを用いて、絞り込みを行ってもよい。

【0095】
(A-2)機械学習を用いて絞り込む方法
この方法では、特定手段24は、機械学習を用いて、特定した2個の言語表現の関連のうち、一部の言語表現の関連を選択する。この機械学習の問題(入力)は、文書と、その文書に含まれる、関連があるとされた2個の言語表現とである。また、その機械学習の解(出力)は、その2個の言語表現の関連の適否である。すなわち、その解の候補(出力の候補)は、2個の言語表現の関連が適切である、あるいは、不適切である、ということになる。その機械学習の素性には、関連する2個の言語表現(この言語表現を言語表現A,Bとする)、言語表現A,Bの間の距離、言語表現A,Bのそれぞれの属性が含まれるものとする。さらに、言語表現A,Bの間の関連を示す情報(例えば、共起の関係や、上位下位の関係、原因結果の関係等)、言語表現A,Bにそれぞれ隣接する言語表現、その隣接する言語表現の属性のうち、任意の1以上のものが素性に含まれてもよい。言語表現Aに隣接する言語表現の場合には、言語表現Aの前に隣接するのか、後に隣接するのか、また、隣接する個数(言語表現Aの隣のみや、2個隣まで等)が定められていてもよい。例えば、言語表現Aの前後に隣接するそれぞれ1個ずつの言語表現を素性として用いると定められていてもよい。言語表現Bについても同様である。また、言語表現の属性は、例えば、言語表現の品詞であってもよく、活用形のある品詞の場合には、活用形も含んでもよく、言語表現の上位語であってもよく、その他の属性であってもよい。また、この方法で用いる素性として、後述する(B)の素性を用いてもよい。

【0096】
また、その機械学習で用いられる教師データ(訓練データ)は、2個の言語表現の関連の適否示す情報(すなわち、関連しているか、関連していないかの情報)と、前述の問題(すなわち、文書と、その文書に含まれる2個の言語表現)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。文書の分野とは、例えば、報道の分野、特許の分野、経済の分野、政治の分野、技術の分野などであり、さらにもっと詳細に分かれていてもよい。

【0097】
教師データを用いた学習の後に、判断の対象となる、要約元文書と、その要約元文書において特定された2個の言語表現とを入力すると、その2個の言語表現に関する素性の各値が取得され、その2個の言語表現の関連が適切なものであるかどうかと、その確信度とが出力される。したがって、特定手段24は、適切であると判断された2個の言語表現の関連を残し、不適切であると判断された2個の言語表現の関連を破棄してもよい。また、特定手段24は、適切であると判断された2個の言語表現のうち、確信度が高いもののみを残して、その他を破棄してもよい。確信度が高いものとは、確信度が最も高いものから所定の個数のものであってもよく、確信度がしきい値以上のものであってもよい。そのしきい値は、あらかじめ決められたものであってもよく、最大の確信度に1よりも小さい係数(例えば、0.9や0.8など)をかけた値であってもよい。

【0098】
なお、ここでは、教師データとして2個の言語表現の関連の適否を示す情報を用いる場合について説明したが、それに代えて、2個の言語表現の関連が表示された要約元文書において、その2個の言語表現の関連を表示することの適否を示す情報を用いてもよい。なお、2個の言語表現の関連が表示された要約元文書とは、例えば、その2個の関連する言語表現が線や矢印で結ばれた要約元文書や、2個の関連する言語表現に対して同じ強調表示がなされた要約元文書、2個の関連する言語表現に対して同じ文字や記号の付与された要約元文書等である。なお、強調表示とは、例えば、色を付与することであってもよく、網掛けをすることであってもよく、下線の付与や太字にすること、斜体にすること、点滅させることなどであってもよい。また、同じ文字や記号を付与するとは、例えば、2個の関連する言語表現のそれぞれの右や左に、(1)や(2)等の文字を付与したり、□や△等の記号を付与したりすることであってもよい。それらの文字や記号は、上付きや下付きによって表示されてもよい。また、その2個の関連する言語表現の関連の種類も表示されるようにしてもよい。例えば、線や矢印によって2個の言語表現の関連を表示する場合には、その線や矢印に対応付けて関連の種類を表示してもよい。また、強調表示によって2個の言語表現の関連を表示する場合には、強調表示の種類ごとに関連を変更してもよい。例えば、斜体は共起の関連であり、下線は上位下位の関連である等である。また、文字や記号を付与することによって2個の言語表現の関連を表示する場合には、その付与する文字や記号に関連の種類を含めるようにしてもよい。例えば、「(1)共起」「(2)上位下位」等の文字や記号が関連する2個の言語表現のそれぞれに付与されてもよい。このようにすることで、2個の言語表現に関連があったとしても、その関連を表示することが適切であるかどうかを含めて、関連の適否が判断されることになる。例えば、たとえ上位下位の関係のある2個の言語表現であったとしても、両者が長い文書の先頭付近と後端付近にそれぞれ位置する場合には、両者の関連を表示することが適切でないと判断することもできる。

【0099】
(A-2の変形例)関連の集合を選択する方法
この方法では、特定手段24は、機械学習を用いて、2個の言語表現の関連の集合のうち、一の集合を選択する。この機械学習の方法では、個々の関連について判断を行うのではなく、関連の集合について判断を行うことになる。なお、関連の集合そのものについての判断であってもよく、あるいは、その関連の集合を要約元文書において表示したものについての判断であってもよい。2個の言語表現の関連を要約元文書で表示する方法は、前述の通りである。この機械学習の問題は、文書と、その文書に含まれる、2個の言語表現の関連の集合である。また、その機械学習の解は、その2個の言語表現の関連の集合の適否である。すなわち、その解の候補は、2個の言語表現の関連の集合が適切である、あるいは、不適切である、ということになる。なお、2個の言語表現の関連の集合は、例えば、特定手段24が特定したすべての関連から、ルールを用いて生成したものである。そのルールは、例えば、あらかじめ決められた関連の種類を削除するものであってもよく、あらかじめ決められた関連の種類のみを抽出するものであってもよい。そのあらかじめ決められた関連の種類は、複数の関連の種類であってもよい。なお、その素性は、前述の(A-2)で説明した素性であってもよく、さらにその素性に、含まれる関連の種類の個数、関連の個数、ある関連の種類の有無、関連する2個の言語表現間の距離の平均や合計の任意の1以上のものが含まれてもよい。

【0100】
また、その機械学習で用いられる教師データは、2個の言語表現の関連の集合の適否を示す情報、あるいは、2個の言語表現の関連の集合を要約元文書において表示したものの適否を示す情報と、前述の問題(すなわち、文書と、その文書に含まれる2個の言語表現の集合)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。

【0101】
教師データを用いた学習の後に、判断の対象となる、要約元文書と、その要約元文書において特定された2個の言語表現のすべての関連から、前述のルールと同じルールを用いて生成した、2個の言語表現の関連のいくつかの集合とを入力すると、その集合に関する素性の各値が取得され、その各集合が適切なものであるかどうかと、その確信度とが出力される。したがって、特定手段24は、適切であると判断された集合を選択して、それ以外の集合を破棄してもよい。適切であると判断された集合が2以上存在する場合には、確信度を用いた絞り込みを行ってもよい。例えば、適切であると判断された集合のうちの最も確信度の高いものを残すようにしてもよい。

【0102】
例えば、判断の対象となる関連の集合(すなわち、要約元文書に含まれるすべての関連を特定したものから、ルールを用いて生成された関連の集合)として、20個の関連の集合と、10個の関連の集合とが存在したとする。また、機械学習において、関連の数の多い集合は不適切であると学習されていたとする。すると、その関連の集合として、10個の関連の集合のほうが適切であると判断され、20個の関連の集合のほうが不適切であると判断されることになる。その結果、例えば、特定手段24は、10個の関連の集合を選択し、20個の関連の集合を破棄してもよい。

【0103】
(B)機械学習を用いる方法
この方法では、関連特定部17は、機械学習を用いて要約元文書における言語表現の関連を特定する。この機械学習の問題は、文書と、その文書に含まれる2個の言語表現とである。また、その機械学習の解は、その2個の言語表現の関連の有無である。すなわち、その解の候補は、2個の言語表現に関連がある、あるいは、関連がない、ということになる。その機械学習の素性には、2個の言語表現(この言語表現を言語表現A,Bとする)、言語表現A,Bの間の距離、言語表現A,Bのそれぞれの属性が含まれるものとする。さらに、言語表現A,Bの間の関係を示す情報(例えば、共起の関係や、上位下位の関係、原因結果の関係等)、言語表現A,Bにそれぞれ隣接する言語表現、その隣接する言語表現の属性のうち、任意の1以上のものが素性に含まれてもよい。言語表現Aに隣接する言語表現の場合には、言語表現Aの前に隣接するのか、後に隣接するのか、また、隣接する個数(言語表現Aの隣のみや、2個隣まで等)が定められていてもよい。また、この方法で用いる素性として、前述の(A-2)の素性を用いてもよい。

【0104】
また、その機械学習で用いられる教師データは、2個の言語表現が関連を有するものであるかどうかを示す情報と、前述の問題(すなわち、文書と、その文書に含まれる2個の言語表現)から取得された、前述の素性の各値とである。その教師データの数は、多い方が好適であることは当然であり、例えば、最低100個以上はあったほうがよく、通常、1万個以上ある方がよいと考えられる。他の教師データについても同様である。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。

【0105】
教師データを用いた学習の後に、判断の対象となる要約元文書と、その要約元文書から抽出した任意の2個の言語表現とを入力すると、その2個の言語表現に関する素性の各値が取得され、その2個の言語表現が関連を有するかどうかと、その確信度とが出力される。したがって、関連特定部17は、要約元文書に含まれるすべての2個の言語表現のペアについてその処理を行い、関連を有すると判断された2個の言語表現の関連を特定してもよい。2個の言語表現の関連を特定することについては、前述の特定手段24による方法と同様であり、その説明を省略する。また、特定手段24と同様に、機械学習で関連する言語表現を特定する場合においても、関連特定部17は、要約元文書に含まれる言語表現と、その言語表現に対応する関連言語表現とのすべての関連を特定してもよく、そうでなくてもよい。

【0106】
選択部18は、算出部16が要約候補ごとに算出したリコールとプレシジョンとを用いて、要約元文書の要約を選択する。すなわち、要約候補ごとのリコール及びプレシジョンを用いて、選択部18は、要約元文書の要約として適切な要約候補を選択する。そして、その選択した要約候補が、要約元文書の要約となる。選択部18は、1個の要約を選択してもよく、あるいは、2個以上の要約を選択してもよい。また、選択部18が選択した要約は、図示しない記録媒体において記憶されてもよい。その要約を選択する方法として、例えば、(あ)ルールを用いる方法、(い)機械学習を用いる方法がある。以下、その各方法について説明する。なお、(あ)(い)以外の方法によって、選択部18が要約の選択を行ってもよいことは言うまでもない。

【0107】
(あ)ルールを用いる方法
この方法では、選択部18は、要約候補と、リコールと、プレシジョンとの組合せから、ルールを用いて、要約を選択する。そのルールは、例えば、リコールとプレシジョンとに関するルールであってもよく、リコールとプレシジョンとを引数とする関数の値に関するルールであってもよく、あるいは、その他のルールであってもよい。

【0108】
例えば、選択部18は、リコールが最大値である要約候補のうち、プレシジョンが最大値である要約候補を要約として選択してもよい。具体的には、選択部18は、要約候補と、リコールと、プレシジョンとの組合せをリコールの降順になるようにソートし、そのソート後に、リコールが同じ値である組合せについて、プレシジョンの降順になるようにソートする。そして、選択部18は、1番目の組合せに含まれる要約候補を要約として選択してもよい。なお、N個(Nは2以上の整数)の要約を選択する場合には、そのソートの後に、1番目からN番目までの要約候補を要約として選択してもよい。また、例えば、選択部18は、プレシジョンが最大値である要約候補のうち、リコールが最大値である要約候補を要約として選択してもよい。この場合には、リコールとプレシジョンとを入れ替えることによって、前述の方法と同様にして要約を選択できる。また、例えば、選択部18は、リコールとプレシジョンとを引数として有する関数であるF値が最大値である要約候補を要約として選択してもよい。具体的には、選択部18は、要約候補と、リコールと、プレシジョンとの組合せごとに、F値を算出し、そのF値の昇順になるようにソートする。そして、選択部18は、1番目または1番目からN番目の組合せに含まれる要約候補を要約として選択してもよい。ここで、F値は、次式で算出される。
【数5】
JP0005388038B2_000006t.gif

【0109】
(い)機械学習を用いる方法
この方法では、選択部18は、機械学習によって選択を行う。この機械学習の問題は、要約候補と、その要約候補のリコール、その要約候補のプレシジョンである。また、その問題に、要約元文書、要約元文書において関連特定部17によって関連が特定された2個の言語表現、2個の言語表現の集合等のうち、任意の1以上のものが含まれてもよい。また、その機械学習の解は、要約候補の適否である。すなわち、その解の候補は、要約候補が適切である、あるいは、要約候補が不適切である、ということになる。その機械学習の素性には、要約候補、その要約候補のリコール、その要約候補のプレシジョン、要約候補の属性情報が少なくとも含まれるものとする。要約候補の属性情報とは、要約候補の品詞であってもよく、要約候補の上位語であってもよく、その他の属性の情報であってもよい。さらに、要約候補の長さ(例えば、文字数であってもよく、単語数であってもよい)、要約候補の取得の元となった言語表現、その言語表現の属性(例えば、品詞や上位語など)のうち、任意の1以上のものが素性に含まれてもよい。なお、素性において要約候補の取得元の言語表現やその言語表現に関する情報をも用いる場合には、第1の取得部14は、抽出部12によって抽出された言語表現(この言語表現が、要約候補の取得元の言語表現となる)と、その言語表現に対して取得した要約候補とを対応付けておくようにしてもよい。また、その要約候補についてユニーク処理を行う場合には、一の要約候補に一以上の取得元の言語表現が対応するようにユニーク処理を行うことが好適である。また、選択部18は、関連特定部17が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行ってもよい。関連特定部17が特定した言語表現間の関連に関する情報とは、例えば、要約候補の取得元の言語表現に関して、関連特定部17によって特定された関連に関するスコア(後述する)、要約候補の取得元となった言語表現が複数存在する場合には、その複数の言語表現に対するそのスコアの平均や合計値、最大値、最小値、要約候補の取得元の言語表現(または、その言語表現の含まれる文や段落等の文書範囲)が他の言語表現や文書範囲と関連するその関連の種類、その関連の種類の数、要約候補の取得元の言語表現が関連している、要約元文書における他の言語表現や、その言語表現の属性のうち、任意の1以上のものであってもよい。また、第1の取得部14で要約候補を取得する際の関連の種類(例えば、共起や上位下位、原因結果等)ごと、あるいはそれらの任意の2以上の組合せごとのリコールや、プレシジョン、また第2の取得部15で要約候補に関連する言語表現を取得する際の関連の種類(例えば、共起や上位下位、原因結果等)ごと、あるいはそれらの任意の2以上の組合せごとのリコールやプレシジョンのうち、任意の1以上のものが素性に含まれてもよい。その任意の2以上の組合せは、機械学習で最も効果的な組合せになるように設定を行ってもよい。また、要約候補に関連する言語表現、すなわち、第2の取得部15が取得した言語表現のうち、要約元文書に含まれる言語表現や、その言語表現の属性(例えば、品詞や上位語)、その要約候補と要約元文書に含まれる言語表現との関連の種類(例えば、共起や上位下位、原因結果等)、その要約候補と関連する言語表現であって、要約元文書に含まれる言語表現の個数のうち、任意の1以上のものが素性に含まれてもよい。

【0110】
ここで、関連特定部17によって特定された関連に関するスコアについて説明する。このスコアの算出は、選択部18によって行われてもよく、あるいは、他の構成要素によって行われてもよい。ここでは、選択部18がスコアの算出を行う場合について説明する。このスコアは、要約元文書のあらかじめ決められた文書の範囲ごとに算出されるものとする。例えば、その文書の範囲は、文であってもよく、段落であってもよく、その他の範囲(例えば、何らかの区切り記号によって区切られる節や章などの範囲等)であってもよい。また、関連特定部17は、その要約元文書において、言語表現の関連を特定しているものとする。そして、選択部18は、ある文書の範囲(これを文書の範囲Aとする)のスコアを、関連特定部17によって特定された、その文書の範囲Aに含まれる言語表現と、他の文書の範囲に含まれる言語表現との関連の数としてもよい。すなわち、他の文書の範囲に含まれる言語表現と関連している言語表現を多く有する文書の範囲ほど、より高スコアとなるようにしてもよい。例えば、論文の評価において、他の論文でより多く引用されたものほどより評価が高いとする考え方があるが、このスコアも、それと類似のものである。例えば、要約元文書が文書の範囲A,B,C,Dを含む場合であって、文書の範囲Aに含まれる言語表現と、文書の範囲B,C,Dに含まれる言語表現との関連の数が、15であったとする。すると、文書の範囲Aのスコアは、「15」となる。また、文書の範囲Bに含まれる言語表現と、文書の範囲A,C,Dに含まれる言語表現との関連の数が、5であったとする。すると、文書の範囲Bのスコアは、「5」となる。例えば、関連特定部17が特定した関連が「授業 ノート ツール」で示される場合には、選択部18は、単語「授業」「ノート」がそれぞれ含まれる文書の範囲を特定し、そして、その文書の範囲間の関連の数を1だけインクリメントする、という処理をすべての特定された関連について実行することによって、文書の範囲間の関連数を算出してもよい。なお、その文書の範囲Aのスコアに、文書の範囲Aの内部における言語表現間の関連の数を含めてもよい。例えば、前述の例の場合であって、文書の範囲Aの内部において2個の言語表現の関連の数が「3」である場合には、文書の範囲Aのスコアを「18(=15+3)」としてもよい。また、関連の種類に応じて重み付けを行ってもよい。例えば、共起の関連であれば一つの関連を「2」にカウントし、上位下位の関連であれば一つの関連を「0.5」にカウントしてもよい。

【0111】
また、その機械学習で用いられる教師データは、要約候補の適否を示す情報と、前述の問題(すなわち、要約候補と、リコール及びプレシジョンと、必要に応じたその他の情報)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とが同じである方が好適であることは、前述の機械学習の場合と同様である。

【0112】
教師データを用いた学習の後に、判断の対象となる、要約候補と、その要約候補のリコール及びプレシジョンと、必要に応じたその他の情報とを入力すると、素性の各値が取得され、その要約候補が適切であるかどうかと、その確信度とを得ることができる。したがって、選択部18は、すべての要約候補について、その要約候補が適切であるかどうかと、その確信度とを得た後に、適切であると判断された要約候補であって、確信度の最も高い要約候補、あるいは、適切であると判断された要約候補であって、確信度の上位からN個(Nは2以上の整数)の要約候補を選択してもよい。前者の場合は、1個の要約のみを選択する場合であり、後者の場合は、N個の要約を選択する場合である。

【0113】
出力部19は、選択部18が選択した要約を出力する。この出力を行うことによって、ユーザは、要約の結果を知ることができるようになる。なお、出力部19は、1個の言語表現(要約)のみを出力してもよく、あるいは、2個以上の言語表現(要約)を出力してもよい。後者の場合には、出力部19は、例えば、後述する特定部21が特定した言語表現をも出力してもよく、後述する特定部21が特定した言語表現を、抽出された言語表現と同様にして用いて処理が行われることによって選択された言語表現である要約をも出力してもよい。なお、特定部21が特定した言語表現を出力部19が出力する場合には、その言語表現をも要約と呼ぶものとする。また、出力部19が2個以上の言語表現(要約)を出力する場合には、1回目の出力時には、出力対象となる要約を後述する第3の取得部20に渡す(すなわち、構成要素間での引き渡し)のみであり、2回目以降の最後の出力時に、それまでの出力対象となった要約のすべてを一括してユーザに提示するように出力してもよい。その場合には、以前に出力対象となった要約が、図示しない記録媒体において一時的に記憶されていてもよい。また、選択が機械学習によって行われる場合には、要約の確信度をも出力してもよい。また、2個以上の言語表現を出力する場合、例えば、選択部18が選択した要約と、特定部21が特定した要約を出力する場合や、あるいは、選択部18が2度以上にわたって選択した要約を出力する場合には、その要約間に助詞を補って出力してもよい。その助詞を補う方法について説明する。その助詞を補う場合には、1以上のパターン、例えば、「(要約)の(要約)」「(要約)に(要約)」「(要約)が(要約)」「(要約)が(要約)を(要約)」等を用いて、そのパターンに出力対象の要約を挿入することによって、助詞を補った要約を生成してもよい。

【0114】
(イ)出力部19は、ルールを用いて、助詞を補ってもよい。例えば、「(固有名詞)の(一般名詞)」「(普通名詞)が(サ変名詞)」などのようなパターンが用意されていた場合には、出力部19が要約A,Bを出力する際に、要約Aと、要約Bとの品詞を取得し、その品詞を当てはめることができるパターンを選択して、そのパターンに要約を挿入して出力してもよい。

【0115】
(ロ)出力部19は、要約をパターンに挿入し、その挿入後のパターンが自然なものであるかどうか判断し、自然なものである場合に出力してもよい。例えば、出力部19は、「(要約)の(要約)」などのような複数のパターンに、選択されたり、特定されたりした要約を挿入する。その場合に、すべての組合せを網羅するように、要約の挿入を行う。例えば、要約A,Bが出力対象である場合には、出力部19は、「AのB」や、「BのA」「AがB」「BがA」「AにB」「BにA」のように要約の挿入を行う。その後、出力部19は、その要約を挿入した後のものが、自然であるかどうか判断する。その判断は、例えば、要約を挿入した後のパターンでインターネットやその他のデータベースを検索し、検索のヒット数が最も多いものを自然なものであると判断してもよい。そして、出力部19は、自然なものであると判断したものを出力してもよい。また、例えば、その検索にNグラムを用いてもよい。

【0116】
(ハ)出力部19は、機械学習を用いて、助詞を補った要約を決定して出力してもよい。この機械学習の問題は、2以上の言語表現(要約)と、その言語表現(要約)の挿入されたパターン(すなわち、助詞の補われた2以上の言語表現)とである。また、その機械学習の解は、その要約の挿入されたパターンの適否である。すなわち、その解の候補は、要約の挿入されたパターンが適切である、あるいは、不適切である,ということになる。その機械学習の素性には、言語表現(要約)そのものと、その言語表現(要約)の属性(例えば、品詞や上位語など)と、パターンに言語表現(要約)を挿入したもの(例えば、「AのB」など)とが含まれてもよい。また、さらに、パターンに言語表現(要約)を挿入したものであって、一の言語表現(要約)と助詞のみを含むもの(例えば、「Aの」と「のB」)、前記(ロ)の方法で取得したヒット数のうち、任意の一以上のものが素性に含まれてもよい。

【0117】
また、その機械学習で用いられる教師データは、パターンに要約を挿入したものの適否を示す情報と、前述の問題(すなわち、2以上の要約と、その要約の挿入されたパターン)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する言語表現の分野とは、同じであるほうが好適である。また、パターンに言語表現を挿入する際には、通常、何通りかの方法がありうる。したがって、その何通りかの方法のそれぞれについて、教師データを用意するものとする。例えば、パターン「(要約)の(要約)」であれば、言語表現A,Bを挿入する際に、「AのB」と「BのA」とがある。その場合には、「AのB」に対する適否を示す情報と、素性の各値を教師データとすると共に、「BのA」に対する適否を示す情報と、素性の各値を教師データとするものとする。

【0118】
教師データを用いた学習の後に、出力する対象となる要約(言語表現)と、その要約をパターンに挿入したものとを入力すると、素性の各値が取得され、そのパターンに要約を挿入したものが適切であるかどうかと、その確信度とが出力される。この場合にも、パターンに要約を挿入するすべての方法(例えば、要約がC,Dであり、パターンが「(要約)の(要約)」である場合には、「CのD」と「DのC」の両方)について、適切であるかどうかとその確信度とを得るものとする。したがって、出力部19は、適切であると判断され、最も確信度の高いものを出力する。なお、助詞を補って出力するのは、用いている言語が日本語などのように助詞を有するものである場合のみである。英語のように助詞のない言語の場合には、助詞を補う処理そのものを行わなくてもよい。

【0119】
また、出力部19は、要約(前述の助詞が付加されていてもよい)のみを出力してもよく、要約と、その要約である言語表現の取得元である要約元文書の言語表現とを出力してもよく、要約と、その要約の取得元である言語表現と、両者の対応を示すもの(例えば、要約を終点とし、その要約の取得元である言語表現を始点とする矢印など)とを出力してもよく、要約と、その要約の取得元である言語表現と、両者の対応を示すものと、その要約と要約の取得元である言語表現との関連の種類(例えば、共起や上位下位、原因結果等)とを出力してもよく、要約と、その要約の取得元である言語表現と、両者の関連の種類とを出力してもよい。また、出力部19は、要約元文書そのものも出力し、ユーザが、要約元文書と、その要約との両方を一括して知ることができるようにしてもよい。なお、出力部19が助詞を補った要約を出力する場合であっても、後述する第3の取得部20に対しては、助詞を補う前の要約を出力する(渡す)ものとする。

【0120】
第3の取得部20は、出力部19が出力した要約に関連する言語表現を取得する。通常、第3の取得部20は、要約候補に関連する複数の言語表現を取得する。また、出力部19が複数の要約を出力した場合には、第3の取得部20は、各要約について、関連する言語表現の取得を行う。第3の取得部20も、第1の取得部14と同様に、連想的知識や、推論的知識を用いて、要約候補に関連する言語表現を取得するものである。すなわち、出力された要約から連想される言語表現や、出力された要約から推論的に導かれる言語表現が取得されることになる。なお、このようにして取得された言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。第3の取得部20によって取得された言語表現は、図示しない記録媒体で記憶されてもよい。その言語表現の取得方法として、例えば、前述した(1)共起を用いる方法、(2)関連辞書情報を用いる方法がある。それらの方法については前述の通りであり、その説明を省略する。なお、(2)の方法を用いる場合には、第3の取得部20は、関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、言語表現の取得を行ってもよい。また、第3の取得部20は、上記(1)(2)のいずれかの方法で言語表現を取得してもよく、あるいは、その両方を用いて言語表現を取得してもよい。また、一の要約に関連する言語表現として、重複した言語表現が取得された場合には、ユニーク処理を行ってもよい。なお、(1)(2)以外の方法によって、要約に関連する言語表現を取得してもよいことは言うまでもない。この第3の取得部20による言語表現の取得の処理によって、要約と、その要約に関連する1以上の言語表現との対が取得されることになる。また、第3の取得部20が言語表現を取得する方法は、第1の取得部14や第2の取得部15が要約候補を取得する方法と同じであってもよく、あるいは、異なっていてもよい。前者の場合には、例えば、第1の取得部14、第2の取得部15及び第3の取得部20が、(1)共起を用いる方法によって言語表現の取得を行ってもよい。また、後者の場合には、例えば、第1の取得部14及び第2の取得部15は、(1)共起を用いる方法によって要約候補を取得し、第3の取得部20は、(2)関連辞書情報を用いる方法によって言語表現を取得してもよい。また、第3の取得部20が、第2の取得部15と同じ方法によって、要約に関連する言語表現を取得する場合には、第2の取得部15が取得した結果と同様の結果を取得することになる。したがって、その場合には、第2の取得部15の取得結果を図示しない記録媒体で保持しておき、第3の取得部20は、その保持されている取得結果から必要なものを選択することによって、要約に関連する言語表現を取得してもよい。

【0121】
特定部21は、抽出部12が抽出した言語表現のうち、第3の取得部20が取得した言語表現に含まれないものを特定する。例えば、特定部21は、抽出部12が抽出した各言語表現を検索キーとして、第3の取得部20が取得した言語表現の集合を検索し、ヒットした場合には、その検索キーを特定せず、ヒットしなかった場合には、その検索キーを、抽出された言語表現であって、第3の取得部20が取得した言語表現に含まれないものとして特定してもよい。なお、言語表現を特定するとは、結果として、特定されなかった言語表現と、特定された言語表現とを区別できるのであれば、その方法は問わない。例えば、特定部21は、特定対象となる言語表現を、図示しない記録媒体に蓄積してもよく、あるいは、特定対象となる言語表現に対して、フラグ等を設定してもよい。なお、特定部21が特定する言語表現は、通常、単語である。したがって、抽出部12によって、フレーズ以上の長さを有する言語表現が抽出されている場合であっても、この特定部21による特定を行うために、それとは別途、抽出部12によって、単語である言語表現の抽出も行われていることが好適である。

【0122】
この特定部21が特定する言語表現は、抽出部12によって抽出された言語表現であって、出力部19が出力する要約と関連のない言語表現である。したがって、出力部19が出力する要約によって取り落とされた言語表現であって、要約元文書に含まれる言語表現が、特定部21によって特定されることになる。その特定部21によって特定された言語表現を用いる方法としては、例えば、(α)そのまま出力する方法、(β)再度、要約に用いる方法がある。

【0123】
(α)そのまま出力する方法の場合には、特定部21が特定した言語表現を、前述のように、出力部19が要約として出力する場合がある。例えば、要約元文書「首都で爆弾が爆発した。死傷者が出た。反政府運動がきっかけである。」に対して選択された要約が「テロ」であり、特定部21が特定した言語表現が「首都」である場合には、出力部19は、要約「テロ」「首都」を出力してもよい。

【0124】
(β)再度、要約に用いる方法の場合には、特定部21が特定した言語表現に対しても、第1の取得部14による要約候補の取得、第2の取得部15による要約候補に関連する言語表現の取得、算出部16によるリコール及びプレシジョンの算出、選択部18による要約の選択、出力部19による選択された要約の出力の各処理を行ってもよい。その後、さらに、その2度目に出力された要約に関連する言語表現の第3の取得部20による取得と、抽出部12によって抽出された言語表現のうち、第3の取得部20が1回目及び2回目に取得した言語表現に含まれないものの特定と、その特定された言語表現に対応する要約を生成する一連の処理が繰り返して実行されてもよい。このようにすることで、要約元文書が長いものであり、一の言語表現で端的に要約できない場合であっても、複数の言語表現を用いて適切に要約を行うことができるようになりうる。なお、例えば、要約を生成する処理を繰り返す回数はあらかじめ決められていてもよく、あるいは、特定部21によって特定される言語表現があらかじめ決められた数以下になるまで、要約を生成する処理が繰り返されてもよい。

【0125】
次に、本実施の形態による文書要約装置1の動作について、図3のフローチャートを用いて説明する。なお、このフローチャートでは、特定部21が特定した言語表現を出力部19が出力する場合について説明する。

【0126】
(ステップS101)抽出部12は、要約元文書記憶部11で記憶されている要約元文書を読み出し、その要約元文書から言語表現を抽出する。その抽出された言語表現は、図示しない記録媒体で記憶されてもよい。

【0127】
(ステップS102)第1の取得部14は、抽出部12が抽出した各言語表現に対して、要約候補を取得する。なお、その取得の方法は、前述の(1)~(3)の任意の1以上の組合せであってもよい。また、その取得された要約候補は、図示しない記録媒体で記憶されてもよい。

【0128】
(ステップS103)算出部16は、カウンタiを1に設定する。

【0129】
(ステップS104)第2の取得部15は、i番目の要約候補に関連する言語表現を取得する。なお、その取得の方法は、前述の(1)(2)の任意の1以上の組合せであってもよい。また、その取得された言語表現は、図示しない記録媒体で記憶されてもよい。

【0130】
(ステップS105)算出部16は、i番目の要約候補について、ステップ104で取得された言語表現と、抽出部12が抽出した言語表現とを用いて、i番目の要約候補に対応するリコールやプレシジョンの値を算出する。なお、算出部16は、場合によっては、第1の取得部14が取得した要約候補の集合をも用いて、そのリコール等の算出を行ってもよい。その算出されたリコール等は、図示しない記録媒体で記憶されてもよい。

【0131】
(ステップS106)算出部16は、カウンタiを1だけインクリメントする。

【0132】
(ステップS107)算出部16は、i番目の要約候補が存在するかどうか判断する。そして、存在する場合には、ステップS104に戻り、そうでない場合には、ステップS108に進む。

【0133】
(ステップS108)選択部18は、算出部16が算出したリコール等を用いて、要約候補から要約を選択する。なお、その選択は、前述のように、ルールを用いて行ってもよく、機械学習によって行ってもよい。機械学習を用いる場合であって、要約元文書において特定された関連に関する情報をも用いる場合には、関連特定部17は、前述のように、要約元文書において関連を特定する処理を行ってもよい。その処理については、図4のフローチャートを用いて後述する。なお、要約元文書において関連を特定する処理は、このステップS108よりも以前に実行されるのであれば、その処理の実行のタイミングは問わない。

【0134】
(ステップS109)出力部19は、選択部18が選択した要約を図示しない記録媒体に蓄積すると共に、第3の取得部20に引き渡す。

【0135】
(ステップS110)第3の取得部20は、出力部19から受け取った要約に関連する言語表現を取得する。なお、その取得の方法は、前述の(1)(2)の任意の1以上の組合せであってもよい。また、その取得された言語表現は、図示しない記録媒体で記憶されてもよい。

【0136】
(ステップS111)特定部21は、抽出された言語表現であって、第3の取得部20によって取得されなかった言語表現を特定する。その特定された言語表現は、図示しない記録媒体で記憶されてもよい。

【0137】
(ステップS112)出力部19は、ステップS109で蓄積した要約と、特定部21が特定した要約とをユーザに対して出力する。なお、その出力の際に、助詞を補ってもよいことは前述の通りである。そして、要約を生成する一連の処理は終了となる。

【0138】
図4は、関連特定部17が要約元文書における言語表現の関連を特定する処理の詳細を示すフローチャートである。なお、図4のフローチャートでは、前述の(A)の方法によって関連を特定する場合について説明するが、関連特定部17が機械学習によって関連を特定してもよいことは前述の通りである。

【0139】
(ステップS201)関連言語表現取得手段22は、要約元文書における言語表現を特定する。その特定された言語表現は、図示しない記録媒体で記憶されてもよい。

【0140】
(ステップS202)関連言語表現取得手段22は、ステップS201で特定した各言語表現に対して、その言語表現に関連する関連言語表現を取得する。その取得された関連言語表現は、図示しない記録媒体で記憶されてもよい。なお、関連言語表現が蓄積される際には、その関連言語表現の取得元である、要約元文書に含まれる言語表現と対応付けて蓄積されることが好適である。

【0141】
(ステップS203)判断手段23は、カウンタiを1に設定する。

【0142】
(ステップS204)判断手段23は、ステップS202で取得された関連言語表現のうち、i番目の関連言語表現が要約元文書に含まれるかどうか判断する。そして、含まれる場合には、ステップS205に進み、そうでない場合には、ステップS206に進む。

【0143】
(ステップS205)特定手段24は、i番目の関連言語表現と、その関連言語表現の取得元である要約元文書中の言語表現との関連を特定する。

【0144】
(ステップS206)判断手段23は、カウンタiを1だけインクリメントする。

【0145】
(ステップS207)判断手段23は、ステップS202で取得された関連言語表現に、i番目の関連言語表現が含まれるかどうか判断する。そして、含まれる場合には、ステップS204に戻り、そうでない場合には、要約元文書において関連を特定する一連の処理は終了となる。

【0146】
次に、本実施の形態による文書要約装置1の動作について、具体例を用いて説明する。この具体例では、関連は共起であるとする。したがって、この具体例の場合には、関連辞書情報記憶部13を用いないため、文書要約装置1は、関連辞書情報記憶部13を備えていなくてもよい。また、リコールは、前述の式(1)で算出し、プレシジョンは、前述の式(3)で算出する場合について説明する。また、言語表現は、名詞の単語であるとする。なお、連続した名詞は、一の名詞として取り扱うものとする。また、この具体例では、選択部18は、ルールを用いて選択を行うものとする。そのルールは、リコールが最大値である要約候補のうち、プレシジョンが最大値である要約候補を要約として選択する、というものであるとする。したがって、この具体例の場合には、関連特定部17を用いないため、文書要約装置1は、関連特定部17を備えていなくてもよい。

【0147】
要約元文書記憶部11では、要約元文書「できるだけ良い企業に内定をもらうため、面接の練習を毎日行う。」が記憶されているとする。そして、文書要約の処理が開始されると、抽出部12は、その要約元文書に対して形態素解析を行い、品詞が名詞である形態素「企業」「内定」「ため」「面接」「練習」「毎日」を抽出して、図示しない記録媒体に蓄積する(ステップS101)。次に、第1の取得部14は、抽出された各名詞と共起する単語(共起語)を、共起頻度の上位50語まで取得し、図示しない記録媒体に蓄積する(ステップS102)。なお、この具体例では、共起は、一文の範囲で判断されるものとする。抽出された各名詞に対して、次のように共起語が得られた。この共起語が要約候補である。なお、ユニーク処理後の要約候補の数は、「241個」であった。

【0148】
企業:社会,紹介,客,多く,個人,提供,責任,情報,日本,皆様…
内定:企業,女性,就職活動,情報,説明会,試験,学生,会社,書籍,雑誌…
ため:共起語なし
面接:自己PR,質問,転職,際,会社,採用,今日,ポイント,履歴書,試験…
練習:今日,成果,参加,毎日,試合,時間,私,日,日々,曲…
毎日:更新,生活,維持,仕事,食事,熟女,チェック,私,情報,メール…

【0149】
次に、第2の取得部15は、各要約候補の共起語を取得し、算出部16は、リコールとプレシジョンとを算出する(ステップS103~S107)。ここでは、要約候補「自己PR」「就職活動」について、リコール等を算出する処理を具体的に説明する。

【0150】
第2の取得部15は、要約候補「自己PR」に関連する単語として、その要約候補「自己PR」の共起語であり、共起頻度の上位50語までの単語を取得するものとする。すると、次の共起語が得られた。
「自己PR」の共起語:面接ポイント,履歴書,書き,志望動機,自信,例文,自己分析,私,エントリーシート,日記,考え,記入,セオリー,自分,版,雇用条件,効果,あなた,職務経歴書,例,言葉,仕方,面接対策,入力,掲載,仕事,就職活動,アピール,就職,作成,内容,相手,具体,方法,魅力,自己紹介,写真,テーマ,登録画面,希望日,下部,差,転職,究極,学生,メール,質問,投稿,欄,事務系職種

【0151】
この場合には、InputWordの個数は、「企業」「内定」「ため」「面接」「練習」「毎日」の「6個」である。したがって、Count{InputWord}=6である。また、RelatedWord、すなわち、「自己PR」の共起語は前述のように「50個」であるため、Count{RelatedWord}=50となる。また、InputWordと、RelatedWordとの共通部分は、「面接」のみであるため、Count{RelatedWord∩InputWord}=1となる。また、RelatedWordとCandidateと共通する単語は、31個であったとする。すると、Count{RelatedWord∩(InputWord∪Candidate)}=32となる。したがって、算出部16は、リコール=1/6=0.167と、プレシジョン=32/50=0.640とを算出し、それらを要約候補「自己PR」に対応付けて蓄積する。

【0152】
次に、要約候補「就職活動」について、リコール等が算出される処理について説明する。第2の取得部15は、要約候補「就職活動」の共起語を、共起頻度の上位50語まで取得する。すると、次の共起語が得られたとする。
「就職活動」の共起語:学生,情報,機能,ML,応援,支援,内定,求人情報,基本,時期,個人,多数,私,皆さん,皆様,サポート,開始,サイト,あなた,誰,自分,大学生,アドバイス,成功,提供,面接,先輩,役,高校生,みなさん,現在,本格,就職,会社情報,紹介,際,転職,苦戦,就職難,仕事,利用,企業,クリエイティブ系,調剤薬局,流れ,為,今,毎日,資料,ドラッグストア

【0153】
この場合も、Count{InputWord}=6であり、Count{RelatedWord}=50である。また、InputWordと、RelatedWordとの共通部分は、「企業」「内定」「面接」「毎日」の「4個」であるため、Count{RelatedWord∩InputWord}=4となる。また、RelatedWordとCandidateと共通する単語は、48個であったとする。すると、Count{RelatedWord∩(InputWord∪Candidate)}=52となる。したがって、算出部16は、リコール=4/6=0.667と、プレシジョン=52/50=1.040とを算出し、それらを要約候補「就職活動」に対応付けて蓄積する。なお、ここでは、Count{RelatedWord∩(InputWord∪Candidate)}を算出する際に、InputWord∪Candidateにおいてユニーク処理を行わず、「のべ」の単語を用いたため、プレシジョンが「1」の値を超えることになっている。

【0154】
なお、第2の取得部15は、要約候補「自己PR」「就職活動」の場合と同様に、残りの239個の要約候補についても、共起語の取得を行い、算出部16は、各要約候補について、リコールとプレシジョンを算出する処理を行う。

【0155】
その後、選択部18は、要約の選択を行う(ステップS108)。前述のように、選択部18は、リコールが最も高い値である要約候補の中から、プレシジョンが最も高い値である要約候補を要約として選択する。この場合には、「就職活動」が選択され、出力部19に渡されたとする。すると、出力部19は、その要約「就職活動」を第3の取得部20に渡すと共に、図示しない記録媒体に蓄積する(ステップS109)。

【0156】
第3の取得部20は、出力部19から受け取った要約「就職活動」の共起語を、共起頻度の上位50語まで取得する(ステップS110)。ここでは、前述の第2の取得部15の場合と同様に、「就職活動」の共起語が取得され、特定部21に渡される。特定部21は、抽出部12が抽出した単語「企業」「内定」「ため」「面接」「練習」「毎日」を図示しない記録媒体から読み出し、その単語のうち、「就職活動」の共起語に含まれないものを特定する(ステップS111)。この場合には、「ため」「練習」が特定され、出力部19に渡される。出力部19は、それらの単語を受け取ると、要約元文書「できるだけ良い企業に内定をもらうため、面接の練習を毎日行う。」の要約として、「就職活動」「ため」「練習」を出力する(ステップS112)。その出力は、ディスプレイへの表示であってもよい。また、その出力の際に、例えば、「就職活動のための練習」というように、助詞を補ってもよいことは前述の通りである。

【0157】
ここで、リコールを優先して要約を選択する理由と、プレシジョンの算出において、上記の式(4)ではなく、式(3)を用いる理由について説明する。以下の実験では、次の2つの基準でスコアの算出を行った。

【0158】
基準1:リコールの高い順で並び替える。リコールが同じ値のものはプレシジョンが高いものを優先する。
基準2:F値の高い順で並び替える。F値が同じ値のものはプレシジョンが高いものを優先する。

【0159】
評価のための要約元文書の例文は24個であり、それぞれ正解の要約も用意した。そして、A評価と、A+B評価によって評価を行った。A評価は、あらかじめ用意した正解の要約に近いものを正解としない評価手法である。一方、A+B評価は、あらかじめ用意した正解の要約に近いものを正解とする評価手法である。そして、一定順位(1位、5位、10位)以内に正解があることを許した際の単純な正解率と、MRRとを算出した。MRRは、次式で算出される評価値である。
【数6】
JP0005388038B2_000007t.gif

【0160】
ここで、Nは評価する対象の数(=24)であり、rは、評価する対象の正確の順位である。また、前述の式(3)でプレシジョンを算出した場合の評価値を「新評価値」として、前述の式(4)でプレシジョンを算出した場合の評価値を「旧評価値」とした。その結果は、次のようになった。なお、評価する対象が正解であれば、「1」が付与され、正解でなければ「0」が付与され、その値をすべての評価対象に対して合計してNで割ったものが正解率である。

【0161】
◎1位までを正解としたときのA評価の正解率
・新評価値(F値が高い順) 0.125
・新評価値(リコールが高い順) 0.125
・旧評価値(F値が高い順) 0.042
・旧評価値(リコールが高い順) 0.125
◎1位までを正解としたときのA+B評価の正解率
・新評価値(F値が高い順) 0.292
・新評価値(リコールが高い順) 0.292
・旧評価値(F値が高い順) 0.167
・旧評価値(リコールが高い順) 0.292
◎5位までを正解としたときのA評価の正解率
・新評価値(F値が高い順) 0.208
・新評価値(リコールが高い順) 0.208
・旧評価値(F値が高い順) 0.250
・旧評価値(リコールが高い順) 0.125
◎5位までを正解としたときのA+B評価の正解率
・新評価値(F値が高い順) 0.708
・新評価値(リコールが高い順) 0.708
・旧評価値(F値が高い順) 0.625
・旧評価値(リコールが高い順) 0.333
◎10位までを正解としたときのA評価の正解率
・新評価値(F値が高い順) 0.208
・新評価値(リコールが高い順) 0.250
・旧評価値(F値が高い順) 0.292
・旧評価値(リコールが高い順) 0.292
◎10位までを正解としたときのA+B評価の正解率
・新評価値(F値が高い順) 0.750
・新評価値(リコールが高い順) 0.792
・旧評価値(F値が高い順) 0.667
・旧評価値(リコールが高い順) 0.750
◎MRRのA評価の結果
・新評価値(F値が高い順) 0.1528
・新評価値(リコールが高い順) 0.1535
・旧評価値(F値が高い順) 0.1174
・旧評価値(リコールが高い順) 0.1047
◎MRRのA+B評価の結果
・新評価値(F値が高い順) 0.4372
・新評価値(リコールが高い順) 0.4448
・旧評価値(F値が高い順) 0.3292
・旧評価値(リコールが高い順) 0.3999

【0162】
まず、新評価値におけるリコール優先と、F値優先との違いについて説明する。要約元文書が「バットでボールを打つ。ボールが打たれたらグラブで捕る。」である場合について説明する。この場合には、抽出される名詞は「バット」「ボール」「ボール」「グラブ」となる。また、要約候補ごとのリコールやプレシジョン、F値は、次のようになる。

【0163】
◎リコール優先
1 ミット リコール:1.000 プレシジョン:0.840 F値:0.913
2 打球 リコール:1.000 プレシジョン:0.720 F値:0.837
3 スパイク リコール:1.000 プレシジョン:0.700 F値:0.824
4 バット リコール:0.750 プレシジョン:1.720 F値:1.045
5 グラブ リコール:0.750 プレシジョン:1.600 F値:1.021
6 素振り リコール:0.750 プレシジョン:0.680 F値:0.713
7 グローブ リコール:0.750 プレシジョン:0.620 F値:0.679
8 スイング リコール:0.750 プレシジョン:0.580 F値:0.654
9 芯 リコール:0.750 プレシジョン:0.560 F値:0.641
10 野球 リコール:0.750 プレシジョン:0.460 F値:0.570
◎F値優先
1 バット リコール:0.750 プレシジョン:1.720 F値:1.045
2 グラブ リコール:0.750 プレシジョン:1.600 F値:1.021
3 ミット リコール:1.000 プレシジョン:0.840 F値:0.913
4 打球 リコール:1.000 プレシジョン:0.720 F値:0.837
5 スパイク リコール:1.000 プレシジョン:0.700 F値:0.824
6 素振り リコール:0.750 プレシジョン:0.680 F値:0.713
7 グローブ リコール:0.750 プレシジョン:0.620 F値:0.679
8 スイング リコール:0.750 プレシジョン:0.580 F値:0.654
9 芯 リコール:0.750 プレシジョン:0.560 F値:0.641
10 シュート リコール:0.500 プレシジョン:0.700 F値:0.583

【0164】
上記結果において、リコールを優先した場合とF値を優先した場合では、リコールを優先した場合の方が高いMRR値を持ち、優位であるという結果になった。結果の違いが一番顕著に現れている例が上記のものである。この結果を見ると、リコール優先の方では10位に正解の「野球」という単語が得られたが、F値優先では10位以内には入らなかった。また、入力の一文目にある「バットでボールを打つ。」の箇所を現す「打球」という単語もリコール優先では2位となっており、この点からもリコール優先で順位付けをした方がよい結果となっていると考えられる。

【0165】
また、F値はリコールとプレシジョンの調和平均であるため、少なからずプレシジョンの影響が発生する。そして、プレシジョンには、「要約元文書の名詞から得られる共起語」も正解としており、入力文から得られる単語の意味とは離れた単語も僅かながら含まれている。しかし、リコールでは「要約元文書から得られた名詞」のみを正解としている。このことから、リコールの方がプレシジョン(≒F値)より純度の高い正解といえる。この差が、リコールを優先させた方が若干でもよい結果になった理由であると考えられる。

【0166】
次に、プレシジョンの新評価値と旧評価値との違いについて説明する。要約元文書が「食事制限をし、毎日ジョギングなどの運動を行う。」の場合には、抽出される名詞は「食事制限」「毎日ジョギング」「運動」となる。また、要約候補ごとのリコールやプレシジョン、F値は、次のようになる。

【0167】
◎新評価値
1 ダイエット
リコール:0.667 プレシジョン:0.620 F値:0.642
2 有酸素運動
リコール:0.667 プレシジョン:0.500 F値:0.571
3 脂肪燃焼
リコール:0.667 プレシジョン:0.500 F値:0.571
4 減量
リコール:0.667 プレシジョン:0.420 F値:0.515
5 消費エネルギー
リコール:0.667 プレシジョン:0.360 F値:0.468
6 プロモデル
リコール:0.667 プレシジョン:0.180 F値:0.283
7 食事制限
リコール:0.333 プレシジョン:1.240 F値:0.525
8 運動
リコール:0.333 プレシジョン:1.240 F値:0.525
9 筋トレ
リコール:0.333 プレシジョン:0.540 F値:0.412
10 リバウンド
リコール:0.333 プレシジョン:0.500 F値:0.400
◎旧評価値
1 ダイエット
リコール:0.667 プレシジョン:0.040 F値:0.075
2 消費エネルギー
リコール:0.667 プレシジョン:0.040 F値:0.075
3 脂肪燃焼
リコール:0.667 プレシジョン:0.040 F値:0.075
4 プロモデル
リコール:0.667 プレシジョン:0.040 F値:0.075
5 減量
リコール:0.667 プレシジョン:0.040 F値:0.075
6 有酸素運動
リコール:0.667 プレシジョン:0.040 F値:0.075
7 ストレッチ
リコール:0.333 プレシジョン:0.020 F値:0.038
8 二重まぶた
リコール:0.333 プレシジョン:0.020 F値:0.038
9 エクササイズ
リコール:0.333 プレシジョン:0.020 F値:0.038
10 継続
リコール:0.333 プレシジョン:0.020 F値:0.038

【0168】
両方とも、1位には理想の正解である「ダイエット」が得られている。しかし、旧評価値の結果を見ると、1位から6位までのスコアがすべて同じ、つまり同率となっている。一方、新評価値の結果は、同率で1位ということにはなっていない。このことから、新評価値の結果のほうが実用性等も考慮すると優位な結果であるといえる。

【0169】
以上の実験結果から、最もよいルールは、プレシジョンの算出に「新評価値」、すなわち、式(3)を用いて、「リコールを優先させる」方法であるといえる。なお、このたびの実験では、そのような結果が出たが、もっと評価数を増やしたりして異なる実験を行った場合には、必ずしもそのような結果になるとは限らないと考えられる。したがって、選択部18がルールを用いて要約を選択する際のルールは、種々のものがありうると考えられる。

【0170】
以上のように、本実施の形態による文書要約装置1によれば、要約元文書に含まれない言語表現を用いて、要約を自動生成することができる。したがって、例えば、要約元文書「爆弾が爆発した。死傷者が出た。反政府運動がきっかけである。」に対して、端的な要約「テロ」を生成することができるようになる。また、そのようにして端的な要約を生成した場合には、情報の取り落としが発生することが考えられる。したがって、第2の取得部15及び特定部21を用いることによって、そのような取り落としをも特定することができ、さらに、その取り落とした言語表現を出力したり、その取り落とした言語表現に対する要約を生成したりすることができる。

【0171】
なお、要約元文書の内容には、重要な箇所とそうでない箇所とがある。そして、重要な箇所ほど、正確に内容を復元できる要約のほうがよいと考えられる。したがって、リコールとプレシジョンの算出では、重要な言語表現ほど重視するようにしてもよい。したがって、図6で示されるように、文書要約装置1は、重要度算出部25をさらに備え、算出部16は、重要度算出部25が算出した重要度を、要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出してもよい。重要度を重みとして用いてリコール等を算出するとは、リコール等の算出において、要約元文書に含まれる言語表現の数をカウントする際に、ある言語表現のカウントを、「1」からその重要度に代えることを言う。したがって、重要度が「1」「2」「3」の3個の言語表現の数をカウントする場合には、重みがなければ「3」となるが、重要度の重みを考慮すると、「6」となる。

【0172】
なお、重要度算出部25は、要約元文書に含まれる言語表現ごとの重要度を算出する。その重要度を算出する方法は問わない。例えば、重要度算出部25は、(I)TF・IDFである重要度を算出してもよく、(II)機械学習によって重要度を算出してもよい。

【0173】
(I)TF・IDFを用いる方法では、重要度算出部25は、重要度として、TF・IDFを算出する。この場合には、別途、TF・IDFを算出するために用いられるコーパスが存在する。そのコーパスは、文書要約装置1における図示しない記録媒体において保持されていてもよく、あるいは、重要度算出部25がアクセス可能な、文書要約装置1の外部で保持されていてもよい。なお、そのコーパスに含まれる文書と、要約元文書との分野とは、同じであるほうが好適である。なお、TF・IDFを算出する方法は、すでに公知であるため、その詳細な方法を省略する。

【0174】
(II)機械学習を用いる方法では、重要度算出部25は、機械学習を用いて、要約元文書における言語表現の重要度を算出する。その機械学習の素性には、言語表現と、その言語表現の属性(例えば、品詞や上位語等)とが少なくとも含まれるものとする。さらに、その言語表現の共起語、その共起語の属性、その言語表現のTF、その言語表現のIDF、その言語表現のTF・IDFのうち、任意の1以上のものが素性に含まれてもよい。また、共起語に代えて、言語表現に関連辞書情報によって関連づけられる言語表現を用いてもよい。

【0175】
その機械学習で用いられる教師データは、言語表現が重要であるかどうかを示す情報と、その言語表現に対する前述の素性の各値である。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。

【0176】
教師データを用いた学習の後に、要約元文書から抽出した任意の言語表現について、素性の各値を取得し、その素性の各値を入力することによって、その言語表現が重要であるかどうかと、その確信度とを得ることができる。したがって、重要度算出部25は、例えば、重要と判断された言語表現の重要度を「2」に設定し、重要でないと判断された言語表現の重要度を「1」に設定してもよい。また、重要度算出部25は、例えば、重要と判断された言語表現については、「1+確信度」を重要度として用い、重要でないと判断された言語表現については、「1-確信度」を重要度として用いてもよい。なお、重要であると判断された言語表現の重要度のほうが、重要でないと判断された言語表現の重要度よりも高い値となるのであれば、この重要度の算出の方法は問わない。また、機械学習において、教師データ自体を重要であるかどうかではなく、多段階の重要度、例えば、1~5の5段階の整数の重要度で示すようにしてもよい。なお、数値の大きい方が重要であるとする。その場合には、教師データとして、多段階の重要度と、素性の各値とを用いることになる。また、学習の際には、例えば、サポートベクター回帰(SVR:Support Vector Regression)を用いてもよい。また、重要度算出部25は、前述の(い)において説明したスコアを、要約元文書に含まれる言語表現の重要度として算出してもよい。例えば、ある文書の範囲のスコアが「3」と判断された場合には、その文書の範囲に含まれる言語表現については、重要度を「3」としてもよい。なお、関連特定部17によってすでにそのスコアが算出されている場合には、重要度算出部25は、そのスコアを取得するだけであってもよい。また、そのスコアを、正規化してもよい。例えば、スコアの最大値を取得し、すべてのスコアをその最大値で割ることによって、スコアの最大値が1になるようにしてもよい。

【0177】
なお、関連特定部17によって、要約元文書の範囲ごとにスコアを算出した場合に、例えば、そのスコアの高い箇所のみを用いて、要約の生成を行ってもよい。すなわち、要約元文書記憶部11で記憶されている要約元文書のうち、選択された一部を用いて要約の生成を行ってもよい。その場合の選択の方法として、例えば、前述のスコアを用いてもよい。

【0178】
また、本実施の形態では、取り落とした言語表現を特定部21によって特定し、その言語表現を出力したり、その言語表現に対して再度、要約を作成したりする処理を行う場合について説明したが、それらの処理を行わなくてもよい。その場合には、文書要約装置1は、第3の取得部20や、特定部21を備えていなくてもよい。

【0179】
また、本実施の形態では、関連特定部17によって、要約元文書に含まれる言語表現の関連を特定し、その関連に関する情報をも、要約の選択において用いる場合について説明したが、そうでなくてもよい。要約の選択において、要約元文書における言語表現間の関連に関する情報を用いない場合には、文書要約装置1は、関連特定部17を備えていなくてもよい。

【0180】
また、本実施の形態による文書要約装置1は、関連辞書情報記憶部13を備えており、その関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、ある言語表現に関連する言語表現を取得する場合について説明したが、関連辞書情報を用いた関連する言語表現の取得を行わない場合には、文書要約装置1は、関連辞書情報記憶部13を備えていなくてもよい。

【0181】
(実施の形態2)
本発明の実施の形態2による文書処理装置3について、図面を参照しながら説明する。本実施の形態による文書処理装置3は、関連する箇所を特定するものである。

【0182】
図7は、本実施の形態による文書処理装置3の構成を示すブロック図である。本実施の形態による文書処理装置3は、文書記憶部31と、関連辞書情報記憶部32と、出力部36と、関連特定部37とを備える。

【0183】
文書記憶部31では、文書が記憶される。この文書は、本実施の形態による文書処理装置3によって、関連する箇所を特定する対象となる文書である。なお、要約元文書が、関連する箇所を特定する対象となる文書になった以外、この文書記憶部31は、実施の形態1の要約元文書記憶部11と同様のものであり、その詳細な説明を省略する。

【0184】
関連辞書情報記憶部32では、関連辞書情報が記憶される。この関連辞書情報記憶部32は、実施の形態1の関連辞書情報記憶部13と同様のものであり、その詳細な説明を省略する。

【0185】
関連特定部37は、文書記憶部31で記憶されている文書において、言語表現の関連を特定する。この関連特定部37は、実施の形態1の関連特定部17と同様のものであり、その詳細な説明を省略する。なお、実施の形態1における関連特定部17と同様に、本実施の形態による関連特定部37でも、前述の(A)(B)の方法で関連を特定してもよい。また、それ以外の方法によって関連を特定してもよいことは言うまでもない。なお、本実施の形態では、以下、関連特定部37が(A)の方法によって関連を特定する場合について説明する。すなわち、関連特定部37が、取得手段33と、判断手段34と、特定手段35とを有する場合について説明する。

【0186】
取得手段33は、文書記憶部31で記憶されている文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する。この取得手段33は、実施の形態1の関連言語表現取得手段22と同様のものであり、その詳細な説明を省略する。

【0187】
判断手段34は、取得手段33が取得した関連言語表現が文書記憶部31で記憶されている文書に含まれるかどうか判断する。この判断手段34は、実施の形態1の判断手段23と同様のものであり、その詳細な説明を省略する。

【0188】
特定手段35は、判断手段34によって、関連言語表現が文書に含まれると判断された場合に、文書中の関連言語表現と、関連言語表現の取得元である文書中の言語表現との関連を特定する。この特定手段35は、実施の形態1の特定手段24と同様のものであり、その詳細な説明を省略する。

【0189】
出力部36は、関連特定部37が特定した関連を示す情報を出力する。この関連を示す情報は、例えば、関連が特定された2個の言語表現を対にした情報であってもよく、関連が特定された2個の言語表現を矢印や線で結ぶ情報であってもよく、特定手段35が関連を特定する際に蓄積した情報であってもよく、その他の関連を示す情報であってもよい。また、その出力対象となる情報には、関連の種類を示す情報が含まれてもよい。例えば、言語表現Aと言語表現Bとの関連が特定され、その関連は共起であり、言語表現Cと言語表現Dとの関連が特定され、その関連は上位下位である場合には、言語表現Aと言語表現Bとの関連を示す情報と、その関連が共起であることを示す情報とが出力されると共に、言語表現Cと言語表現Dとの関連を示す情報と、その関連が上位下位であることを示す情報とが出力されてもよい。この出力部36による出力がなされることによって、ユーザは、文書記憶部31で記憶されている文書における言語表現間の関連を知ることができるようになる。

【0190】
次に、本実施の形態による文書処理装置3の動作について、図8のフローチャートを用いて説明する。なお、このフローチャートでは、前述の(A)の方法によって関連を特定する場合について説明するが、関連特定部37が機械学習によって関連を特定してもよいことは前述の通りである。
(ステップS301)取得手段33は、文書記憶部31で記憶されている文書における言語表現を特定する。その特定された言語表現は、図示しない記録媒体で記憶されてもよい。

【0191】
(ステップS302)取得手段33は、ステップS301で特定した各言語表現に対して、その言語表現に関連する関連言語表現を取得する。その取得された関連言語表現は、図示しない記録媒体で記憶されてもよい。なお、関連言語表現が蓄積される際には、その関連言語表現の取得元である、文書に含まれる言語表現と対応付けて蓄積されることが好適である。

【0192】
(ステップS303)判断手段34は、カウンタiを1に設定する。

【0193】
(ステップS304)判断手段34は、ステップS302で取得された関連言語表現のうち、i番目の関連言語表現が文書記憶部31で記憶されている文書に含まれるかどうか判断する。そして、含まれる場合には、ステップS305に進み、そうでない場合には、ステップS306に進む。

【0194】
(ステップS305)特定手段35は、i番目の関連言語表現と、その関連言語表現の取得元である、文書記憶部31で記憶されている文書中の言語表現との関連を特定する。

【0195】
(ステップS306)判断手段34は、カウンタiを1だけインクリメントする。

【0196】
(ステップS307)判断手段34は、ステップS302で取得された関連言語表現に、i番目の関連言語表現が含まれるかどうか判断する。そして、含まれる場合には、ステップS304に戻り、そうでない場合には、ステップS308に進む。

【0197】
(ステップS308)出力部36は、関連特定部37が特定した関連、すなわち、特定手段35が特定した関連を示す情報を出力する。そして、文書における言語表現間の関連を特定して出力する一連の処理は終了となる。

【0198】
次に、本実施の形態による文書処理装置3の動作について、具体例を用いて説明する。この具体例では、言語表現は、名詞の単語であるとする。また、実施の形態1と同様に、連続した名詞は一の名詞として取り扱う。また、ある文に含まれる名詞と、他の文に含まれる名詞との関連のみを特定し、一文に含まれる名詞間の関連は特定しないものとする。

【0199】
文書記憶部31では、次の文が記憶されていたとする。なお、各文の先頭に示されている数字は、文を識別する文IDである。
0:バブル崩壊は、身から出たサビ
1:だが「市場の論理」万能のグローバル化はどうか
2:時として、各国の事情や経済格差を無視して押し寄せるグローバリゼーションの大波におぼれかかった国は多い
3:断固拒否したマレーシアの例もあるが、わが国も伝統や独自の価値観を加味して、もっと柔軟なシステムの構築ができなかったか
4:政財界リーダーたちの責任は重いし、雇用創出やニューエコノミーの創造が急がれるべきだ

【0200】
また、この具体例では、取得手段33が関連辞書情報を用いた関連する名詞の取得を行うものとする。その関連辞書情報では、2単語の関連性が示されている。すなわち、「単語 関連する単語(関連語) その関連のスコア」の情報が関連事象情報に含まれるものとする。また、その関連の種類は、次に示されるものである。

【0201】
Sims:類似語
Troubles:トラブル
Methods:方法
Hypos:下位語
Hypers:上位語
Tools:ツール
Causes:原因
Prevents対策
Requires:必須
Relations:関連あり
Averts:防ぐ
Nears:近距離
Sights:名物・見所
Famous:名物
Rivals:ライバル
Yukari-Hito:ゆかりの人物
Yukari_Tera:ゆかりの寺・神社
Sells:製品・商品
Makers:メーカー等
FD_Potencys:食材効能
FD_Effects:効く食材
FD_Unlooks:意外な食材
CK_Potencys:料理効能
CK_Effects:効く料理
CK_Unlooks:意外な料理
Nutr_Potencys:栄養効能
Nutr_Effects:効く栄養素
Component:成分
Ingredients:含む食材
Seasons:旬
FD_Seasons:旬の食材
SubFDs:代用食品
Materials:材料
InvMaterials:材料(逆引き)
Parts:部品・部分
InvParts:部品・部分(逆引き)
Gods:仏像・神様
GodTeras:所蔵する寺、祀る神社

【0202】
また、この具体例では、ある単語に対して関連語を取得するだけでなく、逆引きも使用するものとする。例えば、「爆弾」という単語が、「爆発」という単語に対し「方法」という関連を持つとする。このとき、単に「爆弾 爆発 Methods」という関連を得るだけでなく、「爆発 爆弾 Methods(逆引き)」という関連も取得する。この逆引きの結果は、この具体例では、各関係に「Rev」を付加させることで区別している。つまり今回の例の場合、「爆発 爆弾 RevMethods」というように表記される。なお、この逆引きが行われるのは、方向性を有する関連の場合についてのみである。例えば、類似語の場合には、方向性がないため、RevSimsという関連は取得されないことになる。

【0203】
まず、取得手段33は、文書記憶部31で記憶されている文書から名詞を取得する(ステップS301)。その結果、次のように名詞が取得されることになる。なお、ここでは、文ごとに名詞を取得している。

【0204】
0:バブル崩壊,身
1:市場,論理,万能
2:各国,事情,経済格差,無視,大波,国
3:拒否,マレーシア,例,わが国,伝統,価値観,加味,システム,構築
4:政財界リーダー,責任,雇用創出,創造

【0205】
次に、取得手段33は、関連辞書情報を参照して、各名詞に対する関連語(関連言語表現)を取得する(ステップS302)。例えば、「バブル崩壊」に対しては、Troubles:トラブルの逆引きで、「市場」が得られる。したがって、取得手段33は、取得元の単語の含まれていた文ID、その取得元の単語、取得した単語(関連語)、その関係を示す情報である「0 バブル崩壊 市場 RevTroubles」を図示しない記録媒体に蓄積する。この処理を、前述の取得したすべての単語について、また、すべての関連とその逆引きとについて実行する。

【0206】
その後、判断手段34は、取得された関連語が元の文書であって、その関連語の取得元の単語が含まれていた文とは異なる文に存在するかどうか判断する(ステップS303,S304)。具体的には、取得手段33が取得した「0 バブル崩壊 市場 RevTroubles」に対しては、判断手段34は、関連語である検索キー「市場」で、文ID「0」以外の文を検索する。この場合には、文ID「1」の「市場」がヒットするため、「0 バブル崩壊 市場 RevTroubles」と、市場が文ID「1」でヒットしたこととを特定手段35に渡す。すると、特定手段35は、取得元の単語を含む文ID、関連語の含まれる文ID、取得元の単語、関連語、その関係を示す情報である「0 1 バブル崩壊 市場 RevTroubles」を図示しない記録媒体に蓄積する(ステップS305)。なお、このような処理が繰り返されることによって、単語と関連語との関連が特定されていく(ステップS304~S307)。なお、判断手段34による検索は、取得された単語に対してなされてもよい。単語間の関連を特定するため、文書記憶部31で記憶されている文書で検索を行っても、その文書から取得された単語において検索を行っても、実質的に同じだからである。

【0207】
その後、すべての関連の特定が終了すると出力部36は、蓄積された「0 1 バブル崩壊 市場 RevTroubles」等の情報を読み出し、前の2個の情報、すなわち、取得元の単語の文IDと、関連語の文IDとを用いてソートを行い、その結果を出力する(ステップS308)。その出力結果は、次のようであり、例えば、ディスプレイに表示されるものとする。

【0208】
◎文0 文1
バブル崩壊 市場(RevTroubles)
◎文0 文2
身 大波(Trouble)
バブル崩壊 国(RevTroubles)
バブル崩壊 大波(Trouble)
◎文0 文3
身 拒否(Trouble)
バブル崩壊 わが国(RevTroubles)
◎文1 文0
市場 バブル崩壊(Trouble)
◎文1 文2
市場 国(RevRelations,Relations)
市場 大波(Trouble)
◎文1 文3
市場 構築(Methods)
市場 価値観(Rivals)
万能 価値観(RevMethods)
論理 構築(Methods)
論理 拒否(Trouble)
論理 価値観(Sims)
◎文1 文4
市場 創造(Methods)
論理 創造(RevRequires)
◎文2 文0
大波 身(RevTroubles)
大波 バブル崩壊(RevTroubles)
国 バブル崩壊(Trouble)
◎文2 文1
大波 市場(RevTroubles)
国 市場(RevRelations,Relations)
◎文2 文3
各国 マレーシア(Nears,RevNears)
各国 わが国(Nears,RevNears)
経済格差 価値観(RevTroubles)
経済格差 マレーシア(RevTroubles)
経済格差 わが国(RevTroubles)
無視 拒否(Sims)
国 伝統(RevRelations,Hypos)
国 拒否(Trouble)
国 マレーシア(Sims,Hypos)
国 わが国(Sims)
◎文3 文0
拒否 身(RevTroubles)
わが国 バブル崩壊(Trouble)
◎文3 文1
拒否 論理(RevTroubles)
構築 論理(RevMethods)
構築 市場(RevMethods)
価値観 論理(Sims)
価値観 市場(RevRivals)
価値観 万能(Methods)
◎文3 文2
伝統 国(Hypers,Relations)
拒否 無視(Sims)
拒否 国(RevTroubles)
わが国 各国(Nears,RevNears,Sims)
わが国 経済格差(Trouble)
マレーシア 各国(Nears,RevNears)
マレーシア 経済格差(Trouble)
マレーシア 国(Hypers)
価値観 経済格差(Trouble)
◎文3 文4
伝統 創造(RevMethods,Methods)
例 創造(RevRequires)
拒否 責任(RevTroubles)
構築 創造(Sims)
価値観 創造(Methods)
◎文4 文1
創造 論理(Requires)
創造 市場(RevMethods)
◎文4 文3
創造 例(Requires)
創造 価値観(RevMethods)
創造 構築(Sims)
創造 伝統(RevMethods,Methods)
責任 拒否(Trouble)

【0209】
上記の結果において、各文に含まれる単語と、その関連語と、その関連の種類とが示されている。例えば、「◎文4 文3」の箇所においては、文ID「4」の文に含まれる「想像」と、文ID「3」の文に含まれる「例」とが、「Requires」の関連で結ばれていることが示されている。なお、この具体例では、取得したすべての名詞について関連を特定したため、重複した関連の取得が行われることになる。例えば、「構築 創造(Sims)」の関連は、「◎文3 文4」と、「◎文4 文3」との両方に含まれることになっている。一方、この重複を削除して出力するようにしてもよい。例えば、「構築 創造(Sims)」の関連は、「◎文3 文4」についてのみ出力されるようにしてもよい。そのようにするために、例えば、判断手段34が検索を行う際に、取得元の単語が含まれていた文IDよりも大きい値の文IDで識別される文においてのみ検索を行ってもよく、あるいは、すべての関連を取得した後に、重複したものを削除するようにしてもよい。

【0210】
以上のように、本実施の形態による文書処理装置3によれば、文書における言語表現間の関連を特定することができ、その関連を示す情報を出力することができる。したがって、ユーザは、文書における言語表現間の関連を容易に知ることができるようになる。また、その関連の種類を示す情報も出力される場合には、その関連の種類をも知ることができるようになり、ユーザの利便性が向上されることになる。

【0211】
なお、本実施の形態において、関連特定部37が上記(A)の方法によって関連を特定する場合について主に説明したが、前述のように、関連特定部37は、機械学習を用いて関連を特定してもよい。また、関連を特定する際に関連辞書情報を使用しない場合には、文書処理装置3は、関連辞書情報記憶部32を備えていなくてもよい。

【0212】
なお、上記各実施の形態において、要約元文書や、関連を特定する対象となる文書の言語は問わない。例えば、日本語、英語、フランス語、ロシア語、中国度、ドイツ語、スペイン語等であってもよい。なお、要約元文書の言語と、関連辞書情報や、共起語の取得で用いられるデータベースの言語とは同じであるものとする。また、関連を特定する対象となる文書の言語と、関連辞書情報や、共起語の取得で用いられるデータベースの言語とは同じであるものとする。

【0213】
[機械学習に関する説明]
ここで、上記各実施の形態で用いられる機械学習について説明する。機械学習の手法は、問題-解の組のセットを多く用意し、そのセットを用いて学習を行なうことによって、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。例えば、次の文献を参照されたい。

【0214】
文献:村田真樹、「機械学習に基づく言語処理」,龍谷大学理工学部.招待講演、2004年(http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf)
文献:村田真樹,馬青,内元清貴,井佐原均、「サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳」,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78,2001年
文献:村田真樹,内山将夫,内元清貴,馬青,井佐原均、「NSEVAL2J辞書タスクでのCRLの取り組み」、電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40,2001年

【0215】
機械学習アルゴリズムを動作させるために、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」---解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。

【0216】
すなわち、機械学習の手法は、素性の集合-解の組のセットを多く用意し、そのセットを用いて学習を行なうことによって、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも、その問題から素性の集合を取り出して、その素性に対応する解を推測する方法である。なお、ここで、「解」とは、例えば、前述の回答情報であるかどうかや、分類情報などである。

【0217】
機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いることができる。なお、以下の説明では、文書を分類する場合(問題-解のセットが、文-分類である場合)の機械学習について主に説明するが、それ以外の機械学習についても、同様に適用可能であることは言うまでもない。

【0218】
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって解(分類)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。

【0219】
シンプルベイズ法は、ベイズの定理にもとづいて各解(分類)の確率を推定し、その確率値が最も大きい解を、求める解とする方法である。

【0220】
シンプルベイズ法において、文脈bで分類aを出力する確率は、次式で与えられる。
【数7】
JP0005388038B2_000008t.gif

【0221】
ただし、ここで文脈bは、あらかじめ設定しておいた素性f(∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(f|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fを持つ確率を意味する。P(f|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、上記の2行目の式の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、次式を用いてスムージングを行ったものを用いる。
【数8】
JP0005388038B2_000009t.gif

【0222】
ただし、freq(f,a)は、素性fを持ち、かつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
なお、スムージングは、上記式を用いた方法に限られるものではなく、その他の方法を用いてもよいことは言うまでもない。

【0223】
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

【0224】
決定リスト方法では、あらかじめ設定しておいた素性f(∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は、次式によって与えられる。
【数9】
JP0005388038B2_000010t.gif

【0225】
ただし、fmaxは、次式によって与えられる。
【数10】
JP0005388038B2_000011t.gif

【0226】
また、P(a|f)(ここでPはpの上部にチルダ)は、素性fを文脈に持つ場合の分類aの出現の割合である。

【0227】
最大エントロピー法は、あらかじめ設定しておいた素性f(1≦j≦k)の集合をFとするとき、以下の所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

【0228】
所定の条件式は、次式で与えられる。
【数11】
JP0005388038B2_000012t.gif

【0229】
また、エントロピーを意味する式は、次式で与えられる。
【数12】
JP0005388038B2_000013t.gif

【0230】
ただし、A、Bは分類と文脈の集合を意味する。また、g(a,b)は文脈bに素性fがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(a|f)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。

【0231】
上記の条件式は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の文献を参照されたい。

【0232】
文献:Eric Sven Ristad,「Maximum Entropy Modeling for Natural Language」,(ACL/EACL Tutorial Program,Madrid,1997年
文献:Eric Sven Ristad,「Maximum Entropy Modeling Toolkit,Release1.6beta」,(http://www.mnemonic.com/software/memt),1998年

【0233】
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

【0234】
図9にサポートベクトルマシン法のマージン最大化の概念を示す。図9において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図9(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図9(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。

【0235】
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図9(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

【0236】
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる。

【0237】
この拡張された方法は、以下の識別関数(f(x))を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
【数13】
JP0005388038B2_000014t.gif

【0238】
ただし、xは識別したい事例の文脈(素性の集合)を、xとy(i=1,…,l,y∈{1,-1})は学習データの文脈と分類先を意味し、関数sgnは、

【0239】
sgn(x)=1(x≧0)
-1(otherwise)
であり、また、各αは、式(M3)と式(M4)の制約のもと、式(M2)を最大にする場合のものである。
【数14】
JP0005388038B2_000015t.gif

【0240】
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では、例えば、以下の多項式のものを用いる。
K(x,y)=(x・y+1)d

【0241】
ここで、C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、α>0となるxは、サポートベクトルと呼ばれ、通常、式(M1)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

【0242】
なお、拡張されたサポートベクトルマシン法の詳細については、次の文献を参照されたい。
文献:Nello Cristianini,John Shawe-Taylor,「An Introduction to Support Vector Machines and other kernel-based learning methods」,Cambridge University Press,2000年
文献:Taku Kudoh,「Tinysvm:Support Vector machines」,(http://cl.aistnara.ac.jp/taku-ku//software/Tiny SVM/index.html),2000年

【0243】
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。

【0244】
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n-1)/2個)を生成し、ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。

【0245】
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき問題が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある解くべき問題が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その解くべき問題の分類先は、aと推定する。

【0246】
図示しない解推定手段が推定する、解くべき問題についての、どのような解(分類先)になりやすいかの度合いの求め方は、図示しない機械学習手段が機械学習の手法として用いる様々な方法によって異なる。

【0247】
例えば、機械学習手段が、機械学習の手法としてk近傍法を用いる場合、機械学習手段は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段に記憶しておく。

【0248】
そして、解推定手段は、解くべき問題の素性(文章群属性情報)が抽出されたときに、学習結果記憶手段において定義された類似度と事例を参照して、抽出された解くべき問題の素性について、その解くべき問題の素性の類似度が高い順にk個の事例を学習結果記憶手段の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、解くべき問題の分類先(解)として推定する。すなわち、解推定手段では、解くべき問題についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数とする。

【0249】
また、機械学習手法として、シンプルベイズ法を用いる場合には、図示しない機械学習手段は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段に記憶する。そして、解推定手段は、解くべき問題の素性が抽出されたときに、学習結果記憶手段の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて、解くべき問題の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解くべき問題の素性の分類(解)と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。

【0250】
また、機械学習手法として決定リスト法を用いる場合には、図示しない機械学習手段は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを、予め、何らかの手段により、学習結果記憶手段に記憶させる。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段のリストの優先順位の高い順に、抽出された解くべき問題の素性と規則の素性とを比較し、素性が一致した規則の分類先をその解くべき問題の分類先(解)として推定する。

【0251】
また、機械学習手法として最大エントロピー法を使用する場合には、図示しない機械学習手段は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足し、かつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて、学習結果記憶手段に記憶する。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段の確率分布を利用して、抽出された解くべき問題の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその解くべき問題の解と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。

【0252】
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、図示しない機械学習手段は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段に記憶する。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段の超平面を利用して、解くべき問題の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その解くべき問題の解と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、分離平面からのその解くべき問題の事例への距離の大きさとする。

【0253】
また、上記各実施の形態において、ある構成要素が機械学習を用いて処理を行う場合に、その所望の処理が実行されるまでに学習が行われるのであれば、その学習のタイミングは問わない。

【0254】
なお、上記各実施の形態において、各装置の有する2以上の記憶部のうち、任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、要約元文書を記憶している領域が要約元文書記憶部11となり、関連辞書情報を記憶している領域が関連辞書情報記憶部13となる。

【0255】
また、上記各実施の形態において、要約元文書記憶部11、関連辞書情報記憶部13、文書記憶部31、関連辞書情報記憶部32に、要約元文書や関連辞書情報、文書が記憶される過程は問わない。例えば、記録媒体を介して要約元文書等が要約元文書記憶部11等で記憶されるようになってもよく、通信回線等を介して送信された要約元文書が要約元文書記憶部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された要約元文書が要約元文書記憶部11等で記憶されるようになってもよい。要約元文書記憶部11等での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。要約元文書記憶部11等は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。

【0256】
また、上記各実施の形態において、出力部19や出力部36での出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、その出力が記録媒体への蓄積や、他の構成要素への引き渡し等を行った場合であっても、最終的には、ユーザに知覚されるように、表示されたり印刷されたりすることが好適である。また、出力部19等は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部19等は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

【0257】
また、上記各実施の形態では、文書要約装置1や文書処理装置3がスタンドアロンである場合について説明したが、文書要約装置1等は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部は、通信回線を介して情報を出力してもよい。

【0258】
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

【0259】
また、上記各実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

【0260】
また、上記各実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

【0261】
また、上記各実施の形態において、文書要約装置1や文書処理装置3に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

【0262】
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態1における文書要約装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、要約元の文書である要約元文書が記憶される要約元文書記憶部で記憶されている要約元文書から言語表現を抽出する抽出部、抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部、第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部、要約元文書に含まれる言語表現と、第2の取得部が取得した言語表現とを少なくとも用いて、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部、算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、要約元文書の要約を選択する選択部、選択部が選択した要約を出力する出力部として機能させるためのプログラムである。

【0263】
また、上記実施の形態2における文書処理装置3を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、文書が記憶される文書記憶部で記憶されている文書に置いて、言語表現の関連を特定する関連特定部、前記関連特定部が特定した関連を示す情報を出力する出力部として機能させるためのプログラムである。

【0264】
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

【0265】
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD-ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

【0266】
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

【0267】
図10は、上記プログラムを実行して、上記実施の形態による文書要約装置1、文書処理装置3を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

【0268】
図10において、コンピュータシステム900は、CD-ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。

【0269】
図11は、コンピュータシステム900の内部構成を示す図である。図11において、コンピュータ901は、CD-ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。

【0270】
コンピュータシステム900に、上記実施の形態による文書要約装置1、文書処理装置3の機能を実行させるプログラムは、CD-ROM921、またはFD922に記憶されて、CD-ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD-ROM921やFD922、またはネットワークから直接、ロードされてもよい。

【0271】
プログラムは、コンピュータ901に、上記実施の形態による文書要約装置1、文書処理装置3の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。

【0272】
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0273】
以上より、本発明による文書要約装置等によれば、文書を要約できる効果が得られ、文書を自動的に要約する装置等として有用である。また、本発明による文書処理装置等によれば、文書に含まれる関連のある箇所を特定することができ、文書の関連性を自動的に特定する装置等として有用である。
【符号の説明】
【0274】
1 文書要約装置
3 文書処理装置
11 要約元文書記憶部
12 抽出部
13、32 関連辞書情報記憶部
14 第1の取得部
15 第2の取得部
16 算出部
17、37 関連特定部
18 選択部
19、36 出力部
20 第3の取得部
21 特定部
22 関連言語表現取得手段
23、34 判断手段
24、35 特定手段
25 重要度算出部
31 文書記憶部
33 取得手段
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図10】
8
【図11】
9
【図9】
10