TOP > 国内特許検索 > 対話型複数文書要約装置 > 明細書

明細書 :対話型複数文書要約装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4806773号 (P4806773)
公開番号 特開2008-077459 (P2008-077459A)
登録日 平成23年8月26日(2011.8.26)
発行日 平成23年11月2日(2011.11.2)
公開日 平成20年4月3日(2008.4.3)
発明の名称または考案の名称 対話型複数文書要約装置
国際特許分類 G06F  17/30        (2006.01)
FI G06F 17/30 220A
G06F 17/30 170A
G06F 17/30 340Z
G06F 17/30 350C
請求項の数または発明の数 5
全頁数 41
出願番号 特願2006-256759 (P2006-256759)
出願日 平成18年9月22日(2006.9.22)
新規性喪失の例外の表示 特許法第30条第1項適用 2006年3月24日 国立大学法人 横浜国立大学大学院 環境情報学府発行の「環境情報からのメッセージVol.6 博士・修士論文研究概要」に発表
審査請求日 平成21年7月28日(2009.7.28)
特許権者または実用新案権者 【識別番号】504182255
【氏名又は名称】国立大学法人横浜国立大学
発明者または考案者 【氏名】森 辰則
【氏名】谷岡 洵
個別代理人の代理人 【識別番号】100111800、【弁理士】、【氏名又は名称】竹内 三明
審査官 【審査官】宮下 浩次
参考文献・文献 特開2006-59082(JP,A)
特開2006-163525(JP,A)
特開2002-041573(JP,A)
特開2003-281159(JP,A)
特開平08-263517(JP,A)
特開2005-141428(JP,A)
調査した分野 G06F 17/30
特許請求の範囲 【請求項1】
複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置であって、以下の要素を有することを特徴とする対話型複数文書要約装置
(1)検索条件文を入力する検索条件入力部
(2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択部
(3)要約対象文書の識別情報を記憶する要約対象文書記憶部
(4)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成部
(5)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示部
(6)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込部。
【請求項2】
要約文書提示部は、要約文書画面が操作者に対して要約文書から注目文字列を選択するように促すように生成し、要約文書画面で選択された注目文字列に含まれる注目文字列内単語を特定し、更に要約文書に含まれるが注目文字列に含まれない注目文字列外単語を特定し、
対話型複数文書要約装置は、注目文字列内単語に1より大きい文字列注目係数を設定し、注目文字列外単語に1より小さい文字列注目係数を設定する文字列注目係数算出部を有し、
要約文書生成部は、単語の重要度に文字列注目係数を乗じ、その積を単語の重要度として用いることを特徴とする請求項1記載の対話型複数文書要約装置。
【請求項3】
要約文書提示部は、更に重要文の出所のうち注目文書以外の非注目文書の識別情報を特定し、
対話型複数文書要約装置は、更に、注目文書に含まれる注目文書内単語に1より大きい文書注目係数を設定し、非注目文書に含まれる単語であって注目文書内単語以外の注目文書外単語に1より小さい文書注目係数を設定する文書注目係数算出部を有し、
要約対象要約文書生成部は、単語の重要度に文書注目係数を乗じ、その積を単語の重要度として用いることを特徴とする請求項1記載の対話型複数文書要約装置。
【請求項4】
対話型複数文書要約装置は、更に、
検索条件文に含まれる単語の頻度に基づいて初期の検索質問ベクトルを算出し、検索質問ベクトル記憶部に記憶させる初期検索質問ベクトル算出部と、
検索質問ベクトルを記憶する検索質問ベクトル記憶部と、
文書検索エンジンに検索質問ベクトルを転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを推薦要約対象文書の識別情報とする推薦要約対象文書抽出部と、
推薦要約対象文書の識別情報により特定される推薦要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる推薦要約文書を生成する推薦要約文書生成部と、
注目文書の識別情報により特定される文書ベクトルに基づいて加算修正ベクトルを算出し、非注目文書の識別情報により特定される文書ベクトルに基づいて減算修正ベクトルを算出し、検索質問ベクトル記憶部に記憶している検索質問ベクトルに加算修正ベクトルを加算し、減算修正ベクトルを減算し、検索質問ベクトルを更新する検索質問ベクトル更新部を有し、
要約文書提示部は、推薦要約文書を表示し、操作者に対して推薦要約文書に含まれる重要文から注目文を選択するように促す推薦要約文書画面を生成し、推薦要約文書画面で選択された注目文の出所である注目文書の識別情報を特定し、前記要約文書及び当該推薦要約文書について、重要文の出所のうち注目文書以外の非注目文書の識別情報を特定することを特徴とする請求項1記載の対話型複数文書要約装置。
【請求項5】
要約対象文書の識別情報を記憶する要約対象文書記憶部を有し、複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置となるコンピュータに、以下の手順を実行させるためのプログラム
(1)検索条件文を入力する検索条件入力手順
(2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択手順
(3)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成手順
(4)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示手順
(5)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込手順。
発明の詳細な説明 【技術分野】
【0001】
本発明は、検索条件により検索した複数の文書を要約する対話型複数文書要約装置に係り、要約文書から操作者が選択する注目部位に基づいて、注目部位に関連する情報を含む要約文書を再生成する技術に関する。
【背景技術】
【0002】
通常の要約生成装置では、複数の文書から重要文を抽出し、それらを整列させて要約文書を生成する。しかし、一回の要約で操作者が欲する情報を提供できるとは限らない。

【特許文献1】特開2006-59082号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
本発明では、少ない操作と処理により、目的の情報に容易に到達できるようにすることを課題とする。
【課題を解決するための手段】
【0004】
本発明に係る対話型複数文書要約装置は、
複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置であって、以下の要素を有することを特徴とする
(1)検索条件文を入力する検索条件入力部
(2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択部
(3)要約対象文書の識別情報を記憶する要約対象文書記憶部
(4)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成部
(5)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示部
(6)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込部。
【0005】
また、要約文書提示部は、要約文書画面が操作者に対して要約文書から注目文字列を選択するように促すように生成し、要約文書画面で選択された注目文字列に含まれる注目文字列内単語を特定し、更に要約文書に含まれるが注目文字列に含まれない注目文字列外単語を特定し、
対話型複数文書要約装置は、注目文字列内単語に1より大きい文字列注目係数を設定し、注目文字列外単語に1より小さい文字列注目係数を設定する文字列注目係数算出部を有し、
要約文書生成部は、単語の重要度に文字列注目係数を乗じ、その積を単語の重要度として用いることを特徴とする。
【0006】
また、要約文書提示部は、更に重要文の出所のうち注目文書以外の非注目文書の識別情報を特定し、
対話型複数文書要約装置は、更に、注目文書に含まれる注目文書内単語に1より大きい文書注目係数を設定し、非注目文書に含まれる単語であって注目文書内単語以外の注目文書外単語に1より小さい文書注目係数を設定する文書注目係数算出部を有し、
要約対象要約文書生成部は、単語の重要度に文書注目係数を乗じ、その積を単語の重要度として用いることを特徴とする。
【0007】
また、対話型複数文書要約装置は、更に、
検索条件文に含まれる単語の頻度に基づいて初期の検索質問ベクトルを算出し、検索質問ベクトル記憶部に記憶させる初期検索質問ベクトル算出部と、
検索質問ベクトルを記憶する検索質問ベクトル記憶部と、
文書検索エンジンに検索質問ベクトルを転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを推薦要約対象文書の識別情報とする推薦要約対象文書抽出部と、
推薦要約対象文書の識別情報により特定される推薦要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる推薦要約文書を生成する推薦要約文書生成部と、
注目文書の識別情報により特定される文書ベクトルに基づいて加算修正ベクトルを算出し、非注目文書の識別情報により特定される文書ベクトルに基づいて減算修正ベクトルを算出し、検索質問ベクトル記憶部に記憶している検索質問ベクトルに加算修正ベクトルを加算し、減算修正ベクトルを減算し、検索質問ベクトルを更新する検索質問ベクトル更新部を有し、
要約文書提示部は、推薦要約文書を表示し、操作者に対して推薦要約文書に含まれる重要文から注目文を選択するように促す推薦要約文書画面を生成し、推薦要約文書画面で選択された注目文の出所である注目文書の識別情報を特定し、前記要約文書及び当該推薦要約文書について、重要文の出所のうち注目文書以外の非注目文書の識別情報を特定することを特徴とする。
【0008】
本発明に係るプログラムは、
要約対象文書の識別情報を記憶する要約対象文書記憶部を有し、複数の文書を記憶する文書データベースから文書を検索する文書検索エンジンと接続する対話型複数文書要約装置となるコンピュータに、以下の手順を実行させることを特徴とする
(1)検索条件文を入力する検索条件入力手順
(2)入力した検索条件文から検索条件式を生成し、文書検索エンジンに検索条件式を転送し、文書検索エンジンから検索結果文書の識別情報を取得し、それらを要約対象文書の識別情報とする要約対象文書選択手順
(3)要約対象文書の識別情報により特定される要約対象文書に含まれる文データに含まれる単語の重要度を算出し、当該単語の重要度に基づいて文の重要度を算出し、文の重要度に基づいて重要文を特定し、重要文からなる要約文書を生成する要約文書生成手順
(4)要約文書を表示し、操作者に対して要約文書に含まれる重要文から注目文を選択するように促す要約文書画面を生成し、要約文書画面で選択された注目文の出所である注目文書の識別情報を特定する要約文書提示手順
(5)要約対象文書記憶部に記憶している要約対象文書の識別情報群を注目文書の識別情報に更新する要約対象文書絞込手順。
【発明の効果】
【0009】
本発明によれば、操作者が選択した注目文の出所である注目文書を要約対象とするので、操作者が関心を持った情報の源から有効な要約文書を生成することができる。
【0010】
また、操作者が選択した文字列に含まれる単語の重要度を増して重要文を選択するので、操作者が関心を持った情報と直接的に関連の深い文を抽出することができる。
【0011】
また、操作者が選択した注目文の出所である注目文書に含まれる単語の重要度を増して重要文を選択するので、操作者が関心を持った情報の源と関連の深い文を抽出することができる。
【0012】
ベクトルによる文書検索で生成した推薦要約を併せて表示し、推薦要約からも注目文書を選択させるので、要約対象の文書の収束を防止することができる。
【発明を実施するための最良の形態】
【0013】
実施の形態1.
本実施の形態では、表示された要約文書中から操作者が選択した文に基づいて、当該文の出所である文書に要約の対象を絞り込む実施例を説明する。
【0014】
図1は、実施の形態1に係る全体処理フローを示す図である。検索条件入力部201による検索条件入力処理(S101)で、単語を含む検索条件文の入力を受付ける。要約対象文書選択部202による要約対象文書選択処理(S102)では、検索条件文に基づく検索条件式に従って文書データベース204内の文書を文書検索エンジン203に検索させ、検索された文書を要約対象文書とする。本処理については、図3を用いて後述する。要約文書生成部501による要約文書生成処理(S103)では、要約対象文書に含まれる文の重要度を判定し、文重要度の大きい文群からなる要約文書を生成する。本処理については、図7を用いて後述する。要約文書提示部504による要約文書提示処理(S104)では、生成した要約文書を表示するとともに、操作者に注目する部位(本形態では、文)を指示させる。本処理については、図25を用いて後述する。要約文書提示処理(S104)の終了ステータス(S105)として絞込要約ステータスを受け付けた場合に、要約対象文書絞込部506による要約対象絞込処理(S106)で前述の注目部位に従って要約文書を絞り込む。本処理については、図29を用いて後述する。終了ステータス(S105)として完了ステータスを受け付けた場合には、全体処理を終了する。
【0015】
前述の検索条件入力処理(S101)及び要約対象文書選択処理(S102)について詳述する。図2は、要約対象文書選択に係るモジュール構成を示す図である。対話型複数文書要約装置は、検索条件入力部201、要約対象文書選択部202、文書検索エンジン203、文書データベース204、及び要約対象文書記憶部205を有する。
【0016】
図3は、要約対象文書選択処理フローを示す図である。要約対象文書選択部202は、検索条件文に従って、検索条件式を生成する(S301)。そして、文書検索エンジン203に検索条件式を転送し文書を検索させ(S302)、文書検索エンジン203から検索結果の文書ID群を取得する(S303)。取得した文書ID群を要約対象文書記憶部205に記憶させる(S304)。
【0017】
図4は、要約対象文書記憶部の構成例を示す図である。検索結果の文書ID群を要約対象の文書ID群として記憶している。
【0018】
図5は、要約文書生成、要約文書提示、及び要約対象文書絞込に係るモジュール構成を示す図である。本装置は、要約文書生成部501、要約文書記憶部502、要約文書構成テーブル503、要約文書提示部504、注目文書テーブル505、及び要約対象文書絞込部506を有している。
【0019】
次に、要約文書生成部501による要約文書生成処理(S103)について詳述する。図6は、要約文書生成部の内部モジュール構成を示す図である。文書データベース204は、文書管理テーブル602、単語テーブル603、文内単語出現頻度テーブル604、文書内単語出現頻度テーブル605、文書頻度逆数テーブル606、文提供部607、及び文書データ記憶部608を有している。要約文書生成部501は、文重要度計算部601、文重要度テーブル609、重要文抽出部610、文抽出テーブル611、及び重要文整列部612を有している。
【0020】
図7は、要約文書生成処理フローを示す図である。まず、文重要度テーブル609、文抽出テーブル611、要約文書記憶部502、及び要約文書構成テーブル503をクリアする(S701)。文重要度計算部601による文重要度計算処理(S702)では、要約対象文書に含まれる文の重要度を判定する。本処理については、図8を用いて後述する。重要文抽出部610による重要文抽出処理(S703)では、文重要度に基づいて、要約文書に用いる文を抽出する。本処理については、図18を用いて後述する。重要文整列部612による重要文整列処理(S704)では、抽出した文を整列させて要約文書を生成する。本処理については、図21を用いて後述する。
【0021】
文重要度計算部601による文重要度計算処理(S702)について詳述する。図8及び図9は、文重要度計算処理フローを示す図である。要約対象文書記憶部205に記憶している要約対象文書毎に(S801)、当該要約対象文書に含まれる文毎の処理を繰り返す(S802)。文の数は、文書管理テーブル602から取得する。
【0022】
図10に、文書管理テーブルの構成例を示す。文書管理テーブル602では、文書毎にレコードを設け、文書IDと、文書作成日付と、文書データファイル名と、文書を構成する文数と、文書内単語総数の項目を対応付けて記憶するように構成されている。
【0023】
文毎の処理として、当該文を解析し、当該文に含まれる単語群を特定し(S803)、特定した各単語に対応する単語IDを特定する(S804)。これらの対応付けは、単語テーブル603より取得する。
【0024】
図11は、単語テーブルの構成例を示す図である。単語毎にレコードを設け、単語IDと、単語文字列との項目を対応付けて記憶するように構成されている。
【0025】
次に、当該文に含まれる総単語数(文中総単語数)を算出する(S805)。この文中総単語数算出処理については、図12を用いて後述する。
【0026】
そして、当該文に含まれる単語毎に以下の処理を繰り返す(S806)。単語毎の処理として、当該単語の重要度を算出する(S807)。この単語重要度算出処理については、図14を用いて後述する。そして、算出した単語重要度を累計パラメータ(初期値=0)に加算する(S808)。これらの処理を、当該文に含まれるすべての単語について処理した後(S809)、累計パラメータの値(単語重要度の総計)を文中総単語数で除算して、商を得る(S810)。そして、当該文書の文書ID及び当該文の文書内文番号と対応付けて、算出した商を文重要度テーブルに一時的に記憶させる(S811)。このようにして、当該要約対象文書に含まれるすべての文について処理すると(S812)、最後に当該要約対象文書に含まれる文群の前記商を母集団として、各商の偏差値(T-score,0~1の値)を算出し、算出した偏差値を文重要度として文重要度テーブルを書き変える(S813)。そして、すべての要約対象文書について処理した時点で終了する(S814)。
【0027】
ここで、前述の文中総単語数算出処理(S805)について詳述する。図12は、文中総単語数算出処理フローを示す図である。当該文に含まれる単語毎に以下の処理を繰り返す(S1201)。文内単語出現頻度テーブル604から当該文書の当該文中における当該単語の出現頻度(文内単語出現頻度)を取得し(S1202)、文内単語出現頻度を累計パラメータ(初期値=0)に加算する(S1203)。そして、当該文に含まれるすべての単語について処理した時点で(S1204)、累計パラメータの値(文内単語出現頻度の総計)を文中総単語数とする(S1205)。
【0028】
文内単語出現頻度テーブル604は、図13のようになっている。文書IDに対応付けられ文書毎に設けられたテーブルが文書数分設けられており、各テーブルは、当該文書内の文毎に各単語の出現頻度を記憶するように構成されている。
【0029】
更に、単語重要度算出処理(S807)について詳述する。図14は、単語重要度算出処理フローを示す図である。文内単語出現頻度テーブル604から当該文書の当該文中における当該単語の出現頻度(文内単語出現頻度)を取得し(S1401)、更に文書内単語出現頻度テーブル605から当該文書における当該単語の出現頻度(文書内単語出現頻度)を取得する(S1402)。
【0030】
文書内単語出現頻度テーブル605は、図15のようになっている。当該文書毎に各単語の出現頻度を記憶するように構成されている。
【0031】
また、文書頻度逆数テーブル606から当該単語の文書頻度の逆数(文書頻度逆数)を取得する(S1403)。
【0032】
図16は、文書頻度逆数テーブルの構成例を示す図である。単語毎に、文書頻度の逆数(IDF値)を記憶するように構成されている。
【0033】
そして、文内単語出現頻度と文書内単語出現頻度と文書頻度逆数を乗算し(S1404)、算出した積を単語重要度として文重要度テーブル609に記憶させる(S1405)。
【0034】
図17は、文重要度テーブルの構成例を示す図である。要約対象文書に含まれる文毎にレコードを設け、当該要約対象文書の文書IDと、その文書内の文番号と、その文の重要度との項目を対応付けて記憶するように構成されている。
【0035】
次に、重要文抽出部610による重要文抽出処理(S703)について詳述する。図18と図19は、重要文抽出処理フローを示す図である。この処理において、抽出文テーブルを用いる。
【0036】
図20は、文抽出テーブルの構成例を示す図である。要約対象文書に含まれる文毎にレコードを設け、当該要約対象文書の文書IDと、その文書内の文番号と、抽出フラグとの項目を対応付けて記憶するように構成されている。抽出された文を、ONとして識別する。
【0037】
まず、既選択文集合Aを空集合に初期化する(S1801)。具体的には、抽出文テーブルのすべての抽出フラグをOFFにする。次に、変数である既選択文長Lを0に初期化する(S1802)。
【0038】
そして、要約対象の文書に含まれる文の集合SSと既選択文集合Aの差集合に含まれる文(Sp∈SS\A)毎に以下の処理を行う(S1803)。具体的には、抽出文テーブルの抽出フラグがOFFの文について処理する。
【0039】
既選択文集合Aに含まれる文(Sq∈A)毎に以下の処理を繰り返す(S1804)。具体的には、抽出文テーブルの抽出フラグがONの文について処理する。差集合に含まれる文(Sp)と既選択文集合に含まれる文(Sq)の類似度(Sims(Sp,Sq))を算出する(S1805)。既選択文集合に含まれる文(Sq)のすべてについて処理した時点で(S1806)、次に移行する。
【0040】
既選択文集合に含まれる各文との組み合わせによる類似度のうち、最大の類似度(max Sims(Sp,Sq))を選択し(S1807)、最大の類似度に、(1-冗長度制御変数λ)を乗じて積を求め、積を第二項の値((1-λ)max Sims(Sp,Sq))とする(S1808)。
【0041】
文重要度テーブル609から、差集合に含まれる文(Sp)の文重要度(Imps(Sp))を読み込み(S1809)、文重要度に冗長度制御変数λを乗じて積を求め、積を第一項の値(λImps(Sp))とする(S1810)。
【0042】
そして、第一項の値から第二項の値を引いて差を求め、差を抽出評価値とする(S1811)。差集合に含まれる文(Sp)のすべてについて処理すると(S1812)、差集合に含まれる文(Sp)のうち、前記抽出評価値が最大となる文(Sp)を特定する(S1813)。
【0043】
前記抽出評価値が最大の文の長さ(|Sp|)を既選択文長Lに加え(S1814)、既選択文長Lが要約文書制限長を越えた場合には(S1815)、終了する。越えていない場合には、前記抽出評価値が最大の文(Sp)を既選択文集合Aに加える(S1816)。具体的には、抽出文テーブルの当該文の文IDに対応する抽出フラグをONにする。そして、処理を繰り返す。
【0044】
次に、重要文整列部612による重要文整列処理(S704)について詳述する。図21は、重要文整列処理フローを示す図である。最初に、要約対象の文書について非階層型のクラスタリングを行なう(S2101)。そして、そのクラスタ間の順序付けを行なう(S2102)。例えば、文書作成日付に基づいて順序付けを行なう。更に、クラスタ内の文書間の順序付けを行なう(S2103)。
【0045】
そして、文書の順序付けに従って、文書毎に以下の処理を繰り返す(S2104)。文抽出テーブルの抽出フラグがONのレコードのうち、そのレコードに含まれる文書IDが当該文書のIDと一致するレコードを検索し(S2105)、検索したレコード群について、それらのレコードに含まれる文書内文番号の順に従ってレコード毎に以下の処理を繰り返す(S2106)。文書データベース204の文提供部607から当該レコードに含まれる文書IDと文書内文番号により特定される文データ(文字列)を取得し(S2107)、取得した文データ(文字列)を、要約文書記憶部に順に記憶させる(S2108)
図22は、要約文書記憶部の構成例を示す図である。要約内文番号の順に従って重要文を記憶している。
【0046】
また、当該文書IDと当該文書内文番号を対応付けて、要約文構成テーブル503に順に記憶させる(S2109)。
【0047】
図23は、要約文書構成テーブルの構成例を示す図である。要約文書内の文毎にレコードを設け、要約内文番号の順に従って文書IDと、その文書内の文番号の項目を対応付けて記憶するように構成されている。
【0048】
そして、すべてのレコードについて処理すると(S2110)、次の文書の処理に移り、最終的に順序付けしたすべての文書について処理した時点で終了する(S2111)。
【0049】
次に、前述の要約文書提示部504による要約文書提示処理(S104)について詳述する。
図24は、要約文書提示部の内部モジュール構成を示す図である。要約文書提示部504は、要約文書画面生成部2401、要約文書画面記憶部2402、要約文書画面出力部2403、注目部位取得部2404、注目文記憶部2405、及び注目文書判定部2406を有している。
【0050】
図25は、要約文書提示処理フローを示す図である。まず、注目文記憶部2405、及び注目文書テーブル505をクリアする(S2501)。そして、要約文書画面生成部2401による要約文書画面生成処理(S2502)で、要約文書を表示し、要約文書中の注目部位(この例では、注目する文書)の選択などの指示を促す要約文書画面を生成する。本処理については、図26を用いて後述する。次に、要約文書画面出力部2403による要約文書画面出力処理で(S2503)、生成した要約文書画面を出力する。つまし、表示のために表示装置に送信する。そして、要約文書画面上での操作による指示を受け付ける(S2504)。注目文を選択する指示の場合には、注目部位取得部2404による注目文取得処理(S2505)で、選択された注目文を特定する。詳しくは、図27を用いて後述する。受け付けた指示が絞込を要求する指示の場合には、注目文書判定部2406による注目文書判定処理(S2506)で、注目文書を特定し、本処理の終了ステータスを絞込要約ステータスとして終了する(S2507)。注目文書判定処理(S2506)については、図28を用いて後述する。受け付けた指示が完了の指示の場合には、本処理の終了ステータスを完了ステータスとして終了する(S2508)。
【0051】
要約文書画面生成部2401による要約文書画面生成処理(S2502)について詳述する。図26は、要約文書画面生成処理フローを示す図である。要約文書記憶部502から順次重要文の文データを読み出し、以下の処理を繰り返す(S2601)。まず、文データの要約文書内文番号を特定する。具体的には、要約文書内文番号(初期値=0)をインクリメントする(S2602)。そして、要約文書画面に含まれる新たな文イベントを設け(S2603)、文アイテムの表示データとして、文データを設定する(S2604)。また、文アイテムの返信データとして、要約文書内文番号を設定する(S2605)。これにより、操作者が画面上で当該文データを選択した場合に、要約文書内文番号が返信されるようになる。そして、すべての文データについて処理した時点で終了する(S2606)。
【0052】
次に、注目部位取得部2404による注目文取得処理(S2505)について詳述する。図27は、注目文取得処理フローを示す図である。操作者の操作により選択された文アイテムの返値として、要約文書内文番号を取得し(S2701)、取得した要約文書内文番号を、注目文記憶部2405に追加記憶させる(S2702)。
【0053】
次に、注目文書判定部2406による注目文書判定処理(S2506)について詳述する。図28は、注目文書判定処理フローを示す図である。注目文記憶部2405に記憶している要約文書内注目文番号を順次読み出し、以下の処理を繰り返す(S2801)。要約文書構成テーブル503から要約文書内注目文番号に対応する文書IDを取得し(S2802)、取得した文書IDを注目文書テーブル505に記憶させる(S2803)。そして、すべての要約文書内注目文番号について処理した時点で終了する(S2804)。
【0054】
続いて、要約対象文書絞込部506による要約対象絞込処理(S106)について詳述する。図29は、要約対象文書絞込処理フローを示す図である。注目文書テーブル505から文書ID群を読み取る(S2901)。要約対象文書記憶部205を、読み取った文書ID群に書き換える(S2902)。このようにして、要約対象文書が絞り込まれる。
【0055】
実施の形態2.
本実施の形態では、表示された要約文書中から操作者が選択した文字列に基づいて、当該文字列に含まれる単語に対して重み付けを施して、要約文書を再生成する実施例について説明する。この例では、単語に対して重み付けとしてBIASw(文字列注目係数)を用いる。
【0056】
図30は、実施の形態2に係る全体処理フローを示す図である。本実施の形態では、要約文書生成部501による要約文書生成処理(S3003)で、文字列注目係数を用いた文重要度の算出を行う。本処理については、図39を用いて後述する。また、要約文書提示処理(S3004)では、注目部位として注目する文字列の指示の入力を受け付ける。つまり、選択した文字列を返信するように構成された要約文書表示画面を生成する。また、文字列注目係数算出部3103による文字列注目係数算出処理(S3007)では、選択された文字列に従って、文字列注目係数を設定する処理を行なう。本処理については、図37を用いて後述する。
【0057】
図31は、要約文書提示及び文字列注目係数算出に係るモジュール構成を示す図である。対話型複数文書要約装置は、注目文字列内単語テーブル3101、注目文字列外単語テーブル3102、文字列注目係数算出部3103、及び文字列注目係数テーブル3104を有している。
【0058】
要約文書提示部504による要約文書提示処理(S3003)について詳述する。図32は、要約文書提示部の内部モジュール構成を示す図である。要約文書提示部504は、注目文字列記憶部3201、注目文字列内単語判定部3202、及び注目文字列外単語判定部3203を有している。
【0059】
要約文書提示部504による要約文書提示処理(S3003)について詳述する。図33は、要約文書提示処理フローを示す図である。まず、注目文記憶部2405、注目文書テーブル505、注目文字列記憶部3201、注目文字列内単語テーブル3101、及び注目文字列外単語テーブル3102をクリアする(S3301)。要約文書画面生成処理(S3302)では、選択した文字列を返信するように文アイテムを設定した要約文書表示画面を生成する。尚、前述の例と同様に当該文字列を含む要約文書内文番号も返信する。要約文書画面出力処理(S3303)では、当該画面を出力する。指示受付処理(S3304)で、注目する文字列が指示された場合には、注目部位取得部2404による注目文字列取得処理(S3305)で、選択された要約文書内文番号に併せて選択された文字列を取得する。本処理については、図34を用いて後述する。受け付けた指示が、絞込要求指示の場合には、注目文書判定部2406による注目文書判定処理(S3306)で、注目文書を判定し、注目文字列内単語判定部3202による注目文字列内単語判定処理(S3307)で、注目文字列に含まれる単語を判定する。本処理については、図35を用いて後述する。また、注目文字列外単語判定部3203による注目文字列外単語判定処理(S3308)で、要約文書に含まれるそれ以外の単語を判定する。本処理については、図36を用いて後述する。
【0060】
注目部位取得部2404による注目文字列取得処理(S3305)について詳述する。図34は、注目文字列取得処理フローを示す図である。要約文書から選択された文字列と、当該文字列を含む文の要約文書内文番号を返値として取得し(S3401)、取得した文字列を、注目文字列として注目文字列記憶部3201に追加記憶させ(S3402)、取得した要約文書内文番号を、注目文記憶部2405に追加記憶させる(S3403)。
【0061】
注目文字列内単語判定部3202による注目文字列内単語判定処理(S3307)について詳述する。図35は、注目文字列内単語判定処理フローを示す図である。注目文字列記憶部3201に記憶している注目文字列を順次読み出し、以下の処理を繰り返す(S3501)。注目文字列を解析し、注目文字列に含まれる単語群を抽出し(S3502)、抽出した単語毎に以下の処理を繰り返す(S3503)。単語毎の処理として、単語テーブル603から当該単語に対応する単語IDを検索し(S3504)、当該単語IDを注目単語のIDとして注目文字列内単語テーブルに追加記憶させる(S3505)。但し、重複する単語IDは除く。すべての単語について処理すると(S3506)、次の注目文字列の処理に移行し、すべての注目文字列について処理した時点で終了する(S3507)。
【0062】
次に、注目文字列外単語判定部3203による注目文字列外単語判定処理(S3308)について詳述する図36は、注目文字列外単語判定処理フローを示す図である。要約文書記憶部要約文書記憶部502から重要文の文データを順次読み出し、以下の処理を繰り返す(S3601)。文データを解析し、文データに含まれる単語群を抽出し(S3602)、抽出した単語毎に以下の処理を繰り返す(S3603)。単語テーブル603から当該単語に対応する単語IDを検索する(S3604)。特定した単語IDは、注目文字列内単語テーブル3101に含まれているか判定し(S3605)、含まれていない場合に、当該単語IDを注目文字列外単語のIDとして注目文字列外単語テーブル3102に追加記憶させる(S3606)。但し、重複する単語IDは除く。すべての単語について処理すると(S3607)、次の重要文の文データの処理に移行し、すべての文データについて処理した時点で終了する(S3608)。
【0063】
次に、文字列注目係数算出部3103による文字列注目係数算出処理(S3007)について詳述する。図37は、文字列注目係数算出処理フローを示す図である。注目文字列内単語テーブル3102から注目文字列内単語のID群を読み出し(S3701)、すべての注目文字列内単語IDについて、注目文字列内単語IDに注目文字列内単語に係る文字列注目係数(1.0より大きい数値、例えば、定数2.0)を対応付けて文字列注目係数テーブル3104に記憶させる(S3702)。また、注目文字列外単語テーブル3102から注目文字列外単語のID群を読み出し(S3703)、すべての注目文字列外単語IDについて、注目文字列外単語IDに注目文字列外単語に係る文字列注目係数(1.0より小さい数値、例えば、定数0.5)を対応付けて文字列注目係数テーブル3104に記憶させる(S3704)。
【0064】
続いて、要約文書生成処理(S3003)内の文重要度計算処理(S702)について詳述する。図38は、文重要度計算に係るモジュール構成を示す図である。図39は、単語重要度算出処理フローを示す図である。S3905までは、前述の実施例と同様である。そして、文字列注目係数テーブル3104に当該単語のIDがあるか判定し(S3906)、有る場合には文字列注目係数テーブル3104から、当該単語IDに対応する文字列注目係数を読み出し(S3907)、その文字列注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S3908)。
【0065】
これにより、要約文書内で注目された文字列内の単語を優先した単語重要度が算出されるようになる。そして、この単語重要度を用いて文重要度を算出する(図8)。
【0066】
実施の形態3.
本実施の形態では、表示された要約文書中から操作者が選択した部位(文あるいは文字列)に基づいて、当該部位の出所である要約対象文書に含まれる単語に対して重み付けを施して、要約文書を再生成する実施例について説明する。この例では、単語に対して重み付けとしてBIASd(文書注目係数)を用いる。
【0067】
図40は、実施の形態3に係る全体処理フローを示す図である。本実施の形態では、要約文書提示部504による要約文書提示処理(S4004)で、文書注目係数を用いた文重要度の算出を行う。本処理については、図50を用いて後述する。文書注目係数算出部4301による文書注目係数算出処理(S4007)では、選択された部位を含む要約対象文書に基づいて文書注目係数を設定する処理を行なう。本処理については、図45を用いて後述する。
【0068】
図41は、要約文書提示処理フローを示す図である。注目文書判定処理(S4106)に続いて非注目文書判定処理(S4107)を行なう。
【0069】
非注目文書判定処理(S4107)について詳述する。図42は、非注目文書判定処理フローを示す図である。要約文書構成テーブル503から文書IDを順次読み出し、以下の処理を繰り返す(S4201)。当該文書IDが注目文書テーブル505に記憶されているいずれかの注目文書IDと一致するか判定し(S4202)、一致しない場合に当該文書IDを非注目文書のIDとして非注目文書テーブル4303に追加記憶させる(S4203)。但し、重複する文書IDは除く。そして、すべての文書IDについて処理した時点で終了する(S4204)。
【0070】
文書注目係数算出部4301による文書注目係数算出処理(S4007)について詳述する。図43は、要約文書提示及び文書注目係数算出に係るモジュール構成を示す図である。対話型複数文書要約装置は、文書注目係数算出部4301及び文書注目係数テーブル4302を有している。
【0071】
図44は、文書注目係数算出部の内部モジュール構成を示す図である。文書注目係数算出部4301は、注目文書内単語抽出部4401、注目文書内単語テーブル4402、注目文書外単語抽出部4403、注目文書外単語テーブル4404、及び係数設定部4405を有している。
【0072】
図45は、文書注目係数算出処理フローを示す図である。注目文書内単語抽出処理(S4501)では、操作者から指示された部位を含む文(注目文)の出所である注目文書に含まれる単語を抽出する。詳しくは、図46を用いて後述する。また、注目文書外単語抽出処理(S4502)では、それ以外の単語を抽出する。詳しくは、図47を用いて後述する。係数設定処理(S4503)では、文書注目係数を設定する。詳しくは、図48を用いて後述する。
【0073】
まず、注目文書内単語抽出処理(S4501)について詳述する。図46は、注目文書内単語抽出処理フローを示す図である。注目文書テーブル505から注目文書IDを順次読み出し、以下の処理を繰り返す(S4601)。当該注目文書IDの文書に含まれる文を順次読み出し、以下の処理を繰り返す(S4602)。文毎の処理として、当該文を解析し、当該文に含まれる単語群を特定し(S4603)、単語テーブル603から当該単語に対応する単語IDを検索し(S4604)、特定した単語IDを注目文書内単語IDとして注目文書内単語テーブル4402に記憶させる(S4605)。これらの処理をすべての単語について処理すると(S4606)、次の文の処理に移行する。そしてすべての文について処理すると(S4607)、次の注目文書IDの処理に移行し、すべての注目文書IDについて処理した時点で終了する(S4608)。
【0074】
次に、注目文書外単語抽出処理(S4502)について詳述する。図47は、注目文書外単語抽出処理フローを示す図である。単語テーブル602から単語IDを順次読み出し、以下の処理を繰り返す(S4701)。当該単語IDは、注目文書内単語テーブル4402に記憶しているいずれかの注目文書内単語IDと一致するか判定し(S4702)、一致しない場合に当該単語IDを注目文書外単語IDとして注目文書外単語テーブル4404に記憶させる(S4703)。そして、すべての単語IDについて処理した時点で終了する(S4704)。
【0075】
次に、係数設定処理(S4503)について詳述する。図48は、係数設定処理フローを示す図である。注目文書内単語テーブル4402から注目文書内単語ID群を読み出し(S4801)、すべての注目文書内単語IDについて、注目文書内単語IDに注目文書内単語に係る文書注目係数(1.0より大きい数値、例えば、定数2.0)を対応付けて文書注目係数テーブル4302に記憶させる(S4802)。また、注目文書外単語テーブル4404から注目文書外単語ID群を読み出し(S4803)、すべての注目文書外単語IDについて、注目文書外単語IDに注目文書外単語に係る文書注目係数(1.0より小さい数値、例えば、定数0.5)を対応付けて文書注目係数テーブル4302に記憶させる(S4804)。
【0076】
続いて、要約文書生成処理(S4003)内の文重要度計算処理(S702)について詳述する。図49は、文重要度計算に係るモジュール構成を示す図である。図50は、単語重要度算出処理フローを示す図である。S5005までは、前述の例と同様である。文書注目係数テーブルに当該単語のIDがあるか判定し(S5006)、ある場合には文書注目係数テーブル4302から、当該単語IDに対応する文書注目係数を読み出し(S5007)、文書注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S5008)。
【0077】
これにより、要約文書内で注目された文の出所である要約対象文書に含まれる単語を優先した単語重要度が算出されるようになる。そして、この単語重要度を用いて文重要度を算出する(図8)。
【0078】
実施の形態4.
実施の形態2の注目文字列内単語係数と実施の形態3の注目文書内単語係数を併せて用いることもできる。
【0079】
図51は、実施の形態4に係る全体処理フローを示す図である。
【0080】
要約文書提示処理(S5104)では、注目文字列と注目文の両方を取得する。そして、注目文字列内単語係数算出処理(S5107)と注目文書内単語係数算出処理(S5108)を行なう。
【0081】
また、要約文書生成処理(S5103)内の文重要度計算処理(S702)では、両係数を単語重要度に乗算する。図52は、単語重要度算出処理フローを示す図である。文字列注目係数テーブル3104に当該単語のIDがある場合には(S5202)、文字列注目係数テーブル3104から、当該単語IDに対応する文字列注目係数を読み出し(S5203)、文字列注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S5204)。更に、文書注目係数テーブル4302に当該単語のIDがある場合には(S5205)、文書注目係数テーブル4302から、当該単語IDに対応する文書注目係数を読み出し(S5206)、更に文書注目係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S5207)。
【0082】
実施の形態5.
上述の実施例のように検索条件文を変換した検索条件式による文書検索に基づく要約文書を主要約文書とし、更に検索条件文から生成した検索質問ベクトルによる文書検索に基づく推薦要約文書を生成し、両要約文書を同時に提示し、両要約文書画面から前述の注目文や注目文字列の指示の入力を受け付ける実施例について説明する。
【0083】
図53は、実施の形態5に係る全体処理フローを示す図である。
【0084】
検索条件入力処理(S5301)と(主)要約対象文書選択処理(S5302)は、前述と同様である。初期検索質問ベクトル算出部5401による初期検索質問ベクトル算出処理(S5303)では、検索条件文に基づいて検索質問ベクトルの初期化を行なう。本処理については、図57を用いて後述する。(主)要約文書生成処理(S5304)は、前述と同様である。推薦要約対象文書抽出部5403による推薦要約対象文書抽出処理(S5305)では、文書ベクトルと検索質問ベクトルの類似度を算出し、類似度の大きい順に文書を抽出する処理を行なう。例えば、文書検索エンジン203は、204から順次文書ベクトルを読み出し、その文書ベクトルと検索質問ベクトルのなす角を算出し、その角の余弦値を算出して類似度とする。そして、余弦値の大きい順に所定数の文書のIDを推薦要約対象文書の文書IDとして出力する。推薦要約文書生成処理(S5306)では、検索された推薦要約対象文書に基づいて推薦要約文書を生成する。本処理については、図61を用いて後述する。要約文書提示部504による要約文書同時提示処理(S5307)では、(主)要約文書画面と推薦要約文書画面を同時に出力し、いずれの要約文書からでも注目部位の指示を受け付ける。本処理については、図63を用いて後述する。(主)要約対象文書絞込処理(S5309)は、前述と同様である。検索質問ベクトル更新部6401による検索質問ベクトル更新処理(S5310)では、注目文書と非注目文書に基づいて検索質問ベクトルを更新する。本処理については、図66を用いて後述する。
【0085】
図54は、初期検索質問ベクトル算出と推薦要約対象文書抽出に係るモジュール構成を示す図である。対話型複数文書要約装置は、初期検索質問ベクトル算出部5401、検索質問ベクトル記憶部5402、推薦要約対象文書抽出部5403、及び推薦要約対象文書記憶部5404を有している。
【0086】
図55は、検索質問ベクトル記憶部の構成例を示す図である。単語毎に検索質問ベクトルの成分を記憶するように構成されている。
【0087】
図56は、初期検索質問ベクトル算出部の内部モジュール構成を示す図である。初期検索質問ベクトル算出部5401は、検索条件内単語出現頻度算出部5601、検索条件内単語出現頻度テーブル5602、及び初期検索質問ベクトル成分算出部5603を有している。
【0088】
初期検索質問ベクトル算出部5401による初期検索質問ベクトル算出処理(S5303)について詳述する。図57は、初期検索質問ベクトル算出処理フローを示す図である。検索条件内単語出現頻度算出部5601による検索条件内単語出現頻度算出処理(S5701)では、検索条件内における単語の出現頻度を算出する。本処理については、図58を用いて後述する。そして、初期検索質問ベクトル成分算出部5603による初期検索質問ベクトル成分算出処理(S5702)では、検索条件内単語出現頻度に基づいて初期検索質問ベクトル成分を算出する。本処理については、図60を用いて後述する。
【0089】
検索条件内単語出現頻度算出部5601による検索条件内単語出現頻度算出処理(S5701)について詳述する。図58は、検索条件内単語出現頻度算出処理フローを示す図である。まず、検索条件内単語出現頻度テーブル5602のすべての検索条件内単語出現頻度を0にする(S5801)。そして、検索条件入力部201によるS5301の処理で受け付けた検索条件文を解析し、検索条件文に含まれる単語群を抽出し(S5802)、抽出した単語毎に以下の処理を繰り返す(S5803)。単語毎の処理として、単語テーブル603から当該単語に対応する単語IDを検索し(S5804)、検索条件内単語出現頻度テーブル5602上で、当該単語IDに対応する検索条件内単語出現頻度をインクリメント(+1)する(S5805)。これをすべての単語について行なう(S5806)。
【0090】
図59は、検索条件内単語出現頻度テーブルの構成例を示す図である。単語毎に検索条件内単語出現頻度を記憶するように構成されている。
【0091】
次に、初期検索質問ベクトル成分算出部5603による初期検索質問ベクトル成分算出処理(S5702)について詳述する。図60は、初期検索質問ベクトル成分算出処理フローを示す図である。まず、検索質問ベクトル記憶部5402の検索質問ベクトルのすべての成分を0にする(S6001)。そして、検索条件内単語出現頻度テーブル5602に含まれる検索条件内単語出現頻度のうち最大値を求める(S6002)。続いて、検索条件文に含まれる単語毎に以下の処理を繰り返す(S6003)。当該単語IDに対応する検索条件内単語出現頻度を検索条件内単語出現頻度テーブル5602から読み出し(S6004)、検索条件内単語出現頻度を検索条件内単語出現頻度の最大値で割って、商を求める(S6005)。当該単語IDに対応する文書頻度逆数を文書頻度逆数テーブル606から読み出し(S6006)、前記商に1を加え、その和に文書頻度逆数を乗じて、積を求め、その積を初期検索質問ベクトルの成分として、当該単語IDに対応付けて検索質問ベクトル記憶部5402に記憶させる(S6007)。そして、すべての単語について処理した時点で終了する(S6008)。
【0092】
図61は、推薦要約文書生成と要約文書提示に係るモジュール構成を示す図である。対話型複数文書要約装置は、推薦要約文書生成部6101、推薦要約文書記憶部6102、推薦要約文書構成テ-ブル6103、及び推薦要約対象文書記憶部6104を有する。推薦要約文書生成の手順は、(主)要約文書生成と同様である。但し、要約の対象となる文書が異なるので別に行なわれる。
【0093】
図62は、要約文書提示部の内部モジュール構成を示す図である。要約文書提示部504は、非注目文書判定部6201を有している。
【0094】
図63は、要約文書提示処理フローを示す図である。まず、注目文記憶部2405、注目文書テーブル505、及び非注目文書テーブル4303をクリアする(S6301)。(主)要約文書画面生成処理(S6302)と推薦要約文書画面生成処理(S6303)に続いて、(主)要約文書画面出力処理(S6304)と推薦要約文書画面出力処理(S6305)を行なう。両画面は、例えば一体の枠内に上下あるは左右に並べて表示する。注目部位取得部2404による注目文取得処理(S6307)では、いずれの要約文書からでも注目文を取得する。絞込要求指示を受け付けた場合には、注目文書判定部2406による注目文書判定処理(S6308)では、推薦要約文書画面から注目文指示を受け付けた場合には、推薦要約文書構成テーブル6103に基づいて注目文書を特定する。続いて、非注目文書判定部6201による非注目文書判定処理(S6309)を行なう。この処理では、注目文書以外の非注目文書を判定する。特に、図42のS4201では、要約文書構成テーブル503及び推薦要約文書構成テーブル6103から文書IDを順次読み出し、以下の処理を繰り返す。
【0095】
図64は、検索質問ベクトル更新に係るモジュール構成を示す図である。対話型複数文書要約装置は、検索質問ベクトル更新部6401を有している。また、文書データベース204は、内部に設けた文書ベクトルテーブル6802から文書ベクトルを提供する。
【0096】
図65は、文書ベクトルテーブルの構成例を示す図である。文書毎に文書ベクトルを記憶するように構成されており、文書ベクトルは、各単語に対応する文書ベクトル成分から構成されている。文書ベクトルの算出については、図70を用いて後述する。
【0097】
検索質問ベクトル更新部6401による検索質問ベクトル更新処理(S5310)について詳述する。図66は、検索質問ベクトル更新処理フローを示す図である。まず、加算修正ベクトル算出処理(S6601)で、検索質問ベクトルを修正するために加算するベクトル値を算出する。本処理については、図67を用いて後述する。次に、減算修正ベクトル算出処理(S6602)で、検索質問ベクトルを修正するために減算するベクトル値を算出する。本処理については、図68を用いて後述する。そして、検索質問ベクトル記憶部から旧検索質問ベクトルを読み出し(S6603)、旧検索質問ベクトルに加算修正ベクトルを加算し、更に減算修正ベクトルを減算し、新検索質問ベクトルを求める(S6604)。求めた新検索質問ベクトルを検索質問ベクトル記憶部5402に書き込む(S6605)。
【0098】
図67は、加算修正ベクトル算出処理フローを示す図である。注目文書テーブル505に記憶している各注目文書IDについて、以下の処理を繰り返す(S6701)。当該注目文書IDに対応する文書ベクトルを読み出し(S6702)、文書ベクトルを注目文書累計ベクトル(初期値:0ベクトル)に加算する(S6703)。すべての注目文書IDについて処理すると(S6704)、注目文書累計ベクトルを注目文書の総数で割って、注目文書平均ベクトルを求め(S6705)、注目文書平均ベクトルに注目文書更新寄与係数(例えば、2.0)を乗じて、加算修正ベクトルを得る(S6706)。
【0099】
図68は、減算修正ベクトル算出処理フローを示す図である。非注目文書テーブル4303に記憶している各非注目文書IDについて、以下の処理を繰り返す(S6801)。当該非注目文書IDに対応する文書ベクトルを読み出し(S6802)、文書ベクトルを非注目文書累計ベクトル(初期値:0ベクトル)に加算する(S6803)。すべての非注目文書IDについて処理すると(S6804)、非注目文書累計ベクトルを非注目文書の総数で割って、非注目文書平均ベクトルを求め(S6805)、非注目文書平均ベクトルに非注目文書更新寄与係数(例えば、0.5)を乗じて、減算修正ベクトルを得る(S6806)。
【0100】
ここで、文書データベース204内部における文書ベクトル算出について説明する。図68は、文書ベクトル算出に係る文書データベースのモジュール構成を示す図である。文書データベース204は、文書ベクトル算出部6901を有している。
【0101】
図70は、文書ベクトル算出処理フローを示す図である。文書管理テーブル602で管理している各文書について、以下の処理を繰り返す(S7001)。文書管理テーブル602から当該文書の文書内単語総数を読み出す(S7002)。そして、各単語について、以下の処理を繰り返す(S7003)。文書内単語出現頻度テーブル605から当該文書の当該単語に係る文書内単語出現頻度を読み出し(S7004)、更に文書頻度逆数テーブル606から当該単語の文書頻度逆数を読み出す(S7005)。そして、文書内単語出現頻度を文書内単語総数で割り、その商に文書頻度逆数を乗じて積を求め(S7006)、算出した積を当該文書の当該単語に係る文書ベクトル成分として、文書ベクトルテーブル6902に記憶させる(S7007)。すべての単語について処理すると(S7008)、次の文書の処理に移行し、すべての文書について処理した時点で終了する(S7009)。これにより、図65に示した文書ベクトルテーブル6902が得られる。
【0102】
実施の形態6.
実施の形態5に実施の形態2の特徴を加えることも有効である。図71は、実施の形態6に係る全体処理フローを示す図である。
【0103】
実施の形態7.
実施の形態5に実施の形態3の特徴を加えることも有効である。図72は、実施の形態7に係る全体処理フローを示す図である。
【0104】
実施の形態8.
実施の形態5に実施の形態4の特徴を加えることも有効である。図73は、実施の形態8に係る全体処理フローを示す図である。
【0105】
実施の形態9.
前述の例では、主要約文書画面と推薦要約文書画面を同時に表示したが、一方のみを表示し、切換指示を受け付けた場合に他方の画面に切り換えることもできる。図74は、実施の形態9に係る全体処理フローを示す図である。
【0106】
要約文書提示部504による要約文書(切換)提示処理(S7407)では、両画面の切り換えを行なう。図75と図76は、要約文書(切換)提示処理フローを示す図である。(主)要約画面を出力中に画面の切換指示を受け付けた場合には(S7504)、推薦要約文書画面生成処理(S7511)に移行し、推薦要約文書画面出力処理(S7512)を行なう。また、推薦要約画面を出力中に画面の切換指示を受け付けた場合には(S7513)、(主)要約文書画面生成処理(S7502)に移行し、(主)要約文書画面出力処理(S7503)を行なう。S7507以下では、要約文書構成テーブル503を用いて注目文書と非注目文書を判定し、S7516以下では、推薦要約文書構成テ-ブル6103を用いて注目文書と非注目文書を判定する。
【0107】
実施の形態10.
実施の形態2から要約対象文書絞込の処理を除くこともできる。この場合には、同じ要約対象文書群に基づいて、新たな要約文書が生成される。図77は、実施の形態10に係る全体処理フローを示す図である。
【0108】
実施の形態11.
実施の形態3から要約対象文書絞込の処理を除くこともできる。この場合には、同じ要約対象文書群に基づいて、新たな要約文書が生成される。図78は、実施の形態11に係る全体処理フローを示す図である。
【0109】
実施の形態12.
実施の形態4から要約対象文書絞込の処理を除くこともできる。この場合には、同じ要約対象文書群に基づいて、新たな要約文書が生成される。図79は、実施の形態12に係る全体処理フローを示す図である。
【0110】
実施の形態13.
実施の形態5から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図80は、実施の形態13に係る全体処理フローを示す図である。
【0111】
実施の形態14.
実施の形態6から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図81は、実施の形態14に係る全体処理フローを示す図である。
【0112】
実施の形態15.
実施の形態7から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図82は、実施の形態15に係る全体処理フローを示す図である。
【0113】
実施の形態16.
実施の形態8から主要約文書に関する処理を除くこともできる。この場合には、推薦要約文書のみが生成され、提示される。図83は、実施の形態16に係る全体処理フローを示す図である。
【0114】
実施の形態17.
本実施の形態では、検索条件文に含まれる単語に対して重み付けを施して、要約文書を再生成する実施例について説明する。この例では、単語に対して重み付けとしてBIASs(検索キーワード係数)を用いる。
【0115】
図84は、実施の形態17に係る全体処理フローを示す図である。検索キーワード係数算出部8501による検索キーワード係数算出処理(8303)で算出した検索キーワード係数を用いて、文重要度を計算する。
【0116】
図85は、検索キーワード係数算出に係るモジュール構成を示す図である。対話型複数文書要約装置は、検索キーワード係数算出部8501及び検索キーワード係数テーブル8502を有している。
【0117】
図86は、検索キーワード係数算出処理フローを示す図である。検索条件文を解析し、検索条件文に含まれる単語として検索キーワード群を特定する(S8601)。そして、検索キーワード毎に、以下の処理を繰り返す(S8602)、当該検索キーワードの単語に対応する単語IDを特定し(S8603)、単語IDに検索キーワード係数(1.0より大きい数値、例えば、定数2.0)を対応付けて検索キーワード係数テーブルに記憶させる(S8604)。すべての検索キーワードについて処理した時点で終了する(S8605)。
【0118】
要約文書生成処理(S8404)内の単語重要度算出処理(S702)について詳述する。図87は、単語重要度算出処理フローを示す図である。検索キーワード係数テーブル8502に当該単語のIDがある場合には(S8702)、検索キーワード係数テーブル8502から、当該単語IDに対応する検索キーワード係数を読み出す(S8703)。そして、検索キーワード係数を単語重要度に乗じて、算出した積を単語重要度として用いる(S8704)。
【0119】
検索キーワード係数を用いる形態は、上述の実施の形態1乃至16のいずれにも適用することができる。
【0120】
対話型複数文書要約装置は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
【図面の簡単な説明】
【0121】
【図1】実施の形態1に係る全体処理フローを示す図である。
【図2】要約対象文書選択に係るモジュール構成を示す図である。
【図3】要約対象文書選択処理フローを示す図である。
【図4】要約対象文書記憶部の構成例を示す図である。
【図5】要約文書生成、要約文書提示、及び要約対象文書絞込に係るモジュール構成を示す図である。
【図6】要約文書生成部の内部モジュール構成を示す図である。
【図7】要約文書生成処理フローを示す図である。
【図8】文重要度計算処理フロー(1/2)を示す図である。
【図9】文重要度計算処理フロー(2/2)を示す図である。
【図10】文書管理テーブルの構成例を示す図である。
【図11】単語テーブルの構成例を示す図である。
【図12】文中総単語数算出処理フローを示す図である。
【図13】文内単語出現頻度テーブルの構成例を示す図である。
【図14】単語重要度算出処理フローを示す図である。
【図15】文書内単語出現頻度テーブルの構成例を示す図である。
【図16】文書頻度逆数テーブルの構成例を示す図である。
【図17】文重要度テーブルの構成例を示す図である。
【図18】重要文抽出処理フロー(1/2)を示す図である。
【図19】重要文抽出処理フロー(2/2)を示す図である。
【図20】文抽出テーブルの構成例を示す図である。
【図21】重要文整列処理フローを示す図である。
【図22】要約文書記憶部の構成例を示す図である。
【図23】要約文書構成テーブルの構成例を示す図である。
【図24】要約文書提示部の内部モジュール構成を示す図である。
【図25】要約文書提示処理フローを示す図である。
【図26】要約文書画面生成処理フローを示す図である。
【図27】注目文取得処理フローを示す図である。
【図28】注目文書判定処理フローを示す図である。
【図29】要約対象文書絞込処理フローを示す図である。
【図30】実施の形態2に係る全体処理フローを示す図である。
【図31】要約文書提示及び文字列注目係数算出に係るモジュール構成を示す図である。
【図32】要約文書提示部の内部モジュール構成を示す図である。
【図33】要約文書提示処理フローを示す図である。
【図34】注目文字列取得処理フローを示す図である。
【図35】注目文字列内単語判定処理フローを示す図である。
【図36】注目文字列外単語判定処理フローを示す図である。
【図37】文字列注目係数算出処理フローを示す図である。
【図38】文重要度計算に係るモジュール構成を示す図である。
【図39】単語重要度算出処理フローを示す図である。
【図40】実施の形態3に係る全体処理フローを示す図である。
【図41】要約文書提示処理フローを示す図である。
【図42】非注目文書判定処理フローを示す図である。
【図43】要約文書提示及び文書注目係数算出に係るモジュール構成を示す図である。
【図44】文書注目係数算出部の内部モジュール構成を示す図である。
【図45】文書注目係数算出処理フローを示す図である。
【図46】注目文書内単語抽出処理フローを示す図である。
【図47】注目文書外単語抽出処理フローを示す図である。
【図48】係数設定処理フローを示す図である。
【図49】文重要度計算に係るモジュール構成を示す図である。
【図50】単語重要度算出処理フローを示す図である。
【図51】実施の形態4に係る全体処理フローを示す図である。
【図52】単語重要度算出処理フローを示す図である。
【図53】実施の形態5に係る全体処理フローを示す図である。
【図54】初期検索質問ベクトル算出と推薦要約対象文書抽出に係るモジュール構成を示す図である。
【図55】検索質問ベクトル記憶部の構成例を示す図である。
【図56】初期検索質問ベクトル算出部の内部モジュール構成を示す図である。
【図57】初期検索質問ベクトル算出処理フローを示す図である。
【図58】検索条件内単語出現頻度算出処理フローを示す図である。
【図59】検索条件内単語出現頻度テーブルの構成例を示す図である。
【図60】初期検索質問ベクトル成分算出処理フローを示す図である。
【図61】推薦要約文書生成と要約文書提示に係るモジュール構成を示す図である。
【図62】要約文書提示部の内部モジュール構成を示す図である。
【図63】要約文書提示処理フローを示す図である。
【図64】検索質問ベクトル更新に係るモジュール構成を示す図である。
【図65】文書ベクトルテーブルの構成例を示す図である。
【図66】検索質問ベクトル更新処理フローを示す図である。
【図67】加算修正ベクトル算出処理フローを示す図である。
【図68】減算修正ベクトル算出処理フローを示す図である。
【図69】文書ベクトル算出に係る文書データベースのモジュール構成を示す図である。
【図70】文書ベクトル算出処理フローを示す図である。
【図71】実施の形態6に係る全体処理フローを示す図である。
【図72】実施の形態7に係る全体処理フローを示す図である。
【図73】実施の形態8に係る全体処理フローを示す図である。
【図74】実施の形態9に係る全体処理フローを示す図である。
【図75】要約文書(切換)提示処理フロー(1/2)を示す図である。
【図76】要約文書(切換)提示処理フロー(2/2)を示す図である。
【図77】実施の形態10に係る全体処理フローを示す図である。
【図78】実施の形態11に係る全体処理フローを示す図である。
【図79】実施の形態12に係る全体処理フローを示す図である。
【図80】実施の形態13に係る全体処理フローを示す図である。
【図81】実施の形態14に係る全体処理フローを示す図である。
【図82】実施の形態15に係る全体処理フローを示す図である。
【図83】実施の形態16に係る全体処理フローを示す図である。
【図84】実施の形態17に係る全体処理フローを示す図である。
【図85】検索キーワード係数算出に係るモジュール構成を示す図である。
【図86】検索キーワード係数算出処理フローを示す図である。
【図87】単語重要度算出処理フローを示す図である。
【符号の説明】
【0122】
201 検索条件入力部、202 要約対象文書選択部、203 文書検索エンジン、204 文書データベース、205 要約対象文書記憶部、501 要約文書生成部、502 要約文書記憶部、503 要約文書構成テーブル、504 要約文書提示部、505 注目文書テーブル、506 要約対象文書絞込部、601 文重要度計算部、602 文書管理テーブル、603 単語テーブル、604 文内単語出現頻度テーブル、605 文書内単語出現頻度テーブル、606 文書頻度逆数テーブル、607 文提供部、608 文書データ記憶部、609 文重要度テーブル、610 重要文抽出部、611 文抽出テーブル、612 重要文整列部、2401 要約文書画面生成部、2402 要約文書画面記憶部、2403 要約文書画面出力部、2404 注目部位取得部、2405 注目文記憶部、2406 注目文書判定部、3101 注目文字列内単語テーブル、3102 注目文字列外単語テーブル、3103 文字列注目係数算出部、3104 文字列注目係数テーブル、3201 注目文字列記憶部、3202 注目文字列内単語判定部、3203 注目文字列外単語判定部、4301 文書注目係数算出部、4302 文書注目係数テーブル、4303 非注目文書テーブル、4401 注目文書内単語抽出部、4402 注目文書内単語テーブル、4403 注目文書外単語抽出部、4404 注目文書外単語テーブル、4405 係数設定部、5401 初期検索質問ベクトル算出部、5402 検索質問ベクトル記憶部、5403 推薦要約対象文書抽出部、5404 推薦要約対象文書記憶部、5601 検索条件内単語出現頻度算出部、5602 検索条件内単語出現頻度テーブル、5603 初期検索質問ベクトル成分算出部、6101 推薦要約文書生成部、6102 推薦要約文書記憶部、6103 推薦要約文書構成テ-ブル、6104 推薦要約対象文書記憶部、6201 非注目文書判定部、6401 検索質問ベクトル更新部、6901 文書ベクトル算出部、8501 検索キーワード係数算出部、8502 検索キーワード係数テーブル。

図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19
【図21】
20
【図22】
21
【図23】
22
【図24】
23
【図25】
24
【図26】
25
【図27】
26
【図28】
27
【図29】
28
【図30】
29
【図31】
30
【図32】
31
【図33】
32
【図34】
33
【図35】
34
【図36】
35
【図37】
36
【図38】
37
【図39】
38
【図40】
39
【図41】
40
【図42】
41
【図43】
42
【図44】
43
【図45】
44
【図46】
45
【図47】
46
【図48】
47
【図49】
48
【図50】
49
【図51】
50
【図52】
51
【図53】
52
【図54】
53
【図55】
54
【図56】
55
【図57】
56
【図58】
57
【図59】
58
【図60】
59
【図61】
60
【図62】
61
【図63】
62
【図64】
63
【図65】
64
【図66】
65
【図67】
66
【図68】
67
【図69】
68
【図70】
69
【図71】
70
【図72】
71
【図73】
72
【図74】
73
【図75】
74
【図76】
75
【図77】
76
【図78】
77
【図79】
78
【図80】
79
【図81】
80
【図82】
81
【図83】
82
【図84】
83
【図85】
84
【図86】
85
【図87】
86