TOP > 国内特許検索 > 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム > 明細書

明細書 :情報資源検索装置、情報資源検索方法及び情報資源検索プログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4324650号 (P4324650)
公開番号 特開2007-179490 (P2007-179490A)
登録日 平成21年6月19日(2009.6.19)
発行日 平成21年9月2日(2009.9.2)
公開日 平成19年7月12日(2007.7.12)
発明の名称または考案の名称 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
国際特許分類 G06F  17/30        (2006.01)
FI G06F 17/30 350C
G06F 17/30 320D
G06F 17/30 340Z
請求項の数または発明の数 13
全頁数 39
出願番号 特願2005-380311 (P2005-380311)
出願日 平成17年12月28日(2005.12.28)
審査請求日 平成17年12月28日(2005.12.28)
特許権者または実用新案権者 【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
発明者または考案者 【氏名】神門 典子
【氏名】金沢 輝一
個別代理人の代理人 【識別番号】100083806、【弁理士】、【氏名又は名称】三好 秀和
【識別番号】100101247、【弁理士】、【氏名又は名称】高橋 俊一
【識別番号】100109380、【弁理士】、【氏名又は名称】小西 恵
審査官 【審査官】紀田 馨
参考文献・文献 特開2004-029906(JP,A)
大山 敬三,大規模学術情報データベースに適した情報検索システムの開発,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2001年 6月 1日,第J84-D-I巻第6号,第658頁乃至第670頁
調査した分野 G06F 17/30
JSTPlus(JDreamII)
特許請求の範囲 【請求項1】
情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータを記憶するメタデータ記憶部と、
異なる複数のファセットに属するシソーラスキーワードを木構造上で同時に選択入力可能に表示し、かつ現在指定されているファセット及びシソーラスキーワードを表示すると共に、前記情報資源を検索するための加点用シソーラスキーワードを選択入力するシソーラスキーワード入力部と、
前記情報資源を検索するための入力フリーワードを入力するフリーワード入力部と、
前記入力フリーワードと一致する又は類似する前記フリーワードを前記メタデータに含む情報資源について、前記一致する又は類似するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する処理を全ての検索対象情報資源について実行する第1のスコア算出部と、
前記加点用シソーラスキーワードと一致する前記シソーラスキーワード、又は前記加点用シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みを乗じて第2のスコアを算出し、該第2のスコアを保持する処理を全ての検索対象情報資源について実行する第2のスコア算出部と、
情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るスコア合算部と、
前記第3のスコアの大きい順にソートされた情報資源を検索結果として一覧表示することにより、選択入力された前記加点用シソーラスキーワード又は前記入力フリーワードのいずれかと一致するシソーラスキーワード又はフリーワードを含むメタデータが付与されていない情報資源が表示出力され得る検索結果出力部と
前記検索結果の出力に引き続いて加点用シソーラスキーワードが選択入力されると、前記第2のスコアを算出して保持される第2のスコアに加算し、前記第3のスコアを再計算し、再計算された前記第3のスコアの大きい順に再ソートされた情報資源を更新表示する更新出力部とを具備する
ことを特徴とする情報資源検索装置。
【請求項2】
前記更新出力部は、前記検索結果の出力に引き続いて同一ファセット内のシソーラスキーワードが選択入力された場合には、前記第2のスコアを初期化して新たに算出し、異なるファセット内のシソーラスキーワードが選択入力された場合には、前記第2のスコアを算出して保持される第2のスコアに加算する
ことを特徴とする請求項1に記載の情報検索装置。

【請求項3】
前記第1のスコア算出部は、前記出力部による前記検索結果の出力に引き続いて前記入力フリーワードが入力された場合、前記入力フリーワードの入力によって算出された第1のスコアを、保持される第1のスコアに加算して第1のスコアとし、
前記更新出力部は、前記第3のスコアの大きい順に再度ソートされた情報資源を更新表示する
ことを特徴とする請求項1又は2に記載の情報検索装置。
【請求項4】
前記シソーラスキーワード入力部は、複数の前記ファセットの木構造を選択的に表示し、表示された前記複数の木構造上のノードを同時に選択可能とする
ことを特徴とする請求項1ないし3のいずれか記載の情報検索装置。
【請求項5】
前記検索結果出力部は、前記加点用シソーラスキーワードと一致する前記シソーラスキーワード、又は前記加点用シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源を、前記第3のスコアの大きい順にソートして一覧表示する第1の表示出力欄と、
前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源を、前記第3のスコアの大きい順にソートして一覧表示する第2の表示出力欄とを具備する
ことを特徴とする請求項1ないし4のいずれか記載の情報資源検索装置。
【請求項6】
前記検索結果出力部は、実質的に、表示装置の有効表示領域内に一度に表示可能な件数の情報資源を一覧表示する
ことを特徴とする請求項1ないし5のいずれか記載の情報資源検索装置。
【請求項7】
上記情報資源検索装置は、さらに、
前記情報資源の検索結果を絞り込むための絞込み条件シソーラスキーワードを入力する絞込み条件入力部と、
入力された絞込み条件シソーラスキーワードと一致する前記シソーラスキーワード、又は前記絞込み条件シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源のみを、出力されるべき情報資源として設定するフィルタリング処理部とを具備する
ことを特徴とする請求項1ないし6のいずれか記載の情報資源検索装置。
【請求項8】
上記情報資源検索装置は、さらに、
前記ファセット中のいずれのノードにも属さない情報資源を、前記第3のスコアの大きい順にソートして一覧表示する第3の表示出力欄を具備する
ことを特徴とする請求項5に記載の情報資源検索装置。
【請求項9】
前記情報資源に付与されるメタデータに基づいて、前記入力フリーワード又は加点用シソーラスキーワードに一致するメタデータを有する情報資源の集合である第1の情報資源群について、スコアを算出するとともに、前記加点用シソーラスキーワードが属するファセット内の他のノードに属するシソーラスキーワードに一致するメタデータを有する情報資源の集合である第2の情報資源群について、スコアを算出する処理部と、
スコアの大きい順にそれぞれソートされた前記第1の情報資源群と、前記第2の情報資源群とを、表示画面上区別可能に一覧表示する出力部とを具備する
ことを特徴とする請求項1ないし8に記載の情報資源検索装置。
【請求項10】
メタデータ記憶部と、シソーラスキーワード入力部と、フリーワード入力部と、第1のスコア算出部と、第2のスコア算出部と、スコア合算部と、検索結果出力部と、更新出力部とを備える情報資源検索装置により実行される情報資源検索方法であって、
前記メタデータ記憶部により、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータを記憶するステップと、
前記シソーラスキーワード入力部により、異なる複数のファセットに属するシソーラスキーワードを木構造上で同時に選択入力可能に表示し、かつ現在指定されているファセット及びシソーラスキーワードを表示すると共に、前記情報資源を検索するための加点用シソーラスキーワードを選択入力するステップと、
前記フリーワード入力部により、前記情報資源を検索するための入力フリーワードを入力するステップと、
前記第1のスコア算出部により、前記入力フリーワードと一致する又は類似する前記フリーワードを前記メタデータに含む情報資源について、前記一致する又は類似するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する処理を全ての検索対象資源について実行するステップと、
前記第2のスコア算出部により、前記加点用シソーラスキーワードと一致する前記シソーラスキーワード、又は前記加点用シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みを乗じて第2のスコアを算出し、該第2のスコアを保持する処理を全ての検索対象資源について実行するステップと、
前記スコア合算部により、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るステップと、
前記第3のスコアの大きい順にソートされた情報資源を検索結果として一覧表示することにより、選択入力された前記加点用シソーラスキーワード又は前記入力フリーワードのいずれかと一致するシソーラスキーワード又はフリーワードを含むメタデータが付与されていない情報資源が表示出力され得るステップと
前記更新出力部により、前記検索結果の出力に引き続いて加点用シソーラスキーワードが選択入力されると、前記第2のスコアを算出して保持される第2のスコアに加算し、前記第3のスコアを再計算し、再計算された前記第3のスコアの大きい順に再ソートされた情報資源を更新表示するステップとを含む
ことを特徴とする情報資源検索方法。
【請求項11】
情報資源を検索するための入力フリーワードを入力するとともに、シソーラス上の複数のファセットの木構造を選択的に表示し、表示された前記木構造上のノードを選択させることにより、加点用シソーラスキーワードを入力するステップと、
前記情報資源に付与されるメタデータに基づいて、前記入力フリーワード又は加点用シソーラスキーワードに一致するメタデータを有する情報資源の集合である第1の情報資源群について、スコアを算出するとともに、前記加点用シソーラスキーワードが属するファセット内の他のノードに属するシソーラスキーワードに一致するメタデータを有する情報資源の集合である第2の情報資源群について、スコアを算出するステップと、
スコアの大きい順にそれぞれソートされた前記第1の情報資源群と、前記第2の情報資源群とを、表示画面上区別可能に一覧表示するステップとを含む
ことを特徴とする請求項10に記載の情報資源検索方法。
【請求項12】
情報資源検索処理を、メタデータ記憶部と、シソーラスキーワード入力部と、フリーワード入力部と、第1のスコア算出部と、第2のスコア算出部と、スコア合算部と、検索結果出力部と、更新出力部とを備える情報資源検索装置として動作するコンピュータに実行させるための情報資源検索プログラムであって、該プログラムは、前記コンピュータに、
前記メタデータ記憶部が、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータを記憶するメタデータ記憶処理と、
前記シソーラスキーワード入力部が、異なる複数のファセットに属するシソーラスキーワードを木構造上で同時に選択入力可能に表示し、かつ現在指定されているファセット及びシソーラスキーワードを表示すると共に、前記情報資源を検索するための加点用シソーラスキーワードを選択入力するシソーラスキーワード入力処理と、
前記フリーワード入力部が、前記情報資源を検索するための入力フリーワードを入力するフリーワード入力処理と、
前記第1のスコア算出部が、前記入力フリーワードと一致する又は類似する前記フリーワードを前記メタデータに含む情報資源について、前記一致する又は類似するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する処理を全ての検索対象情報資源について実行する第1のスコア算出処理と、
前記第2のスコア算出部が、前記加点用シソーラスキーワードと一致する前記シソーラスキーワード、又は前記加点用シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みを乗じて第2のスコアを算出し、該第2のスコアを保持する処理を全ての検索対象情報資源について実行する第2のスコア算出処理と、
前記スコア合算部が、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るスコア合算処理と、
前記検索結果出力部が、前記第3のスコアの大きい順にソートされた情報資源を検索結果として一覧表示することにより、選択入力された前記加点用シソーラスキーワード又は前記入力フリーワードのいずれかと一致するシソーラスキーワード又はフリーワードを含むメタデータが付与されていない情報資源が表示出力され得る検索結果出力処理と
前記更新出力部が、前記検索結果の出力に引き続いて加点用シソーラスキーワードが選択入力されると、前記第2のスコアを算出して保持される第2のスコアに加算し、前記第3のスコアを再計算し、再計算された前記第3のスコアの大きい順に再ソートされた情報資源を更新表示する更新出力処理とを含む処理を実行させるためのものである
ことを特徴とする情報資源検索プログラム。
【請求項13】
情報資源を検索するための入力フリーワードを入力するとともに、シソーラス上の複数のファセットの木構造を選択的に表示し、表示された前記木構造上のノードを選択させることにより、加点用シソーラスキーワードを入力する処理と、
前記情報資源に付与されるメタデータに基づいて、前記入力フリーワード又は加点用シソーラスキーワードに一致するメタデータを有する情報資源の集合である第1の情報資源群について、スコアを算出するとともに、前記加点用シソーラスキーワードが属するファセット内の他のノードに属するシソーラスキーワードに一致するメタデータを有する情報資源の集合である第2の情報資源群について、スコアを算出する処理と、
スコアの大きい順にそれぞれソートされた前記第1の情報資源群と、前記第2の情報資源群とを、表示画面上区別可能に一覧表示する処理とを含む処理とをさらに含む
ことを特徴とする請求項12に記載の情報資源検索プログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、情報資源検索装置、情報資源検索方法及び情報資源検索プログラムに関する。より詳しくは、作者、タイトル、作成日等の書誌情報がメタデータとして付与された、インターネット上でウェブブラウザを介して閲覧可能である情報資源や文書の検索において、検索におけるヒットミスを解消し、もって情報資源の可用性を向上させるための検索技術及びその検索条件の入力及び検索結果のブラウジングにおけるユーザーインターフェースに関する。
【背景技術】
【0002】
例えばHTML化或いはPDF化された、又はテキストデータである学術論文等の文書や、写真、地図、稀少本などのデジタルライブラリー化されたデジタルコンテンツは、インターネット上でウェブブラウザを介して閲覧可能である。これらの情報資源の量はすでに膨大であり、そのデータベース化、その円滑な流通、再利用が強く要請される。
【0003】
他人の情報資源を利用するためには、検索エンジンを使用して所望する情報資源に辿り着く必要があるが、従来の検索エンジンは、専ら情報資源に書誌情報として付与されたメタデータを対象として、入力された検索テキストと一致するテキストを含む情報資源を検索結果として抽出する。
【0004】
メタデータの記述方式としては、例えばダブリンコア(Dublin Core)方式が規格化されている(ISO15836)。このダブリンコア方式においては、title(資源の題名)、creator(作成者)、subject(資源の内容に含まれるトピック、キーワード)、description(資源の内容の説明、要約、目次等)、date(作成日又は公開日)、type(資源の内容の性質又はジャンル)、coverage(資源の範囲若しくは対象。地理区分、時間区分等)、rights(著作権、産業財産権等の言明)等、全部で15の要素タイプが記述すべきメタデータの要素として定義される。情報資源提供者或いはライブラリアンは、人手によって、或いは一部自動生成により、この記述方式に従い、メタデータを例えばRDF(Resource Description Framework)やHTML等が規定するタグ等として記述し、このメタデータを情報資源に付与してウェブ上で公表する。

【特許文献1】特開2000-112949
【特許文献2】特開2004-310199
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、他人に自身の情報資源を利用させるために行なうメタデータの記述作業は、煩雑であり、現存する情報資源に付与されたメタデータの記述は、記述されるべき要素を欠くものであったり、或いはキーワードが不足するものであったりという点において不完全である。
【0006】
また、特に、情報資源の検索に不慣れなユーザが、検索エンジンを介して情報資源に辿り着こうとする場合に顕著であるが、入力された検索文字列が不適当であって記述されたメタデータのキーワードに一致しないと、検索結果として情報資源が1件も得られない(Exact Match型検索)。逆に、入力された検索文字列にヒットする情報資源が多数件出力される場合も、どれが所望する検索結果であるかが判別できないため、得られた検索結果をスクロールし、1件づつ閲覧して判断しなければならず、検索効率が悪く多大な労力を要する。
【0007】
例えば、特に学術に関する情報資源には、シソーラス分類に基づき階層化されたディレクトリ構造であるファセット上のノードに対応して定義されたキーワードが付されている場合が多いが、多くの習熟していないユーザは、このシソーラス分類に基づくファセット体系を知らず、適切な検索キーワードとして入力することができない。
【0008】
さらに、従来の検索エンジンにおいては、検索条件が複数回入力されると、複数の検索条件のアンド条件に一致するもののみを抽出するため、1回でも不適当な検索キーワードの入力がされると、所望する情報資源が検索結果リストから外れてしまい、この情報資源に辿り着く機会を逸してしまう。
【0009】
本発明は、上記課題に鑑みてされたものであり、その目的は、ウェブ上利用可能な情報資源に付与された書誌情報であるメタデータが不完全であっても、或いは習熟していないユーザにより不適切な検索キーワードが入力された場合であっても、検索効率を損なうことなく、常に検索結果を得ることができるとともに、より検索条件に適合する検索結果から順に得ることができる情報資源検索装置、情報資源検索方法及び情報資源検索プログラムを提供することにある。
【0010】
また、本発明の他の目的は、入力された検索キーワードが情報資源に付与されたメタデータ上の記述に一致しない場合であっても、入力された検索キーワードに関連性を有する情報資源のリストを得ることを可能とする点にある。
【0011】
本発明の他の目的は、検索キーワード入力が複数回実行された場合に、検索漏れを生じさせることなく、追加的検索キーワードが入力されるごとに、確実に、より精度の高い検索結果を得ることを可能とする点にある。
【0012】
本発明の他の目的は、シソーラス体系上の複数のファセットに属するキーワードを同時に検索条件として指定することを可能とする点にある。
【課題を解決するための手段】
【0013】
本発明の原理は、書誌情報としてのメタデータが付加された文書或いはデジタルコンテンツ等の、ウェブ上の情報資源の検索において、各情報資源の内容に記述された用語を検索するフリーワード検索と、シソーラス体系上で概念のカテゴリーごとに木構造に階層化されて定義されるファセットに付与されるキーワードを検索するシソーラスキーワード検索とを融合し、検索用フリーワードが入力される度に各情報資源についての第1のスコアを算出し、シソーラスキーワードが入力指定される度に各情報資源についての第2のスコアを算出し、この第1及び第2のスコアを合算して、この合算スコアの高い順に検索結果の情報資源をソートして表示出力するものである。
【0014】
より詳細には、ユーザが情報資源の検索を実行するためのユーザインターフェースの一例として、シソーラス体系上の木構造のファセットを複数表示可能とし、任意のファセット上の任意のキーワードを複数選択入力可能とする(マルチファセットキーワード指定)とともに、検索用フリーワードの入力を可能とし、このシソーラス上のキーワード或いはフリーワードが入力される毎に、各情報資源のスコアを算出する。
【0015】
このスコアの算出においては、第1のスコア及び第2のスコアともに、入力指定された検索条件に一致する情報資源にだけでなく、検索条件に一致はしないが関連する情報資源にも重み付けされたスコアが加算される。この重み付けは、好適には、シソーラス体系の木構造のファセット上の距離に応じて実行されてよい。
【0016】
検索結果の表示出力において、加算されたスコアの高い情報資源から順にソートされて出力される。新たなキーワード或いはフリーワードが入力される毎に算出される各情報資源のスコアに基づき、出力される検索結果のリストも更新表示される。例えば、検索用入力画面において、スコアの加算をクリア操作するためのキーを設け、このクリアキーが操作されない限り、スコア加算を繰り返し処理するよう構成されてよい。このため、常に検索結果が得られると共に、検索結果が出力された後、さらに追加的に検索条件を指定入力する毎に、検索の精度が向上し、より所望する情報資源がリスト上位に表示される。
【0017】
また、検索結果の表示出力において、入力されたキーワード或いはフリーワードに一致する情報資源のリストと、一致しないが検索条件に関連する情報資源のリストとは、例えば別個のリストとして別欄に表示する等、区別可能に表示出力されてよい。メタデータの不完全性及び/又はユーザの不慣れに起因して、ユーザが指定した検索条件が、常に適切な検索条件であるとは限らないため、「検索条件に少し関係している」情報資源のリストが、そのタイトルや書誌情報の全部又は一部、及び/又はそのファセットのキーワードと共に、併せて表示されれば、ユーザはより適切な検索条件(フリーワード及び/又はシソーラス上のキーワード)に気付き、容易にこの検索条件に修正入力することができる。
【0018】
本発明のある特徴によれば、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータを記憶するメタデータ記憶部と、前記情報資源を検索するための入力シソーラスキーワード及び入力フリーワードを入力する入力部と、前記入力フリーワードと一致する前記フリーワードを前記メタデータに含む情報資源について、前記一致するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する第1のスコア算出部と、前記入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じて第2のスコアとし、該第2のスコアを保持する第2のスコア算出部と、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るスコア合算部と、前記第3のスコアの大きい順にソートされた情報資源を検索結果として一覧表示する出力部とを具備することを特徴とする情報資源検索装置が提供される。
【0019】
前記第1のスコア算出部は、前記出力部による前記検索結果の出力に引き続いて前記入力フリーワードが入力された場合、前記入力フリーワードの入力によって算出された第1のスコアを、保持される第1のスコアに加算して第1のスコアとし、前記出力部は、前記第3のスコアの大きい順に再度ソートされた情報資源を更新表示してよい。
【0020】
前記第2のスコア算出部は、前記出力部による前記検索結果の出力に引き続いて前記入力シソーラスキーワードが入力された場合、前記入力シソーラスキーワードの入力によって算出された第2のスコアを、保持される第2のスコアに加算して第2のスコアとし、前記出力部は、前記第3のスコアの大きい順に再度ソートされた情報資源を更新表示してよい。
【0021】
前記入力部は、複数の前記ファセットの木構造を選択的に表示し、表示された前記複数の木構造上のノードを同時に選択可能としてよい。
【0022】
前記出力部は、前記入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源を、前記第3のスコアの大きい順にソートして一覧表示する第1の表示出力欄と、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源を、前記第3のスコアの大きい順にソートして一覧表示する第2の表示出力欄とを具備してよい。
【0023】
前記出力部は、実質的に、表示装置の有効表示領域内に一度に表示可能な件数の情報資源を一覧表示してよい。
【0024】
上記情報資源検索装置は、さらに、前記情報資源の検索結果を絞り込むための絞込み条件シソーラスキーワードを入力する絞込み条件入力部と、入力された絞込み条件シソーラスキーワードと一致する前記シソーラスキーワード、又は前記絞込み条件シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源のみを、出力されるべき情報資源として設定するフィルタリング処理部とを具備してよい。
【0025】
上記情報資源検索装置は、さらに、前記ファセット中のいずれのノードにも属さない情報資源を、前記第3のスコアの大きい順にソートして一覧表示する第3の表示出力欄を具備してよい。
【0026】
本発明の他の特徴によれば、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータを記憶するメタデータ記憶部と、前記情報資源を検索するための入力フリーワードと一致する前記フリーワードを前記メタデータに含む情報資源について、前記一致するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する第1のスコア算出部と、前記情報資源を検索するための入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じて第2のスコアとし、該第2のスコアを保持する第2のスコア算出部と、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るスコア合算部と、前記第3のスコアの大きい順にソートされた情報資源のリストを出力されるべき検索結果として得るソート部とを具備することを特徴とする情報資源検索サーバ装置が提供される。
【0027】
本発明の他の特徴によれば、情報資源を検索するための入力フリーワードを入力するとともに、シソーラス上の複数のファセットの木構造を選択的に表示し、表示された前記木構造上のノードを選択させることにより、入力シソーラスキーワードを入力する入力部と、 前記情報資源に付与されるメタデータに基づいて、前記入力フリーワード又は入力シソーラスキーワードに一致するメタデータを有する情報資源の集合である第1の情報資源群について、スコアを算出するとともに、前記入力シソーラスキーワードが属するファセット内の他のノードに属するシソーラスキーワードに一致するメタデータを有する情報資源の集合である第2の情報資源群について、スコアを算出する処理部と、スコアの大きい順にそれぞれソートされた前記第1の情報資源群と、前記第2の情報資源群とを、表示画面上区別可能に一覧表示する出力部とを具備することを特徴とする情報資源検索クライアント装置が提供される。
【0028】
本発明の他の特徴によれば、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードを含むメタデータを記憶するメタデータ記憶部と、前記情報資源を検索するための入力シソーラスキーワードを入力する入力部と、前記入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、スコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記スコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じてスコアとし、該スコアを保持するスコア算出部と、前記スコアの大きい順にソートされた情報資源を検索結果として一覧表示する出力部とを具備することを特徴とする情報資源検索装置が提供される。
【0029】
本発明の他の特徴によれば、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータをメタデータ記憶部に記憶するステップと、前記情報資源を検索するための入力シソーラスキーワード及び入力フリーワードを入力するステップと、前記入力フリーワードと一致する前記フリーワードを前記メタデータに含む情報資源について、前記一致するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持するステップと、前記入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じて第2のスコアとし、該第2のスコアを保持するステップと、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るステップと、前記第3のスコアの大きい順にソートされた情報資源を検索結果として一覧表示するステップとを含むことを特徴とする情報資源検索方法が提供される。
【0030】
本発明の他の特徴によれば、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータをメタデータ記憶部に記憶するステップと、前記情報資源を検索するための入力フリーワードと一致する前記フリーワードを前記メタデータに含む情報資源について、前記一致するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持するステップと、前記情報資源を検索するための入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じて第2のスコアとし、該第2のスコアを保持するステップと、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得るステップと、前記第3のスコアの大きい順にソートされた情報資源のリストを出力されるべき検索結果として得るステップとを含むことを特徴とする情報資源検索方法が提供される。
【0031】
本発明の他の特徴によれば、情報資源を検索するための入力フリーワードを入力するとともに、シソーラス上の複数のファセットの木構造を選択的に表示し、表示された前記木構造上のノードを選択させることにより、入力シソーラスキーワードを入力するステップと、前記情報資源に付与されるメタデータに基づいて、前記入力フリーワード又は入力シソーラスキーワードに一致するメタデータを有する情報資源の集合である第1の情報資源群について、スコアを算出するとともに、前記入力シソーラスキーワードが属するファセット内の他のノードに属するシソーラスキーワードに一致するメタデータを有する情報資源の集合である第2の情報資源群について、スコアを算出するステップと、スコアの大きい順にそれぞれソートされた前記第1の情報資源群と、前記第2の情報資源群とを、表示画面上区別可能に一覧表示するステップとを含むことを特徴とする情報資源検索方法が提供される。
【0032】
本発明の他の特徴によれば、情報資源検索処理をコンピュータに実行させるための情報資源検索プログラムであって、該プログラムは、前記コンピュータに、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータをメタデータ記憶部に記憶する処理と、前記情報資源を検索するための入力シソーラスキーワード及び入力フリーワードを入力する処理と、前記入力フリーワードと一致する前記フリーワードを前記メタデータに含む情報資源について、前記一致するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する処理と、前記入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じて第2のスコアとし、該第2のスコアを保持する処理と、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得る処理と、前記第3のスコアの大きい順にソートされた情報資源を検索結果として一覧表示する処理とを含む処理を実行させるためのものであることを特徴とする情報資源検索プログラムが提供される。
【0033】
本発明の他の特徴によれば、情報資源検索処理をコンピュータに実行させるための情報資源検索プログラムであって、該プログラムは、前記コンピュータに、情報資源に付与されるメタデータであって、該メタデータは、前記情報資源ごとに、シソーラス上のファセット内のノード名を記述するシソーラスキーワードと、前記情報資源内に記述されたフリーワード及びその重要度の対とを含むメタデータをメタデータ記憶部に記憶する処理と、
前記情報資源を検索するための入力フリーワードと一致する前記フリーワードを前記メタデータに含む情報資源について、前記一致するフリーワードと対をなす重要度に基づいて、第1のスコアを算出し、該第1のスコアを保持する処理と、前記情報資源を検索するための入力シソーラスキーワードと一致する前記シソーラスキーワード、又は前記入力シソーラスキーワードの属するファセットの木構造上前記一致するシソーラスキーワードの下位ノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、第2のスコアを算出すると共に、前記ファセット内のその他のノードに属するシソーラスキーワードを前記メタデータに含む情報資源について、前記第2のスコアに前記木構造上の距離に応じた重みβ(β≦1)を乗じて第2のスコアとし、該第2のスコアを保持する処理と、情報資源ごとに、前記第1のスコアと前記第2のスコアとを合算して第3のスコアを得る処理と、前記第3のスコアの大きい順にソートされた情報資源のリストを出力されるべき検索結果として得る処理とを含む処理を実行させるためのものであることを特徴とする情報資源検索プログラムが提供される。
【0034】
本発明の他の特徴によれば、情報資源検索処理をコンピュータに実行させるための情報資源検索プログラムであって、該プログラムは、前記コンピュータに、情報資源を検索するための入力フリーワードを入力するとともに、シソーラス上の複数のファセットの木構造を選択的に表示し、表示された前記木構造上のノードを選択させることにより、入力シソーラスキーワードを入力する処理と、前記情報資源に付与されるメタデータに基づいて、前記入力フリーワード又は入力シソーラスキーワードに一致するメタデータを有する情報資源の集合である第1の情報資源群について、スコアを算出するとともに、前記入力シソーラスキーワードが属するファセット内の他のノードに属するシソーラスキーワードに一致するメタデータを有する情報資源の集合である第2の情報資源群について、スコアを算出する処理と、スコアの大きい順にそれぞれソートされた前記第1の情報資源群と、前記第2の情報資源群とを、表示画面上区別可能に一覧表示する処理とを含む処理を実行させるためのものであることを特徴とする情報資源検索プログラムが提供される。
【発明の効果】
【0035】
本発明によれば、ウェブ上利用可能な情報資源に付与された書誌情報であるメタデータが不完全であっても、或いは習熟していないユーザにより不適切な検索キーワードが入力された場合であっても、検索効率を損なうことなく、常に検索結果を得ることができるとともに、より検索条件に適合する検索結果から順に得ることができる。
【0036】
また、入力された検索キーワードが情報資源に付与されたメタデータ上の記述に一致しない場合であっても、入力された検索キーワードに関連性を有する情報資源のリストを得ることが可能となる。
【0037】
また、検索キーワード入力が複数回実行された場合に、検索漏れを生じさせることなく、追加的検索キーワードが入力されるごとに、確実に、より精度の高い検索結果を得ることが可能となる。
【0038】
さらに、シソーラス体系上の複数のファセットに属するキーワードを同時に検索条件として指定することが可能となる。
【0039】
従って、利用者側におけるウェブ上の情報資源の検索効率が大幅に向上し、もってウェブ上の情報資源の流通が促進され、そのデータ可用性が向上する。
【発明を実施するための最良の形態】
【0040】
以下、図面を参照して、本発明の実施の形態を説明する。
【0041】
<本実施形態の機能構成>
図1は、本実施形態に係る情報資源検索装置の一構成例を示す。
【0042】
本実施形態に係る情報資源検索装置は、例えば文書や、写真、地図、稀少本等のデジタルコンテンツ等、ウェブ上利用可能な情報資源を格納する外部記憶装置であるデータ記憶部3を具備する。なお、当然ながら、本実施形態は、データ記憶部3に入力される入力手段を何ら限定するものではない。また、入力手段は、直接コンテンツの入力を受け付ける手段の他、例えばCD-ROM、DVD、MO等任意の外部記録媒体に記録された情報資源を読み込み、入力として受け付けてもよい。データ記憶部3は、各情報資源の書誌情報であるメタデータ31と、情報資源の文書本文或いはコンテンツ自体32とを記憶する。代替的に、検索対象とすべき情報資源の数、所望される処理速度、データ記憶部3の容量、本文或いはコンテンツ自体もフリーワード検索の対象とするか否か等に照らして、情報資源の文書本文或いはコンテンツ自体32は、本実施形態に係る情報資源検索装置と、例えばインターネット等の通信回線を介して、ネットワーク上接続される他のサーバ装置(図示せず)に格納されてもよい。メタデータ31の記述方式としては、任意の方式が採用されてよいが、例えば上述のダブリンコア(Dublin Core)方式が使用されてよく、この場合title(資源の題名)、creator(作成者)、subject(資源の内容に含まれるトピック、の性質又はジャンル)、coverage(資源の範囲若しくは対象。地理区分、時間区分等)、rights(著作権、産業財産権等の言明)等、全部で15の要素タイプの全部或いは一部がメタデータの要素として定義され得る。情報資源の文書本文或いはコンテンツ自体32は、文書であればHTMLファイル、PDFファイル、テキストファイルやCSVファイル等として記憶されてよく、他の写真、地図、稀少本等のデジタルコンテンツは任意の方式のイメージデータ等として記憶されてよく、必要に応じてコンテンツの特性に応じた任意の圧縮方式により圧縮され得る。
【0043】
本実施形態に係る情報資源検索装置は、ウェブ上の情報資源を検索するための検索条件を入力する入力部1と、入力部1に入力された検索条件に従い、本実施形態に係る検索処理を実行する検索実行部2と、検索実行部2により得られた検索結果を任意の出力装置に出力する出力部4と、検索実行部2において算出されたスコアに基づいて、データ記憶部3に記憶される情報資源のメタデータ31を補完すべき新たなメタデータを自動生成するメタデータ自動生成部5とを具備する。
【0044】
より詳細には、入力部1は、各情報資源の内容に記述された用語(以下、「索引語」という。)を検索するフリーワード検索用の検索フリーワードを入力する検索フリーワード入力部11と、シソーラス体系上の木構造のディレクトリであるファセット上のノードに対応して定義されたキーワード(以下、「シソーラスキーワード」という。)であって後述するスコアリング処理において加点されるキーワードを選択入力する加点用シソーラスキーワード入力部12と、検索結果として得られた情報資源のリストに対して絞り込み条件として与えられるシソーラスキーワードである絞込み条件シソーラスキーワードを選択入力する絞込み条件シソーラスキーワード入力部13と、ユーザが注目する1つのキーワードを選択入力する注目キーワード入力部14とを具備する。なお、入力部1において、例えば、検索フリーワード入力部11、絞込み条件シソーラスキーワード入力部13、注目キーワード入力部14のいずれか1つ以上を省略した構成としてもよい。
【0045】
検索実行部2は、検索用フリーワード入力部11から入力された検索フリーワードに一致する、及び類似する索引語がメタデータ31の一部として予め定義された、或いは代替的にこの索引語が検索時に抽出された情報資源を検索し、検索された情報資源のそれぞれについて、第1のスコアを算出するとともに、算出された第1のスコアを保持するフリーワード検索スコアリング部21と、加点用シソーラスキーワード入力部12から入力された加点用シソーラスキーワードに一致するキーワード、及び、ファセットの木構造上該キーワードに近い距離に位置するキーワードがメタデータ31の一部として予め定義された情報資源を検索し、検索された情報資源のそれぞれについて、第2のスコアを算出するとともに、算出された第2のスコアを保持するキーワード検索スコアリング部22と、フリーワード検索スコアリング部21により算出された第1のスコアと、キーワード検索スコアリング部22により算出された第2のスコアとを、各情報資源について合算するスコア合算部23と、スコア合算部23により算出された合算スコア(特許請求の範囲における「第3のスコア」に相当する。)の高い情報資源から順にソートするソート部24と、絞込み条件シソーラスキーワード入力部13から入力された絞込み条件に適合する情報資源のみを抽出してソート部24に受け渡すフィルタリング処理部25とを具備する。
【0046】
出力部3は、選択入力されたシソーラスキーワードに対応するシソーラス上のファセットの表示と、ソート部24から出力される情報資源のメタデータに記述されたサブジェクト、作成者、タイトル等の書誌情報の全部又は一部と各情報資源へのリンク或いはそのURL等をリスト表示するファセット対応表示部41を具備する。
【0047】
なお、本明細書において、シソーラスとは、ある概念に、どのような概念或いは単語が属しているかを体系的に示すデータベースであり、ファセットとは、このシソーラス体系上、概念のカテゴリーごとに、上位概念のノードと下位概念のノードとを階層型でリンクした木構造(ディレクトリ)をいう。図12は、このファセットの一例を示す。最上位概念である「日本」は、その下位概念「関東」及び「関西」とリンクし、「関東」ノードは、その下位概念「東京都」及び「神奈川県」とリンクし、「東京都」ノードの下位には「中央区」ノードがリンクし、一方「関西」ノードは、その下位概念「大阪府」とリンクし、「大阪府」ノードの下位には、さらに「大阪市」ノードが、「大阪市」ノードの下位にはさらに「中央区」ノードがリンクしている。図12に示されるこれらの各ノード名は、例えばダブリンコア方式によれば、coverage spatial(資源の地理区分)の属性を有するメタデータ31として、定義され、情報資源に付加され得る。1つの情報資源に対しては、複数のファセットが適用され得、例えば図12に示す地理区分の他、歴史区分(coverage temporal)、資源タイプ(type)、テーマ(subject)等の各ファセット木構造上いずれかに位置付けられる概念をメタデータ31として定義してよい。
【0048】
図2は、図1に示すデータ記憶部3に格納されるメタデータ31及び各情報資源のスコア算出用に使用されるワークエリアのレイアウトを例示的に示す。図2において、例えば「施設Xの案内」をタイトルとする文書情報資源は、シソーラス体系のファセット上位置するノード名(キーワード)として、「テーマ」ファセット(F1)については「歴史」、「時代」ファセット(F2)については空白(未定義)、「地理」ファセット(「地理区分」ファセット)(F3)については「東京千代田区」及び「横浜中区」、「機関」ファセット(F4)については「東京都庁」及び「神奈川県庁」がそれぞれメタデータ31として定義され、さらに、検索フリーワード入力部11から入力される検索フリーワードについての第1のスコアを効率よく算出するために、予め情報資源中の索引語(word A,B)と該索引語の当該情報資源内における重要度(Si1,Si2)がメタデータ31として定義されている。索引語は、予め各情報資源に付与されてもよく、或いは自動的に抽出されてもよい。代替的に、各情報資源についての索引語及び各索引語の重要度は、フリーワード検索スコアリング部21における第1のスコア算出時に得られてもよい。図2において、ワークエリアは、検索フリーワード入力部11に入力された入力フリーワードの格納領域231、加点用シソーラスキーワード入力部12及び/又は絞込み条件用シソーラスキーワード入力部13から入力されたシソーラスキーワードの格納領域233、フリーワード及びキーワードが入力される毎に、当該情報資源の第1のスコア及び/又は第2のスコアを算出し、両者の和を更新して得られるスコアの格納領域235を備える。シソーラスキーワード格納領域233は、メタデータ31で予め定義されたファセットの各キーワードに対応してセルが設けられ(F1「テーマ」、F2「時代」、F3「地理」、F4「機関」)、各セル毎に加点用として入力されたか絞込み条件として入力されたかを示すフィールドを備えてよい。ワークエリアは、メタデータ31に連続する領域に配置されてもよいが、代替的に他の一時的記憶領域例えばRAMやキャッシュメモリ等に設けられてもよい。
【0049】
<本実施形態に係る検索処理の処理フロー>
図3ないし図8は、本実施形態において検索実行部2が行なう情報資源検索処理の詳細処理手順を示す。
【0050】
図3は、本実施形態における情報資源検索装置が行なう検索処理及び検索結果表示処理の概略を示すフローチャートである。図3において、入力部1から検索実行部2に入力検索条件が出力されると、検索実行部2は、この入力された検索条件の種別を判断し(ステップS1)、検索フリーワードであれば、検索フリーワードの文字列Sをフリーワード検索スコアリング部21に入力し、或いは入力されたフリーワードを変更し(ステップS2)、加点用シソーラスキーワードであれば、加点に用いるキーワード集合Wに入力されたシソーラスキーワードを追加、或いは削除し(ステップS3)、絞込み条件シソーラスキーワードであれば、絞込み条件に用いるキーワード集合Nに入力されたシソーラスキーワードを追加、或いは削除する(ステップS8)。入力が空でない場合(ステップS4N)、本実施形態に係る検索処理を実行し(ステップS5)、検索処理により得られた検索結果である情報資源のリストを表示出力し(ステップS6)、ユーザが所望する情報資源が得られたかあるいは検索処理の終了操作(例えば検索エンジンアプリケーションの終了)を行なうまで(ステップS7Y)、ステップS1からステップS6の処理を繰り返す(ステップS7N)。
【0051】
図4は、図3のステップS5において実行される検索処理の手順を示すフローチャートである。図4において、絞込み条件が入力されている場合、処理対象である情報資源(例えば文書、以下「文書」として例示する。)iが入力された絞込み条件に適合しているか、フィルタリング処理部25において判断する(ステップS51)。ステップS51における絞込み条件の処理の詳細は、図5及び図6を参照して後述する。入力された絞込み条件に文書iが適合している場合(ステップS52Y)、フリーワード或いは加点用シソーラスキーワードのいずれかが入力されているか否か判断され、いずれかが入力された場合(ステップS53Y)、文書iの得点を計算し(ステップS54)、検索結果リストに文書iを追加する(ステップS55)。ステップS54におけるスコアリング処理の詳細は、図7を参照して後述する。ステップS53において、フリーワード或いは加点用シソーラスキーワードのいずれも入力されていない場合(ステップS53N)、ステップS55に進む。ステップS51からステップS55の処理を、全文書を処理し終えるまで繰り返す(ステップS56)。
【0052】
図5は、図4のステップS51における絞込み条件の処理の詳細を示すフローチャートである。図5において、絞込み条件シソーラスキーワードが入力されているか否かが判断され(ステップS511)、絞込み条件シソーラスキーワードが入力されている場合(ステップS511Y)、文書iがファセットfの絞込み条件に適合しているか否か判断され(ステップS512)、適合している場合(ステップS513Y)、全てのファセットが絞込み条件に適合しているか判断され終わるまでステップS512からステップS513の処理を繰り返し(ステップS514)、文書iは入力された絞込み条件に適合しているものとし、検索結果候補とする(ステップS515)。ステップS511において絞込み条件キーワードが入力されていない場合(ステップS511N)、ステップS515に進む。ステップS513において文書iがファセットfの絞込み条件に適合していない場合(ステップS513N)、文書iは入力された絞込み条件に適合していないものとし、検索結果候補から削除する(ステップS516)。
【0053】
図6は、図5のステップS512における文書iがファセットfの絞込み条件に適合しているか否かの判断処理の詳細を示すフローチャートである。図6において、絞込み条件キーワードNの中にファセットfに属するものがあるか否かが判断され(ステップS5121)、ある場合には(ステップS5121Y)、絞込み条件キーワードNの中からファセットfに属するキーワード集合Xを抽出し(ステップS5122)、文書iがキーワードXに関係ないか否かが判断され、関係ない場合には(ステップS5123Y)、キーワード集合Xに属する他のキーワードについても、文書iが関係ないか否かを繰り返し判断し(ステップS5124)、いずれのキーワードとも関係ない場合には(ステップ5124Y)、文書iはファセットfの絞込み条件に適合していないものと判断する(ステップS5125)。ステップS5121において、絞込み条件キーワードNの中にファセットfに属するものがない場合には(ステップS5121N)、文書iはファセットfの絞込み条件に適合しているものと判断する(ステップS5126)。ステップS5123において、文書iがキーワードXjに関係あると判断された場合には(ステップS5123N)、ステップS5126に進む。
【0054】
図7は、図4のステップS54における文書iのスコアリング処理の詳細を示すフローチャートである。図7において、入力された検索条件がフリーワードであるか、或いは加点用シソーラスキーワードであるかが判断され、フリーワードが入力された場合は(ステップS451Y)、フリーワード文字列Sによる文書iのスコアaを算出する(ステップS542)。ステップS542におけるフリーワードによるスコアリング処理(第1のスコア算出処理)の詳細は、図8を参照して後述する。ステップS541において、検索フリーワードが入力されていない場合には(ステップS541N)、ステップS546に進む。ステップS543において、加点用シソーラスキーワードが入力された場合は(ステップS543Y)、加点用シソーラスキーワードWによる文書iのスコアbijを算出し(ステップS544)、すべての入力された加点用シソーラスキーワードについてスコアを算出するまでステップS544の処理を繰り返す(ステップS545)。すべての入力された加点用シソーラスキーワードについてスコアが算出されると(ステップS545Y)、ステップ546に進む。ステップS543において、加点用シソーラスキーワードが入力されていない場合には(ステップS543N)、ステップS546に進む。ステップS546において、ステップS542において算出された第1のスコアとステップS544において算出された第2のスコアが合算され、文書iのスコアc=a+Σbijとして算出される。
【0055】
<本実施形態に係る検索フリーワードに基づく第1のスコア算出処理詳細及び索引語と重要度との事前登録処理>
フリーワード検索スコアリング部21により実行される第1のスコア算出処理は、検索フリーワード入力部11に入力された検索フリーワードと、検索対象の情報資源との関連度を数値化してスコアとする。入力される検索フリーワードは、例えば日本語や英語等の自然言語で表現された自由キーワードのリスト、又は句読点を含む自然文により指定される。
【0056】
図8は、図7のステップS542におけるフリーワードによるスコアリング処理(第1のスコア算出処理)の詳細を示すフローチャートである。図8において、検索フリーワードの文字列から検索語を切り出して単語集合Qを作成し(ステップS5421)、文書iの第1のスコアaiを0と初期化した後(ステップS5422)、第1のスコアa+=文書iにおけるQの重みSijとする(ステップS5423)。すべての検索後に対する重みを加算し終わるまでステップS5423の処理を繰り返す(ステップS5424)。なお、ステップS5421において、文書を処理する毎に単語集合Qを作成する必要はない。
【0057】
第1のスコア算出の基礎数値となる、メタデータ31としての索引語の重要度の算出には、任意の手法が使用され得るが、例えばベクトル空間モデル(Vector Space Model:VSM)によりスコアを算出する手法や、関連性の重ね合わせモデル(Relavance-based Superimposition Model:RSモデル)によりスコアを算出する手法が、本実施形態に係るフリーワード検索スコアリング部21に実装され得る。
【0058】
図9は、ベクトル空間モデルを使用した場合の、第1のスコア算出のための情報資源内の索引語及び重要度の算出及びメタデータ31への登録の処理手順を示すフローチャートである。図9において、文書iの本文或いはメタデータ31から索引語となるべき単語を切り出して、単語集合Tを作成する(ステップS92)。単語集合Tに属する単語Tkの重要度を、文書i内での単語Tkの出願回数及び全文書中で単語Tkを含む文書の数を引数として、tfidf(term frequency inverse document frequency)法によって算出し(ステップS93)、全ての索引語に対する重要度を算出し終えるまでステップS93の処理を繰り返し(ステップS94)、さらに全ての文書についての重要度の算出を終えるまでステップS92からステップS94の処理を繰り返す(ステップS95)。重要度が計算された単語のうち、重要度が大きかったものから、1つ或いは複数の単語を、索引語として、対応する重要度とともに、図2に示すように、メタデータ31中にスコアリング用フリーワード及びこれと対をなす重要度として登録する。tfidf法とは、当該文書中にどれだけの頻度でその単語が出現するか、その単語が他の文書でどれだけ出現しないか、を考慮して単語の重要度を計算する方法であり、文書djにおける単語ti(i=a,…,n)の重要度Dj,iは次式(1)に示される。
【数1】
JP0004324650B2_000002t.gif

【0059】
ここで、tcj,iは文書djにおける単語tiの出現回数、tfj,i=tcj,i/max(tcj,i)、dfは全文書中での単語tの出現文書数、DNは全文書数とする。
【0060】
図10は、RSモデルを使用した場合の、第1のスコア算出のための情報資源内の索引語及び重要度の算出及びメタデータ31への登録の処理手順を示すフローチャートである。RSモデルとは、ベクトル空間モデルの文書検索において、同一キーワードを含むなどの関達性に基づいて文書djを分類して文書クラスタC(k=A,…,N)を作成して、該文書クラスタCkの特徴を表す代表ベクトルr(k=A,…,N)を生成し、さらに該代表ベクトルrを用いて文書ベクトルDを補正するモデリング手法である。例えば、上記特許文献2(特開2004-310199号公報)は、このRSモデルを用いた文書分類手法を開示する。尚、ここで、文書クラスタとは、キーワードによる意味的なまとまりを持っている文書の集合体で、同一トピックを有するものとする。
【0061】
図11(a)は、RSモデルを具体的に説明する模式図である。図11(a)において、2つのキーワードA及びBが文書d1,…,d5に存在している場合を示しており、キーワードAを含む文書dは文書クラスタCに、キーワードBを含む文書dは文書クラスタCに属し、また、キーワードA及びBをともに含む文書dは文書クラスタCとCの両方に属している。即ちRSモデルでは、非排他的な文書分類を行えるようになっており、一つの文書dが複数のキーワード(トピック)に跨っている状況を、複数の文書クラスタCに属しているという形で表現可能となる。そして、作成された文書クラスタC、Cに含まれる文書dの文書ベクトルDの例えば二乗平均平方根(Root-Mean-Square:RMS、遠心力平均ともいう。)をそれぞれ計算して、文書クラスタC及びCの代表ベクトルr及びrを生成する。ここで、文書クラスタCの代表ベクトルrは、次式(2)で表される。尚、代表ベクトルrは文書クラスタCの特徴量を表すもので、文書ベクトルDと同じ空間内の特徴ベクトルであり、文書ベクトルDと同数の次元を持つ。
【数2】
JP0004324650B2_000003t.gif

【0062】
ここで、rk,iは代表ベクトルrの第i要素、|C|は文書クラスタCに含まれる文書数、Dj,iは文書dの文書ベクトルDの第i要素である。
【0063】
次に、図11(b)に示すように、この代表ベクトルrを用いて各文書dの文書ベクトルDを補正するが、これは、文書dが属するすべての文書クラスタCの代表ベクトルrのRMSと、文書ベクトルDとを要素ごとに比較して、前者が大きければ文書ベクトルDの新たな要素として置換するもので、次式(3)により表される。
【数3】
JP0004324650B2_000004t.gif

【0064】
ここで、Sj,iは補正ベクトル、C(d)は、文書dが属する文書クラスタ、|C(d)|は文書dが属する文書クラスタの数である。
【0065】
RSモデルを使用することにより、文書dが本来備えていた特徴量だけでなく、キーワードを同一にする文書クラスタCの特徴量も加味して、文書ベクトルD’の値を算出することができる。
【0066】
図10に戻り、全文書について、切り出された全ての索引語の重要度(文書ベクトルD)を、例えば図9に示すtfidf法を用いて算出する(ステップS102)。次に、文書を図11(a)に示すように、トピック(文書クラスタ)により分類する(ステップS102)。ここでは、1つの文書が複数のトピック(クラスタ)に属していてもよい。すべてのトピック(クラスタ)について、索引語の重要度(代表ベクトル)を算出する(ステップS104)。代表ベクトルの算出には、例えば上記のRMSが用いられてよい。算出された代表ベクトルによって、文書ベクトルを補正する(ステップS105)。補正された文書ベクトルD’に基づき、既に算出された重要度が補正された単語のうち、重要度が大きかったものから、1つ或いは複数の単語を索引語として、重要度とともに、図2に示すように、メタデータ31中にスコアリング用フリーワード及び重要度として登録する。
【0067】
なお、図9又は図10の索引語重要度算出処理において、処理対象とされる文書は、自然文或いはキーワードリストであることを要し、予め情報資源に書誌情報として付与されたメタデータ31の一部又は全部を処理対象としてもよく、代替的に、文書本文を処理対象としてもよい。
【0068】
<本実施形態に係る加点用シソーラスキーワードに基づく第2のスコア算出処理詳細>
キーワード検索スコアリング部22により実行される第2のスコア算出処理は、加点用シソーラスキーワード入力部12に選択入力された加点用シソーラスキーワードと、検索対象の情報資源について予め定義されたスコアリング用シソーラスキーワードとの間の、シソーラスのファセット木構造上における距離を算出し、算出された距離に応じて重み付けされた一致度ないし関連度を数値化してスコアとする。入力される加点用シソーラスキーワードは、例えばディスプレイ装置上選択的に複数表示され得るシソーラスのファセット木構造上で、所望のノードを選択することにより、指定され得る。
【0069】
キーワード検索スコアリング部による第2のスコア算出処理は、以下の手順で実行される。
【0070】
・まず、第1のスコア算出処理(図8の手順による処理)の結果集合をD0とする。検索フリーワードが指定されず、結果集合が空だった場合、D0は、注目キーワード入力部14から入力される注目条件で指定されたキーワードを付与されている情報資源の全集合とする。
【0071】
JP0004324650B2_000005t.gif
【0072】

・αは、シソーラス体系上のファセット(語彙表)の特性に応じた値を設定することが好ましく、例えば2とする。
【0073】
・ファセット単位のhop数制限はデータ投入時に設定ファイルに記述しておくことが好ましく、例えば、1とする。
【0074】
・加点処理をしても資源の集合の元(構成要素である資源)は増減しないものとする。
【0075】
例えば、図12に示すファセット構造上、「東京都」が加点用シソーラスキーワードとして入力された場合、図13から理解されるように、「東京都」及びこの「東京都」の下位に位置する「中央区」のスコアリング用シソーラスキーワードがメタデータ31として付与された文書には、得点αが加算され、「関東」、「神奈川県」及び「横浜市」のスコアリング用シソーラスキーワードがメタデータ31として付与された文書には、得点αβが加算され、「日本」、「関西」、「大阪府」、「大阪市」及びこの「大阪市」の下位に位置付けられる「中央区」のスコアリング用シソーラスキーワードがメタデータ31として付与された文書には、得点αβが加算される。
【0076】
代替的に、キーワード検索スコアリング部22における第2のスコア加算処理において、ファセットごとに、シソーラスのファセット木構造上の距離によるスコアの算出方法及び/又は加点するか否かを設定可能に構成してもよい。
【0077】
<本実施形態に係るスコア合算処理詳細>
図13は、図12に示すファセット構造上で、「東京都」が加点用シソーラスキーワードとして選択入力され、さらに単語「A」及び「C」が検索フリーワードとして入力された場合の各文書について、スコア合算部23により算出される得点を示す。文書1には、スコアリング用シソーラスキーワードとして地理区分「日本」及び時代区分「21世紀」が、スコアリング用フリーワードとして「A」(重要度S11)及び「C」(重要度S13)が、それぞれメタデータ31として定義されているものとすると、スコア合算部23が算出する文書1の合算スコアは、αβ+S11+S13となる。文書2には、スコアリング用シソーラスキーワードとして地理区分「東京都」及び時代区分「20世紀」が、スコアリング用フリーワードとして「B」(重要度S22)が、それぞれメタデータ31として定義されているものとすると、スコア合算部23が算出する文書2の合算スコアは、αとなる。文書3には、スコアリング用シソーラスキーワードとして地理区分「(東京都の下位に位置する)中央区」及び時代区分「19世紀」が、スコアリング用フリーワードとして「A」(重要度S31)及び「B」(重要度S32)が、それぞれメタデータ31として定義されているものとすると、スコア合算部23が算出する文書3の合算スコアは、α+S31となる。文書4には、スコアリング用シソーラスキーワードとして地理区分「関東」及び時代区分「20世紀」が、スコアリング用フリーワードとして「B」(重要度S42)及び「C」(重要度S43)が、それぞれメタデータ31として定義されているものとすると、スコア合算部23が算出する文書4の合算スコアは、αβ+S43となる。文書5には、スコアリング用シソーラスキーワードとして地理区分「横浜市」及び時代区分「19世紀」が、スコアリング用フリーワードとして「C」(重要度S53)が、それぞれメタデータ31として定義されているものとすると、スコア合算部23が算出する文書5の合算スコアは、αβ+S53となる。文書6には、スコアリング用シソーラスキーワードとして地理区分「(大阪市の下位に位置する)中央区」及び時代区分「21世紀」が、スコアリング用フリーワードとして「A」(重要度S61)が、それぞれメタデータ31として定義されているものとすると、スコア合算部23が算出する文書1の合算スコアは、αβ+S61となる。
【0078】
<本実施形態に係る絞込み条件シソーラスキーワードによるフィルタリング処理詳細>
フィルタリング処理部25により実行されるフィルタリング処理においては、合算スコアが算出された文書のうち、絞込み条件シソーラスキーワード入力部13に選択入力された絞込み条件シソーラスキーワードに適合するスコアリング用シソーラスキーワードがメタデータ31として定義された文書のみが抽出され、ソート部24に出力される。入力される絞込み条件シソーラスキーワードは、例えばディスプレイ装置上選択的に複数表示され得るシソーラスのファセット木構造上の所望のノードを選択することにより、指定され得る。
【0079】
フィルタリング処理部25によるフィルタリング処理は、以下の手順で実行される。
【0080】
・絞り込み条件として指定されたキーワードkiが付与されている資源の集合をKiとする。絞り込み結果集合D2は以下の式で定義される。
【0081】
2=D1∩(K0∪K1…)∩(Ka∪…)∩(Kb∪…)…
ここで、括弧でくくった集合は同一ファセットに属するキーワードの資源集合である。
【0082】
・絞込み条件に適合しても、情報資源の得点は変化しない。
【0083】
図14は、図12に示すファセット構造上で、「東京都」が加点用シソーラスキーワードとして選択入力され、単語「A」及び「C」が検索フリーワードとして入力され、さらに絞込み条件シソーラスキーワードとして「20世紀」及び「21世紀」が選択入力された場合の各文書について、フィルタリング処理部25が抽出する文書を示す。フィルタリング処理部25は、同一ファセット内の絞込み条件が複数入力された場合、OR条件(論理和)とみなし、異なるファセット間の絞込み条件が複数入力された場合、AND条件(論理積)とみなして、フィルタリング処理を実行する。図14において、図13で合算スコアが算出された文書1から文書6のうち、スコアリングシソーラスキーワードとして時代区分「19世紀」がメタデータ31として定義されている文書3及び文書5は、そのスコアがクリアされ、ソート部24には出力されない。なお、絞込み条件に適合した文書1、2、4、6についても、スコアは加算されない。
【0084】
図15は、図12に示すファセット構造上で、単語「A」及び「C」が検索フリーワードとして入力され、絞込み条件シソーラスキーワードとして「東京都」、「大阪府」、「20世紀」及び「21世紀」が選択入力された場合の各文書について、フィルタリング処理部25が抽出する文書を示す。フィルタリング処理部25は、絞込み条件として指定されたシソーラスキーワードの下位概念も、絞込み条件に該当するものとみなして、フィルタリング処理を実行する。図15において、図13で合算スコアが算出された文書1から文書6のうち、スコアリングシソーラスキーワードとして地理区分「東京都」及び時代区分「20世紀」がメタデータ31として定義されている文書2、及びスコアリングシソーラスキーワードとして地理区分「(大阪府の下位に位置する)中央区」及び時代区分「21世紀」がメタデータ31として定義されている文書6が、絞込み条件に合致する文書として抽出され、その他の文書1,3,4,5は、絞込み条件シソーラスキーワードに適合するスコアリング用シソーラスキーワードが定義されていないため抽出されない。文書2の合算スコアは、入力された検索フリーワード「A」、「C」に一致するスコアリング用フリーワードが定義されていないため、0となる。文書6の合算スコアは、スコアリング用フリーワードとして定義されている単語「A」についての重要度S61となる。
【0085】
代替的に、スコア合算部23におけるスコア合算処理において、検索結果の出力に引き続いて、入力シソーラスキーワードが入力された場合、新たに入力されたキーワードのスコアを、現在保持する合算スコアに加算するか、現在保持する合算スコア(或いはその一部)と置き換えるか、を設定可能に構成してもよい。この場合、好適には、ファセットとの関係でルールを規定し、例えば同一ファセット内で複数のシソーラスキーワードが選択された場合には、現在保持する合算スコアを置換え、異なるファセットで、新たなキーワードが選択された場合には、現在保持する合算スコアに加算するよう構成してもよい。
【0086】
<本実施形態におけるユーザーインターフェース構成例>
図16ないし図23は、本実施形態に係る情報資源検索装置の入力部1及び出力部4が提供するユーザーインターフェースの例示的構成を示す。
【0087】
図16は、本実施形態に係る情報資源検索装置が表示出力する検索初期画面の一例を示す。
【0088】
図16において、左上段に表示される検索文字列入力欄164は、検索フリーワード入力部11の一構成例であり、左中段に表示されるファセットキーワード選択入力欄161は、加点用シソーラスキーワード入力部12、絞込み条件シソーラスキーワード入力部13、及び注目キーワード入力部14の一構成例である。図16の検索初期画面においては、シソーラス体系上のファセット「テーマ」が省略時に注目キーワードとして選択されている。複数のファセット「テーマ」、「時代区分」、「地理区分」、「機関名」、「資源タイプ」について、それぞれタブ165が表示されており、所望のタブを選択し、当該ファセットに属するキーワードを表示された階層構造上で選択入力することにより、加点用シソーラスキーワード或いは絞込み条件シソーラスキーワードの入力を、複数ファセットに跨り同時に指示することができる。図16において、右欄は、ファセット対応表示部41の一構成例であり、右上段に表示されるリスト162は、注目キーワード「テーマ」自体に関連する情報資源のリストを示し、該当文書が存在しないため、空リストとして表示され、右下段に表示されるリスト163は、注目キーワード「テーマ」の下位概念である「人文科学」に属する情報資源を例えば3件リスト表示する。同様に、「社会科学」に属する情報資源が、続けてリスト表示されている。各リスト内においては、好適には、例えば合算スコアの高い順に情報資源をソートして出力し、同点のスコアを有する情報資源間では、更新日時が新しい情報資源を優先して表示する。
【0089】
図17は、図16において、「北海道の昔の様子を知りたい。」と考えて、加点用シソーラスキーワードとして「北海道」171を選択入力した場合の画面の一例を示す。「現在の加点・絞込み条件」欄175には、ファセット「地理区分」「日本」「北海道」が加点用シソーラスキーワードとして指定されたことが表示される。右上段に表示されるリスト172は、加点用シソーラスキーワード「北海道」及びその下位概念が、スコアリング用キーワードとして定義されている情報資源をリスト表示する。右中段に表示されるリスト173は、加点用シソーラスキーワード「北海道」及びその下位概念を、定義されたスコアリング用キーワードに含まないが、例えば「北海道」と同一ファセットである「地理区分」に属するキーワードがスコアリング用キーワードとして定義されている情報資源を、検索条件に合致しないが関連するものとして「関連」欄にリスト表示する。「関連」欄にリスト表示される情報資源には、「北海道」と同一ファセットである「地理区分」に属するキーワードが定義されているため、「北海道」から定義されたキーワードまでの木構造上の距離に応じた重みを乗じた第2のスコアが算出されている。リスト172及びリスト173のいずれにも属さない情報資源は、「未分類」に分類され、右下段に表示されるリスト174にリスト表示される。
【0090】
なお、各リスト内に表示される情報資源の件数は、任意の数でよいが、好適には、リスト172、173及び174に表示される全件数のリストが大量の画面スクロールを要することなく、1画面の表示領域内に実質的に収まる範囲内の数とする。
【0091】
図18は、図17において、北海道の昔の様子を知るため、次にテーマを選択したいと考えたが、どのキーワードが適切なのか、表示された木構造のファセット一覧では判断ができず、注目キーワードとして「テーマ」181のファセット自体を指定した場合の画面の一例を示す。図18において、ファセット「テーマ」に属する下位概念キーワードごとの文書を、キーワード「人文科学」及びその下位概念に属するスコアリング用キーワードが定義された情報資源のリスト183、キーワード「社会科学」及びその下位概念に属するスコアリング用キーワードが定義された情報資源のリスト184、キーワード「芸術」及びその下位概念に属するスコアリングキーワードが定義された情報資源のリスト185が、それぞれ表示されている。
【0092】
図19は、図18において、「人文科学」リストに表示された情報資源の書誌情報、例えばタイトルを見て、「写真が見られるので面白そう。」と考え、右上段に表示されたシソーラスキーワード「人文科学」182をクリックした場合の画面の一例を示す。クリックされたシソーラスキーワード「人文科学」は、絞込み条件シソーラスキーワードとして入力され、キーワード「人文科学」及びその下位概念に属するスコアリング用キーワードが定義された情報資源がリスト表示される。
【0093】
図20は、図19において、「歴史学」リスト192に表示された情報資源の書誌情報、例えばタイトルを見て、「写真は歴史学にあるようだ。」と考え、右中段に表示されたシソーラスキーワード「歴史学」191をクリックした場合の画面の一例を示す。クリックされたシソーラスキーワード「歴史学」は、絞込み条件シソーラスキーワードとして入力され、キーワード「歴史学」及びその下位概念に属するスコアリング用キーワードが定義された情報資源のみが、リスト202にリスト表示される。図20において、「関連」リスト203には、絞込み条件「歴史学」には適合しないが、「歴史学」と同一ファセット「テーマ」に属するキーワードがスコアリング用キーワードとして定義された情報資源がリスト表示され、さらに「未分類」リスト204には、リスト202及びリスト203のいずれにも分類されなかった情報資源がリスト表示される。リスト202と同一画面内に配置される「関連」リスト203に、絞込み条件に適合はしないが関連する情報資源が表示されるため、例えばリスト203の2件目に表示された情報資源(スコアリング用シソーラスキーワードとして「北海道」、「地理学」、「江戸時代」が定義されているものとする)に注目し、閲覧することができる。「現在の加点・絞込み条件」表示欄は、第1のファセット上「テーマ」「人文科学」「歴史学」が絞り込み条件として、第2のファセット上「地理区分」「日本」「北海道」が加点用シソーラスキーワードとして、それぞれ指定されている状態を示す。
【0094】
図20において、「歴史学」は絞込み条件シソーラスキーワードとして入力されているが、絞込み条件シソーラスキーワードに適合する情報資源のリスト202の表示画面内下部に、適合はしないが関連する情報資源が、関連度(類似度)の高い順にソートされて「関連」リスト203に出力される。このため、絞込み条件シソーラスキーワードに適合する検索結果が0件である場合にも、検索ミスとはならず、常に関連する情報資源を把握することができる。
【0095】
図21は、図16に示す初期画面において、「環境汚染について調べたい。」と考え、左上欄のファセット選択入力欄でファセット「テーマ」211内の「環境学」を、加点用シソーラスキーワードとして選択入力した場合の画面の一例を示す。右上段のリスト214には、入力されたカテゴリー「テーマ>自然科学>環境学」の表示213と共に、キーワード「環境学」及びその下位概念に属するスコアリング用キーワードが定義された情報資源がリスト表示され、右中段の「関連」リスト215には、加点条件「環境学」には適合しないが、「環境学」と同一ファセット「テーマ」に属するキーワードがスコアリング用キーワードとして定義された情報資源がリスト表示される。
【0096】
図22は、図21において、「シソーラス上の『環境学』の指定だけでは範囲が広すぎる。」と考え、検索文字列欄221に検索フリーワード「環境汚染」を入力した場合の画面の一例を示す。右上段のリスト222は、図21のリスト214と比較して理解されるように、スコアリング用フリーワード「環境汚染」が定義された情報資源及びこれに類似する情報資源の有するスコアに、第1のスコアが加算され、合算スコアの高い順に再ソートされた情報資源をリスト表示する。概して、シソーラス上のキーワードは、比較的大まかな検索条件指定に、フリーワードは、具体的な検索条件指定に有効であるため、双方の条件指定を随時併用することにより、検索効率が向上する。
【0097】
図23は、図22において、「日本以外の環境汚染について調べたい。」と考え、左上欄のファセット選択入力欄でファセット「地理区分」231内の「海外」を、加点用シソーラスキーワードとして追加入力した場合の画面の一例を示す。フリーワード検索用の検索文字列への追加により「海外」に想到する条件を指定することは困難であり、この場合は、ファセット選択入力欄からの選択入力が有効である。右上段のリスト233は、図22のリスト222と比較して理解されるように、キーワード「海外」が定義された情報資源、及び「海外」が属するファセット「地理区分」に属するいずれかのキーワードが定義された情報資源の有するスコアに、第2のスコアが加算され、合算スコアの高い順に再ソートされた情報資源をリスト表示する。リスト233から理解されるように、より検索目的に適合する、中国やアジアの環境汚染に関する情報資源がリスト表示される。この他、図23の右最上段に「資源タイプで絞込み」と表示されており、フリーワード検索によっては困難な、例えば「論文」、「研究者のホームページ」、「研究データ」等の分類である「資源タイプ」ファセットの検索条件を直接指定することができる。
【0098】
代替的に、検索条件入力時に選択するシソーラス体系のファセット上のノードと、出力部4が表示出力する際に基準となるノードとは、独立に指定可能であってよい。例えば、検索条件入力時において、「テーマ」ファセットの「心理学」ノードを、入力シソーラスキーワードとして選択入力した場合、検索結果を、検索キーとして「心理学」を基準として、「心理学」とその下位ノードのリスト、関連リスト、未分類リストに分けて分類表示してもよく、又は、同じ「テーマ」ファセット内の別のノードを独立に選択入力させ、この別のノードを基準に上記の分類表示をしてもよく、或いは、年代別、場所別、資源タイプ別等、別ファセット中のノードを基準に分類表示してもよい。
【0099】
<本実施形態に係る情報資源検索装置のハードウエア構成>
図24は、本実施形態に係る情報資源検索装置のハードウエア構成を例示的に示すブロック図である。図24に示されるコンピュータ装置110である情報資源検索装置において、CPU111は、ROM114および/またはハードディスクドライブ116に格納されたプログラムに従い、RAM115を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、CPU111は、マウス112aまたはキーボード112を介して入力される利用者の指示に従い、ハードディスクドライブ116に格納されたプログラムに基づき、本実施形態に係る情報資源検索処理を実行する。ディスプレイインタフェイス113には、CRTやLCDなどのディスプレイが接続され、CPU111が実行する情報資源検索処理の入力待ち受け画面、処理経過や検索結果、リストから選択された情報資源の内容などが表示される。リムーバブルメディアドライブ117は、主に、リムーバブルメディアからハードディスクドライブ116へファイルを書き込んだり、ハードディスクドライブ116から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(FD)、CD-ROM、CD-R、CD-R/W、DVD-ROM、DVD-R、DVD-R/W、DVD-RAMやMO、あるいはメモリカード、CFカード、スマートメディア、SDカード、メモリスティックなどが利用可能である。
【0100】
プリンタインタフェイス118には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス119は、コンピュータ装置をネットワークへ接続するためのインターフェースである。
【0101】
なお、上記各実施形態に係る情報資源検索装置における入力装置は、マウス112aあるいはキーボード112に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を上記各実施形態に係る情報資源検索装置として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。
【0102】
また、図24に示した上記各実施形態に係る情報資源検索装置のハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。
【0103】
殊に、上記各実施形態に係る情報資源検索処理の全部又は一部は、上記コンピュータ端末装置110あるいはPDA等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをBluetooth(登録商標)等の無線、あるいはインターネット(TCP/IP)、公共電話網(PSTN)、統合サービス・ディジタル網(ISDN)等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)からなるネットワークシステムによって情報資源検索処理が実現されてもよい。例えば、クライアント装置が情報資源検索要求及びブラウジング表示のための入力部1及び出力部4を備え、入力部1を介して入力された検索条件を、検索実行部2、データ記憶部3及びメタデータ自動生成部5を実装するサーバ装置に対して送信し、サーバ装置は、検索条件を送信した、或いは他の指定された識別子のクライアント装置に対して、検索結果を送信し、クライアント装置において出力させてもよい。
【0104】
以上のとおり、本実施形態によれば、第1のスコア及び第2のスコアを合算し、得られた合算スコア(第3のスコア)により情報資源をソートして、合算スコアの高い情報資源から順に上位に検索結果として表示し、さらに引き続く複数回の検索条件入力がされるごとに、常に保持する第1のスコア及び/又は第2のスコアを新たなスコアを加算することにより更新し、更新されたスコアに基づいて、検索結果のリストを更新表示する。従って、ウェブ上利用可能な情報資源に付与された書誌情報であるメタデータが不完全であっても、或いは習熟していないユーザにより不適切な検索キーワードが入力された場合であっても、検索効率を損なうことなく、常に検索結果を得ることができるとともに、大量の情報資源が検索結果として得られた場合であっても、より検索条件に適合する検索結果から順に得ることができる。
【0105】
また、入力された検索キーワードが情報資源に付与されたメタデータ上の記述に一致しない場合であっても、シソーラスのファセット木構造上の距離に基づいて、入力された検索キーワードに関連性を有する情報資源のリストが常に表示される。このため、入力した検索条件には適合しないが関連する情報資源を確実に得ることができ、この関連する情報資源に基づいて、当初入力した検索条件をより適切な検索条件に修正することができる。
【0106】
また、検索条件入力が複数回実行された場合に、検索条件入力がされるごとに、常に保持するスコアを新たなスコアを加算することにより更新し、更新されたスコアに基づいて、検索結果のリストを更新表示する。このため、検索漏れを生じさせることなく、追加的検索キーワードが入力されるごとに、確実に、より精度の高い検索結果を得ることが可能となる。
【0107】
さらに、複数のファセット木構造を選択的に表示し、表示されたファセット木構造上の任意のノードの選択入力により、同時に、複数のファセットに跨る複数のキーワードを指定し得る。このため、シソーラス体系上の複数のファセットに属するキーワードを同時に検索条件として指定することが可能となり、複数のファセットに跨るキーワード指定のために新たなファセットを作成する必要がなく、ファセットのディレクトリ構造を単純化することができる。これにより、分類作業における一致度が向上し、ユーザにも理解しやすい分類基準が提供できる一方、多面的な検索条件の設定が可能となるとともに、概念や情報資源の特性を、複数の基本的な特性の組み合わせで記述可能となるので、シソーラス構築時には想定していなかった新たな概念にも柔軟に対応することができる。
【0108】
従って、利用者側におけるウェブ上の情報資源の検索効率が大幅に向上し、もってウェブ上の情報資源の流通が促進され、そのデータ可用性が向上する。
【0109】
本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含む。例えば、本発明は、ウェブ上で利用可能な学術情報資源等の情報資源に限定されることなく、例えば個人用のファイル管理システムにも容易に適用することが可能である。さらに、本発明の範囲は、請求項1により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
【図面の簡単な説明】
【0110】
【図1】本発明の実施形態に係る情報資源検索装置の機能構成の一例を示すブロック図である。
【図2】図1のメタデータ31のデータ構造及びレイアウトの一例を示す模式図である。
【図3】本発明の実施形態に係る情報資源検索装置が実行する情報資源検索処理の概略処理手順の一例を示すフローチャートである。
【図4】図3のステップS5における検索処理の詳細処理手順の一例を示すフローチャートである。
【図5】図4のステップS51における、文書が入力絞込み条件に適合しているか否かの判断処理の詳細処理手順の一例を示すフローチャートである。
【図6】図5のステップS512における、文書がファセットの絞込み条件に適合してるか否かの判断処理の詳細処理手順の一例を示すフローチャートである。
【図7】図4のステップS54におけるスコアリング処理の詳細処理手順の一例を示すフローチャートである。
【図8】図7のステップS542における検索フリーワードによる文書のスコア算出処理の詳細処理手順の一例を示すフローチャートである。
【図9】スコアリング用フリーワード及びその重みをベクトル空間モデルにより算出する場合の、スコアリング用フリーワード抽出及び登録処理の詳細処理手順の一例を示すフローチャートである。
【図10】スコアリング用フリーワード及びその重みをRSモデルにより算出する場合の、スコアリング用フリーワード抽出及び登録処理の詳細処理手順の一例を示すフローチャートである。
【図11】RSモデルによる文書ベクトルの算出及び補正処理を説明する模式図である。
【図12】シソーラス上のファセットの一例を示す模式図である。
【図13】図12において「東京都」を加点用キーワードとし、「A」及び「C」を検索フリーワードとした場合のスコア算出の一例を説明する図である。
【図14】図12において「東京都」を加点用キーワードとし、「A」及び「C」を検索フリーワードとし、「20世紀」及び「21世紀」を絞り込みキーワードとした場合のスコア算出の一例を説明する図である。
【図15】図12において「東京都」「大阪府」「20世紀」「21世紀」を絞込み用キーワードとし、「A」及び「C」を検索フリーワードとした場合のスコア算出の一例を説明する図である。
【図16】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索初期画面の一例を示す図である。
【図17】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図18】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図19】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図20】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図21】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図22】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図23】本発明の実施形態に係る情報資源検索プログラムを実行するコンピュータのディスプレイ上に表示出力される検索結果画面の一例を示す図である。
【図24】本発明の各実施形態に係る情報資源検索装置のハードウエア構成の一例を示す図である。
【符号の説明】
【0111】
入力部 1
検索実行部 2
データ記憶部 3
出力部 4
メタデータ自動生成部 5
検索フリーワード入力部 11
加点用シソーラスキーワード入力部 12
絞込み条件シソーラスキーワード入力部 13
注目キーワード入力部 14
フリーワード検索スコアリング部 21
キーワード検索スコアリング部 22
スコア合算部 23
ソート部 24
フィルタリング部 25
メタデータ 31
本文・コンテンツ32
ファセット対応表示部 41
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図24】
15
【図16】
16
【図17】
17
【図18】
18
【図19】
19
【図20】
20
【図21】
21
【図22】
22
【図23】
23