TOP > 国内特許検索 > 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム

文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム 新技術説明会

国内特許コード P10A015385
整理番号 A0200128
掲載日 2010年4月9日
出願番号 特願2006-099401
公開番号 特開2007-272699
登録番号 特許第4362492号
出願日 平成18年3月31日(2006.3.31)
公開日 平成19年10月18日(2007.10.18)
登録日 平成21年8月21日(2009.8.21)
発明者
  • 曽根原 登
  • 釜江 尚彦
  • 沼田 秀穂
  • 池田 佳代
出願人
  • 大学共同利用機関法人情報・システム研究機構
発明の名称 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム 新技術説明会
発明の概要 【課題】大量の文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、フリーワード文書テキスト検索、文書自動分類を容易化する。
【解決手段】日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得、出現頻度のみから算出される重みを付加して重み付きキーワードを得るキーワード生成部(133,135)とを具備する。
【選択図】図1
従来技術、競合技術の概要


近年、企業から、及び個人からの、双方向の情報収集及び情報発信が容易化され、その結果、大量の文書データによる知識集積が進展している。これら大量の文書データは、例えば、インターネット上のWebページからのダウンロードにより、企業内イントラネット上のファイルサーバ中或いはパーソナルコンピュータのハードディスク上への蓄積により、又はメールソフトの受発信済みデータとして得られる。文書データを格納するためのファイル形式は、テキストファイル、アプリケーションが直接アクセスするネイティブファイル、或いは例えばXML、HTML等により構造化されたテキストファイルであってよく、或いはテキストデータを抽出可能なPDFファイルであってもよい。



グループウェア等のソフトウエアが、ネットワークを構成するいずれかのコンピュータに導入され、該コンピュータがファイルサーバを構成すれば、このファイルサーバが保存する共有文書データを含む各種データは、ネットワークに接続される各コンピュータ、すなわちクライアント端末からアクセス可能となる。このグループウェアには、クライアント端末からの要求に応じて、ファイルサーバに蓄積された文書データから、所望の文書データを検索させる機能が備えられる。このグループウェア等が提供する検索機能を利用することにより、利用者は、クライアント端末を介して、ファイルサーバが管理する大量の文書データから、所望の文書データを検索する利用形態が一般的である。或いは、利用者は、自身が管理するパーソナルコンピュータ内やWebページから、これらが提供する検索ツールを用いて、所望の文書データを検索することができる。



ところで、従来における文書データの検索手法は、テキスト全文検索処理が未だ一般的であるが、このテキスト全文検索には、文書データの数や各文書データの容量に比例して、検索時間も長くなり、しばしば実用的検索時間によっては所望の文書データが検索されないという問題がある。



この検索時間を短縮するため、文書データをデータベースに登録する者が、登録すべき文書データに対するキーワード等のメタデータ付与を登録の際に行なう手法が利用されている。所与の文書データを形態素に区切り、その動詞、助詞、助動詞、名詞等の品詞種別を認識して形態素と品詞の対応付けを行なう形態素解析エンジンを介して文書データにインデキシングを行なう手法もまた、利用されている。これらの手法は、Webページ上で既知である多数のサーチエンジンにも同様に実装されている。



しかしながら、文書データをデータベースに登録する際に、こうしたインデキシングが行なわれておらず、従って検索しても見つけられない状態にある文書データが既に大量に存在する。こうした文書データをファイルサーバに保存しても、このファイルサーバがゴミ箱化していくだけで、保存された文書データを再利用することはできない。情報化社会における情報の再利用、再活用を促進するためには、文書データの保存時に、その文書内容に効率的に且つ自動的にインデキシングを施し、このインデキシングをコンピュータに把握させることが要請される。



すなわち、デジタル文書コンテンツのさらなる流通を促進するためには、大量に存在し、且つ、経済分野、技術分野や芸術分野等、多様なカテゴリーにそれぞれ属する文書テキストに対して、簡易且つ自動的にキーワードを付与し、及びキーワードが付与された文書テキストの類似性を評価し、文書テキストを高精度に細分類することが、文書コンテンツ検索可能性の向上に資する。



特許文献1は、キーワード抽出対象である文書テキストから、形態素解析により名詞を選択し、選択された名詞ごとに、文書テキスト内出現頻度を求め、同時に全文検索(フルテキストサーチ)により文書データベース全体中での出現頻度を求めて、入力テキスト文書内での出現頻度/文書データベース全体中での出現頻度、を当該名詞の重要度として算出し、該重要度の高い名詞をキーワードとして抽出する技術を開示する。特許文献1において、入力テキスト文書内での出現頻度を、文書データベース全体中での出現頻度で除するのは、文書データベースに格納された文書テキストの多くにおいて出現する名詞を、不要語としてキーワードから除外することを意図しており(例えば、特許文書における「特許」、「発明」等の名詞は文書データベース全体に亘って出現頻度が高く、個々の特許文書を識別するためには有用でない名詞である。)、従って、文書データベースに格納される文書テキストが、例えば経済分野や技術分野等、特定の大項目に含まれるような一定の均質性を備えていることを前提とする。



一方、特許文献2は、キーワード抽出対象である文書テキストから、文書テキスト中の隣接する少なくとも2個以上の語が、漢字、カタカナ、アルファベット、長音又は数字の任意の組み合わせにある場合に、その連続する語をキーワード候補として抽出し、抽出されたキーワード候補ごとに、同義語辞書や用語辞書等を参照して、同義関係となるキーワード候補及び後方部分一致関係となるキーワード候補をそれぞれ取り纏め、取り纏められたキーワード群について出現頻度を算出することにより、キーワードを抽出する技術を開示する。



また、出願人らは、すでに特許文献3において、文書テキストへの自動的キーワード付与の技術を提案している。
【特許文献1】
特開2000-76254
【特許文献2】
特開平6-187373
【特許文献3】
特願2005-319454

産業上の利用分野


本発明は、文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラムに関する。より詳しくは、文書テキストを管理する文書管理サーバと、該文書テキストを検索及び提示する文書検索装置に実装される、インターネットなどの通信回線を介したデジタル化された文書テキストの検索システムにおいて、大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、及び付与されたキーワードに基づいて、自由キーワードによる文書テキスト検索を容易化すると共に、文書テキストを簡易且つ自動的に分類するための技術に関する。

特許請求の範囲 【請求項1】
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントする文字列出現回数カウント部と、
前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出するキーワード生成部と、
前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出する重み算出部と、
前記重みを前記キーワードに付加して得られる重み付きキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、
前記対応付けられた重み付きキーワード及び前記日本語文書テキストとを格納する文書格納部と
入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出するキーワード一致度算出部とを具備する
ことを特徴とする文書インデキシングサーバ装置。

【請求項2】
前記文字コード識別部は、さらに、前記入力された日本語テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、アルファベット文字列を抽出し、
前記文字列出現回数カウント部は、さらに、抽出された前記アルファベット文字列のうち、2文字以上連続する文字列の出現回数をカウントし、
前記キーワード生成部は、さらに、前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、前記第1の所定比率より大きい第3の所定比率或いは前記第1の所定出現回数より小さい第3の所定出現回数以上の出現頻度を有するアルファベット文字列をキーワードとして得る
ことを特徴とする請求項1に記載の文書インデキシングサーバ装置。

【請求項3】
上記文書インデキシングサーバ装置は、さらに、
クライアント装置から前記重みが付加されたキーワードを受信する受信部を具備し、
前記キーワード一致度算出部は、前記日本語文書テキストについて、前記受信されたキーワードに付加された第1の重みと前記一致するキーワードに付加された第2の重みとの積を総和して一致度として得る
ことを特徴とする請求項2に記載の文書インデキシングサーバ装置。

【請求項4】
上記文書インデキシングサーバ装置は、さらに、
前記一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストから、前記受信されたキーワードを含む文章のみを抽出して要約を作成し、前記クライアント装置に送出する要約生成部を具備する
ことを特徴とする請求項1又は2に記載の文書インデキシングサーバ装置。

【請求項5】
上記文書インデキシングサーバ装置、さらに、
該日本語文書テキストに対応付けられた重み付きキーワードと、文書格納部に格納される他の日本語文書テキストに対応付けられた重み付きキーワードとを比較することにより、当該日本語文書テキストのキーワードに付加された第1の重みと他の日本語文書テキストのキーワードに付加された第2の重みとの積を総和して文書間一致度を算出し、算出された文書間一致度のうち所定の閾値以上の文書間一致度を、すべての日本語文書テキストの組み合わせについて記述する一致度マトリクスを生成する一致度マトリクス生成部と、
この一致度マトリクスを参照することにより、当該日本語文書テキストから他の日本語文書テキストへの前記所定の閾値以上の文書間一致度を示す有向グラフを形成する有向グラフ形成部と、
形成された有向グラフを順次辿って相互に到達可能な関係を有する複数の日本語文書テキストを、1つの日本語文書テキスト群に分類する分類部とを具備する
ことを特徴とする請求項1ないし4のいずれか記載の文書インデキシングサーバ装置。

【請求項6】
キーワードを入力するキーワード入力部と、
入力されたキーワードをサーバ装置に送信するキーワード送信部と、
入力されたキーワードの送信に応答して、前記サーバ装置から、検索結果として日本語文書テキストを受信して表示出力する文書表示部とを具備し、
受信される前記日本語文書テキストは、入力されたキーワードと、前記サーバ装置の文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストであり、
前記日本語文書テキストのキーワードに付加される重みは、前記日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントし、前記出現回数がカウントされた文字列のうち、前記日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得、前記キーワードのそれぞれについて、前記日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出することにより得られるものである
ことを特徴とする文書インデキシングクライアント装置。

【請求項7】
上記文書インデキシングクライアント装置は、さらに、
前記キーワードの送信に応答して、前記サーバ装置から、検索結果である日本語文書テキストの要約テキストを受信すると共に提示する要約提示部を具備し、
前記要約テキストは、前記送信されたキーワードを含む文章のみからなる
ことを特徴とする請求項に記載の文書インデキシングクライアント装置。

【請求項8】
上記文書インデキシングクライアント装置は、さらに、
前記キーワードの送信に応答して、前記サーバ装置から、複数の日本語文書テキストの分類を受信する受信部と、
受信された複数の分類から、1又は複数の分類の選択入力を促す分類選択入力部とを具備する
ことを特徴とする請求項6又は7に記載の文書インデキシングクライアント装置。

【請求項9】
文字コード識別部と、文字列出現回数カウント部と、キーワード生成部と、重み算出部と、キーワード管理部と、文書格納部と、キーワード一致度算出部を備える文書インデキシングサーバ装置により実行される文書インデキシング方法であって、
前記文字コード識別部により、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出するステップと、
前記文字列出現回数カウント部により、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントするステップと、
前記キーワード生成部により、前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出するステップと、
前記重み算出部により、前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出するステップと、
前記キーワード管理部により、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるステップと、
前記文書格納部により、前記対応付けられたキーワード及び前記日本語文書テキストとを格納するステップと、
前記キーワード一致度算出部により、入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前期入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出するステップとを含む
ことを特徴とする文書インデキシング方法。

【請求項10】
キーワード入力部と、キーワード送信部と、文書表示部とを備える文書インデキシングクライアント装置により実行される文書インデキシング方法であって、
前記キーワード入力部により、キーワードを入力するステップと、
前記キーワード送信部により、入力されたキーワードをサーバ装置に送信するステップと、
前記文書表示部により、入力されたキーワードの送信に応答して、前記サーバ装置から、検索結果として日本語文書テキストを受信して表示出力するステップとを含み、
受信される前記日本語文書テキストは、入力されたキーワードと、前記サーバ装置の文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストであり、
前記日本語文書テキストのキーワードに付加される重みは、前記日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントし、前記出現回数がカウントされた文字列のうち、前記日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得、前記キーワードのそれぞれについて、前記日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出することにより得られるものである
ことを特徴とする文書インデキシング方法。

【請求項11】
文書インデキシング処理を、文字コード識別部と、文字列出現回数カウント部と、キーワード生成部と、重み算出部と、キーワード管理部と、文書格納部と、キーワード一致度算出部を備える文書インデキシングサーバ装置として動作するコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
前記文字コード識別部により、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する処理と、
前記文字列出現回数カウント部により、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントする処理と、
前記キーワード生成部により、前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出する処理と、
前記重み算出部により、前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出する処理と、
前記キーワード管理部により、前記得られたキーワードと前記入力された日本語文書テキストとを対応付ける処理と、
前記文書格納部により、前記対応付けられたキーワード及び前記日本語文書テキストとを格納する処理と、
前記キーワード一致度算出部により、入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前期入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出する処理とを含む処理を実行させるためのものである
ことを特徴とする文書インデキシングプログラム。

【請求項12】
文書インデキシング処理を、キーワード入力部と、キーワード送信部と、文書表示部とを備える文書インデキシングクライアント装置として動作するコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
前記キーワード入力部により、キーワードを入力する処理と、
前記キーワード送信部により、入力されたキーワードをサーバ装置に送信する処理と、
前記文書表示部により、入力されたキーワードの送信に応答して、前記サーバ装置から、検索結果として日本語文書テキストを受信して表示出力する処理とを含む処理を実行させるためのものであり、
受信される前記日本語文書テキストは、入力されたキーワードと、前記サーバ装置の文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストであり、
前記日本語文書テキストのキーワードに付加される重みは、前記日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントし、前記出現回数がカウントされた文字列のうち、前記日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得、前記キーワードのそれぞれについて、前記日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出することにより得られるものである
ことを特徴とする文書インデキシングプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006099401thum.jpg
出願権利状態 登録
※ 情報・システム研究機構 国立情報学研究所(NII)は、我が国唯一の情報系に特化した研究所です。NIIでは、外部資金による研究成果の社会還元を中心に、技術移転活動に積極的に取り組んでいます。上記の発明にライセンス対象や共同開発対象として関心をお持ちいただいた方は、国立情報学研究所 社会連携推進室までお気軽にお問合せください。


PAGE TOP

close
close
close
close
close
close
close