Top > Search of Japanese Patents > INFORMATION SEARCH SYSTEM > Specification

Specification :(In Japanese)情報検索システム

Country (In Japanese)日本国特許庁(JP)
Gazette (In Japanese)公開特許公報(A)
Publication number P2019-219764A
Date of publication of application Dec 26, 2019
Title of the invention, or title of the device (In Japanese)情報検索システム
IPC (International Patent Classification) G06F  16/00        (2019.01)
G06F  21/62        (2013.01)
FI (File Index) G06F 17/30 320C
G06F 17/30 340Z
G06F 21/62 345
Number of claims or invention 16
Filing form OL
Total pages 24
Application Number P2018-114944
Date of filing Jun 15, 2018
Inventor, or creator of device (In Japanese)【氏名】河原林 健一
【氏名】町出 智也
【氏名】ボレガラ ダヌシカ
Applicant (In Japanese)【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
Representative (In Japanese)【識別番号】100205084、【弁理士】、【氏名又は名称】吉浦 洋一
Request for examination (In Japanese)未請求
Abstract (In Japanese)【課題】
情報を検索するための情報検索システムを提供することを目的とする。
【解決手段】
ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部と,第1の検索単語の意味解析を用いて,第1の検索単語を修正する第3の検索単語を特定する検索条件修正処理部と,第2の検索単語と第3の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部と,を有する情報検索システムである。
【選択図】 図1
Scope of claims (In Japanese)【請求項1】
情報を検索するための情報検索システムであって,
前記情報検索システムは,
ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部と,
前記第1の検索単語の意味解析に基づいて,前記第1の検索単語を修正する第3の検索単語を特定する検索条件修正処理部と,
前記第2の検索単語と前記第3の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部と,
を有することを特徴とする情報検索システム。
【請求項2】
情報を検索するための情報検索システムであって,
前記情報検索システムは,
ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部と,
前記第1の検索単語と前記第2の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部と,
を有することを特徴とする情報検索システム。
【請求項3】
前記ノイズ処理部は,
前記第1の検索単語と同じクラスに属する単語を用いて,クラスタリング耐性のある前記第2の検索単語を特定する,
ことを特徴とする請求項1または請求項2に記載の情報検索システム。
【請求項4】
前記ノイズ処理部は,
前記第1の検索単語に基づいて,少なくとも二以上の手法により,クラスタリング耐性のある前記第2の検索単語を特定し,
各手法による前記第2の検索単語の数または割合が変動する,
ことを特徴とする請求項1から請求項3のいずれかに記載の情報検索システム。
【請求項5】
前記ノイズ処理部は,
前記第1の検索単語と同じクラスに属する単語から複数の単語を特定することで単語群を構成し,
前記構成した単語群に対して,高密度クラスタから前記第2の検索単語を特定するクラスタ手法,前記単語群を分割することで前記第2の検索単語を特定する分割手法,前記単語群を構成する単語からランダムに前記第2の検索単語を特定するランダム手法,のいずれか一以上の手法を用いることで,ノイズ単語を特定する,
ことを特徴とする請求項1から請求項4のいずれかに記載の情報検索システム。
【請求項6】
前記ノイズ処理部は,
前記クラスタ手法として,前記構成した単語群を用いて,前記第1の検索単語とは異なるクラスタを構成する複数の単語を特定することで,前記第2の検索単語を特定する,
ことを特徴とする請求項5に記載の情報検索システム。
【請求項7】
前記ノイズ処理部は,
前記クラスタ手法として,前記構成した単語群を用いて,頻出頻度に基づく単語群を構成し,
前記頻出頻度に基づく単語群において,前記第1の検索単語からの距離と類似性に基づいて特定した単語を用いてクラスタを生成することで,前記第2の検索単語を特定する,
ことを特徴とする請求項5または請求項6に記載の情報検索システム。
【請求項8】
前記ノイズ処理部は,
前記分割手法として,前記構成した単語群を用いて,前記第1の検索単語とは非類似であり,かつ類似する単語同士を,前記第2の検索単語として特定する,
ことを特徴とする請求項5から請求項7のいずれかに記載の情報検索システム。
【請求項9】
前記ノイズ処理部は,
前記分割手法として,前記構成した単語群を複数に分割し,分割した単語群における単語と前記第1の検索単語との類似性を用いて,前記第2の検索単語を特定する,
ことを特徴とする請求項5から請求項8のいずれかに記載の情報検索システム。
【請求項10】
前記検索条件修正処理部は,
ベクトル化した前記第1の検索単語とノイズベクトルとを用いて演算することで,前記第3の検索単語を特定する,
ことを特徴とする請求項1,請求項3から請求項9のいずれかに記載の情報検索システム。
【請求項11】
前記情報検索システムは,
前記検索装置から受け付けた前記第2の検索単語に対応する検索結果を除外し,前記検索装置から受け付けた前記第1の検索単語または前記第2の検索単語に対応する検索結果に基づいて,前記第1の検索単語に対する検索結果を出力する検索結果処理部,
を有することを特徴とする請求項1から請求項10のいずれかに記載の情報検索システム。
【請求項12】
前記情報検索システムは,
前記第2の検索単語と前記第3の検索単語とを出力することで,前記第1の検索単語を推測させる処理部,
を有することを特徴とする請求項1から請求項11のいずれかに記載の情報検索システム。
【請求項13】
情報を検索するための情報検索システムであって,
前記情報検索システムは,
ユーザの実際の検索条件であるオリジナル検索条件をベクトル化し,ベクトル化した前記オリジナル検索条件を用いて修正検索条件を特定する検索条件修正処理部と,
前記オリジナル検索条件に基づいて,ノイズとなるノイズ検索条件を特定するノイズ処理部と,
前記修正検索条件と前記ノイズ検索条件とを検索装置に送り,検索結果を受け付ける検索装置処理部,
を有することを特徴とする情報検索システム。
【請求項14】
コンピュータを,
ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部,
前記第1の検索単語の意味解析に基づいて,第3の検索単語を特定する検索条件修正処理部,
前記第2の検索単語と前記第3の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部,
として機能させることを特徴とする情報検索プログラム。
【請求項15】
コンピュータを,
ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部,
前記第1の検索単語と前記第2の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部,
として機能させることを特徴とする情報検索プログラム。
【請求項16】
コンピュータを,
ユーザの実際の検索条件であるオリジナル検索条件をベクトル化し,ベクトル化した前記オリジナル検索条件を用いて修正検索条件を特定する検索条件修正処理部,
前記オリジナル検索条件に基づいて,ノイズとなるノイズ検索条件を特定するノイズ処理部
前記修正検索条件と前記ノイズ検索条件とを検索装置に送り,検索結果を受け付ける検索装置処理部,
として機能させることを特徴とする情報検索プログラム。
Detailed description of the invention (In Japanese)【技術分野】
【0001】
本発明は,情報を検索するための情報検索システムに関する。とくに,検索者が入力をしたキーワードなどの検索条件を,検索エンジンなどの検索装置に知られずに検索を行うことができる情報検索システムに関する。
【背景技術】
【0002】
インターネットやデータベースから,所望の情報を得るために,検索エンジンなどの検索装置が用いられている。とくにインターネットでの検索エンジンは,無数にあるウェブサイトから検索条件にヒットするウェブサイトを特定するために有益である。
【0003】
検索装置は有益な面があるものの,検索装置に入力された検索条件を蓄積して解析をすることで,当該検索者の関心や興味の対象,思想などの一定の傾向を把握することが可能となる。そのため検索装置に入力する検索条件を,極力,検索装置に把握されることを回避したい要望がある。しかし,検索装置は,検索条件に基づいて情報の検索を行うので,検索装置に適切な検索条件を入力しないと,所望の情報が記載された検索結果が得られないこととなる。
【0004】
そこで,検索装置に,ユーザの実際の検索条件を把握されにくくする一方,検索装置からは所望の検索結果を得ることができるためのシステムが検討されており,たとえば特許文献1,特許文献2がある。
【先行技術文献】
【0005】

【特許文献1】特開平11-259512号公報
【特許文献2】特許第5306356号
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1のシステムは,入力された検索言語を,類似語,上位概念語に変換をすることで,データ検索サーバには,直接,入力された検索言語が把握されないようにするシステムである。
【0007】
特許文献2のシステムは,検索語を文字単位で分解することで抽出した検索語における正当文字列に,ノイズ語のノイズ文字列を組み合わせてクエリを生成することで,検索エンジンに,検索語が把握されないようにするシステムである。
【0008】
特許文献1のシステムでは類似語や上位概念語に変換がされているので,クラスタリングをすることで,検索言語を類推することができてしまう課題がある。また,特許文献2のシステムでは,単語単位で文字列を分解していても,特許文献1と同様に,クラスタリングをすることで,元の単語を推定できてしまう課題がある。
【課題を解決するための手段】
【0009】
そこで本発明者らは,上記課題に鑑み,実際の検索条件の特定が困難である情報検索システムを発明した。特に,クライスタリング耐性の高いノイズを用いる場合には,クラスタリング耐性を高めることができる。
【0010】
第1の発明は,情報を検索するための情報検索システムであって,前記情報検索システムは,ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部と,前記第1の検索単語の意味解析に基づいて,前記第1の検索単語を修正する第3の検索単語を特定する検索条件修正処理部と,前記第2の検索単語と前記第3の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部と,を有する情報検索システムである。
【0011】
第2の発明は,情報を検索するための情報検索システムであって,前記情報検索システムは,ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部と,前記第1の検索単語と前記第2の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部と,を有する情報検索システムである。
【0012】
第1の発明,第2の発明を用いることで,実際の検索条件である第1の検索単語に対して意味解析をして特定したノイズとなる第2の検索単語を検索装置に送ることができる。これによって,実際の検索条件の特定を困難とすることができる。
【0013】
上述の発明において,前記ノイズ処理部は,前記第1の検索単語と同じクラスに属する単語を用いて,クラスタリング耐性のある前記第2の検索単語を特定する,情報検索システムのように構成することができる。
【0014】
ノイズとする第2の検索単語について,クラスタリング耐性となる単語を用いることで,検索装置側においてクラスタ解析を行ったとしても,実際の検索条件である第1の検索単語を特定することが困難となる。
【0015】
上述の発明において,前記ノイズ処理部は,前記第1の検索単語に基づいて,少なくとも二以上の手法により,クラスタリング耐性のある前記第2の検索単語を特定し,各手法による前記第2の検索単語の数または割合が変動する,情報検索システムのように構成することができる。
【0016】
複数の手法を用いて第2の検索単語を特定することで,検索装置側において,実際の検索条件である第1の検索単語を特定することがさらに困難となる。
【0017】
上述の発明において,前記ノイズ処理部は,前記第1の検索単語と同じクラスに属する単語から複数の単語を特定することで単語群を構成し,前記構成した単語群に対して,高密度クラスタから前記第2の検索単語を特定するクラスタ手法,前記単語群を分割することで前記第2の検索単語を特定する分割手法,前記単語群を構成する単語からランダムに前記第2の検索単語を特定するランダム手法,のいずれか一以上の手法を用いることで,ノイズ単語を特定する,情報検索システムのように構成することができる。
【0018】
ノイズとする第2の検索単語を特定するためには,本発明のような方法を一または複数用いるとよい。
【0019】
上述の発明において,前記ノイズ処理部は,前記クラスタ手法として,前記構成した単語群を用いて,前記第1の検索単語とは異なるクラスタを構成する複数の単語を特定することで,前記第2の検索単語を特定する,情報検索システムのように構成することができる。
【0020】
上述の発明において,前記ノイズ処理部は,前記クラスタ手法として,前記構成した単語群を用いて,頻出頻度に基づく単語群を構成し,前記頻出頻度に基づく単語群において,前記第1の検索単語からの距離と類似性に基づいて特定した単語を用いてクラスタを生成することで,前記第2の検索単語を特定する,情報検索システムのように構成することができる。
【0021】
これらの発明の処理を実行することで,ノイズとする第2の検索単語について,第1の検索単語とは異なるクラスタに属する単語により構成することができる。そのため,検索装置側においてクラスタ解析を行ったとしても,実際の検索条件である第1の検索単語を特定することが困難となる。
【0022】
上述の発明において,前記ノイズ処理部は,前記分割手法として,前記構成した単語群を用いて,前記第1の検索単語とは非類似であり,かつ類似する単語同士を,前記第2の検索単語として特定する,情報検索システムのように構成することができる。
【0023】
上述の発明において,前記ノイズ処理部は,前記分割手法として,前記構成した単語群を複数に分割し,分割した単語群における単語と前記第1の検索単語との類似性を用いて,前記第2の検索単語を特定する,情報検索システムのように構成することができる。
【0024】
これらの発明の処理を実行することで,ノイズとする第2の検索単語について,第1の検索単語とは類似していない単語により構成することができる。そのため,検索装置側においてクラスタ解析を行ったとしても,実際の検索条件である第1の検索単語を特定することが困難となる。
【0025】
上述の発明において,前記検索条件修正処理部は,ベクトル化した前記第1の検索単語とノイズベクトルとを用いて演算することで,前記第3の検索単語を特定する,情報検索システムのように構成することができる。
【0026】
本発明のように構成することで,第1の検索単語そのものではないが,意味が近い単語を特定し,第3の検索単語を特定することができる。
【0027】
上述の発明において,前記情報検索システムは,前記検索装置から受け付けた前記第2の検索単語に対応する検索結果を除外し,前記検索装置から受け付けた前記第1の検索単語または前記第2の検索単語に対応する検索結果に基づいて,前記第1の検索単語に対する検索結果を出力する検索結果処理部,情報検索システムのように構成することができる。
【0028】
第2の検索単語はノイズであるので,その検索結果は不要である。したがって,第2の検索単語による検索結果を除外して,最終的な検索結果を出力すればよい。
【0029】
上述の発明において,前記情報検索システムは,前記第2の検索単語と前記第3の検索単語とを出力することで,前記第1の検索単語を推測させる処理部,を有する情報検索システムのように構成することができる。
【0030】
本発明の情報検索システムの効果は,そのままで認識しにくい。そこで,本発明のように構成することで,本発明の効果を認識させることができる。
【0031】
第13の発明は,情報を検索するための情報検索システムであって,前記情報検索システムは,ユーザの実際の検索条件であるオリジナル検索条件をベクトル化し,ベクトル化した前記オリジナル検索条件を用いて修正検索条件を特定する検索条件修正処理部と,前記オリジナル検索条件に基づいて,ノイズとなるノイズ検索条件を特定するノイズ処理部と,前記修正検索条件と前記ノイズ検索条件とを検索装置に送り,検索結果を受け付ける検索装置処理部と,を有する情報検索システムである。
【0032】
本発明を用いることで,検索装置において,実際の検索条件である第1の検索条件の特定を困難とすることができる。この場合,検索条件としてはベクトル表現できる情報であればよく,単語に限らず,画像情報,音情報であっても同様に実現することができる。
【0033】
第1の発明は,本発明のプログラムをコンピュータに読み込ませて実行することで実現できる。すなわち,コンピュータを,ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部,前記第1の検索単語の意味解析に基づいて,第3の検索単語を特定する検索条件修正処理部,前記第2の検索単語と前記第3の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部,として機能させる情報検索プログラムのように構成することができる。
【0034】
第2の発明は,本発明のプログラムをコンピュータに読み込ませて実行することで実現できる。すなわち,コンピュータを,ユーザの実際の検索条件である第1の検索単語の意味解析に基づいて,ノイズとなる第2の検索単語を特定するノイズ処理部,前記第1の検索単語と前記第2の検索単語とを検索装置に送り,検索結果を受け付ける検索装置処理部,として機能させる情報検索プログラムのように構成することができる。
【0035】
第13の発明は,本発明のプログラムをコンピュータに読み込ませて実行することで実現できる。すなわち,コンピュータを,ユーザの実際の検索条件であるオリジナル検索条件をベクトル化し,ベクトル化した前記オリジナル検索条件を用いて修正検索条件を特定する検索条件修正処理部,前記オリジナル検索条件に基づいて,ノイズとなるノイズ検索条件を特定するノイズ処理部,前記修正検索条件と前記ノイズ検索条件とを検索装置に送り,検索結果を受け付ける検索装置処理部,として機能させる情報検索プログラムのように構成することができる。
【発明の効果】
【0036】
本発明の情報検索システムを用いることによって,実際の検索条件の特定を困難とする情報検索システムを発明した。特に,クライスタリング耐性の高いノイズを用いる場合には,クラスタリング耐性を高めることができる。
【図面の簡単な説明】
【0037】
【図1】本発明の情報検索システムの概念の一例を示す図である。
【図2】本発明の情報検索システムのシステム構成を示すブロック図の一例である。
【図3】本発明の情報検索システムを実現するコンピュータのハードウェア構成の一例を示す図である。
【図4】本発明の情報検索システムの処理プロセスの一例を示すフローチャートである。
【図5】検索条件修正処理の処理プロセスの一例を示すフローチャートである。
【図6】ノイズ処理の全体の処理プロセスの一例を示すフローチャートである。
【図7】クラスタ手法の処理プロセスの一例を示すフローチャートである。
【図8】分割手法の処理プロセスの一例を示すフローチャートである。
【図9】ランダム手法の処理プロセスの一例を示すフローチャートである。
【図10】修正検索条件を特定する処理の一例を模式的に示す図である。
【図11】クラスタ手法の処理の一例を模式的に示す図である。
【図12】分割手法の処理の一例を模式的に示す図である。
【図13】単語群Xのみを用いた場合の匿名性と再構築可能性の精度の関係を示す図である。
【図14】単語群Xと単語群Yとを用いた場合の匿名性と再構築可能性の精度の関係を図である。
【図15】情報検索システムによる検索結果と,実際の検索条件「kyoto」を入力した場合の比較例を示す図である。
【図16】情報検索システムによる検索結果と,実際の検索条件「kyoto」を入力した場合の比較例を示すほかの図である。
【図17】情報検索システムによる検索結果と,実際の検索条件「kyoto」を入力した場合の比較例を示すほかの図である。
【図18】情報検索システムによる検索結果と,実際の検索条件「kyoto」を入力した場合の比較例を示すほかの図である。
【図19】情報検索システムによる検索結果と,実際の検索条件「nagasaki」を入力した場合の比較例を示す図である。
【図20】情報検索システムによる検索結果と,実際の検索条件「nagasaki」を入力した場合の比較例を示す図である。
【図21】実施例2において,単語群Xの単語,単語群Yの単語をそれぞれ表示した状態の画面を示す図である。
【図22】実施例2において,単語群Yの単語を削除し,単語群Xの単語のみを表示した状態の画面を示す図である。
【図23】実施例2において,正解を表示した状態を示す画面である。
【図24】単語Aの検索結果D(A)と単語群Xの検索結果D(Xi)との関係を示す図である。
【発明を実施するための形態】
【0038】
本発明の情報検索システム1の全体の概念の一例を図1に示す。また,本発明の情報検索システム1のシステム構成のブロック図の一例を図2に示す。情報検索システム1では,情報の検索を行うユーザが利用するユーザ端末4と,情報の検索を行う検索サーバなどの検索装置3と,情報検索システム1の各処理を実行するための制御端末2とを用いる。情報検索システム1における制御端末2は,コンピュータによって実現される。コンピュータのハードウェア構成の一例を図3に示す。なお,制御端末2とユーザ端末4,制御端末2と検索装置3,制御端末2とユーザ端末4と検索装置3とが一体的に構成されていてもよい。

【0039】
コンピュータはプログラムの演算処理を実行するCPUなどの演算装置70と,情報を記憶するRAMやハードディスクなどの記憶装置71と,ディスプレイなどの表示装置72と,情報の入力を行う入力装置73と,演算装置70の処理結果や記憶装置71に記憶する情報などの各種情報を通信する通信装置74とを有している。なお,コンピュータがタッチパネルディスプレイを備えている場合には表示装置72と入力装置73とが一体的に構成されていてもよい。タッチパネルディスプレイは,携帯電話やスマートフォン,タブレット型コンピュータなどの可搬型通信端末などで利用されることが多いが,それに限定するものではない。

【0040】
タッチパネルディスプレイは,そのディスプレイ上で,直接,所定の入力デバイス(タッチパネル用のペンなど)や指などによって入力を行える点で,表示装置72と入力装置73の機能が一体化した装置である。

【0041】
情報検索システム1の制御端末2は一台のコンピュータによって実現されていてもよいが,その機能が複数のコンピュータによって実現されていてもよい。この場合のコンピュータとして,たとえばクラウドサーバであってもよい。

【0042】
さらに,本発明の情報検索システム1における各処理部は,その機能が論理的に区別されているのみであって,物理上あるいは事実上は同一の領域を為していても良い。

【0043】
検索装置3は,インターネットの情報を検索するための検索エンジンサーバや,各種の情報を記憶するデータベースサーバなど,情報を検索するための装置である。なお,検索装置3としては,検索エンジンサーバやデータベースサーバに限定するものではなく,情報を検索するための装置であればよい。

【0044】
情報検索システム1における制御端末2は,検索条件受付処理部21と検索条件修正処理部22とノイズ処理部23と検索装置処理部24と検索結果処理部25とを有する。

【0045】
検索条件受付処理部21は,ユーザ端末4から,ユーザが実際に検索をしたい検索条件を含むクエリの入力を受け付ける。検索条件としては,ベクトル表現できる情報であればいかなる情報であってもよい。本明細書では,検索条件として,キーワードなどの単語の場合を説明するが,画像情報,音情報などでも同様の処理を実行することで実現できる。たとえば単語が画像情報,音情報になっている場合には,画像情報をOCR認識してテキスト化した後に処理を実行し,音情報を音声認識技術に基づいてテキスト化した後に処理を実行してもよい。また,画像情報における各画素の色情報に基づいてベクトル化してもよいし,音情報における周波数情報に基づいてベクトル化し,以降の処理を実行してもよい。

【0046】
検索条件修正処理部22は,検索条件受付処理部21で受け付けた実際の検索条件に基づいて,検索装置3に入力するための修正した検索条件(修正検索条件)を特定する処理である。修正検索条件を特定する処理にはさまざまな方法を用いることができる。たとえば実際の検索条件が単語である場合,その単語そのものではないが,その単語に近い単語を修正検索条件として特定する。この場合,検索条件修正処理部22は,実際の検索条件の単語の意味解析に基づいて,修正検索条件となる単語を特定する。なお,意味解析とは,単語エンベディング(Word embedding)であって,自然言語解析における技術である。すなわち,ある単語とほかの単語の意味や概念などが類似しているか否かなど,単語の意味関係を自動的に解析するための技術である。

【0047】
検索条件受付処理部21で受け付けた実際の検索条件に基づいてコサイン類似度を用いて,修正検索条件を特定することができる。すなわち,検索条件修正処理部22は,検索条件受付処理部21で入力を受け付けた実際の検索条件をベクトル化し,それにノイズベクトルを演算,たとえば加算する。そして,演算したベクトルの点からコサイン類似度に基づき近傍検索(コサイン類似度が一定の範囲内にあるか)をすることで,修正検索条件を特定する。修正検索条件を特定する処理の一例を模式的に示すのが図10である。

【0048】
たとえば,以下のような処理を実行すればよい。検索条件受付処理部21で受け付けたクエリにおける実際の検索条件における単語をAとした場合,検索条件修正処理部22は,単語Aに対応するベクトルv(v=v1,v2,・・・,v300)を取得する。単語Aに対応するベクトルvの取得方法としては,GloVe(Global Vectors for Word Representation),word2vec,fasttextなどを用いる方法があるが,それに限定するものではない。また,本明細書では,単語のベクトル化にGloVeを用いるので,300次元のベクトルで説明するが,それに限定するものではない。

【0049】
そして検索条件修正処理部22では,単語Aに対応するベクトルvに対して,同次元のノイズベクトルn(n=n1,n2,・・・,n300)を取得する。なお,ノイズベクトルにおける各実数niは,たとえばガウス分布のノイズを用いることができるが,それに限定するものではない。

【0050】
以上のようにして検索条件修正処理部22で単語Aに対応するベクトルvとノイズベクトルnとを取得すると,それぞれを演算,たとえば加算することでベクトルv’を算出する。そして,ベクトルv’の点から距離,たとえばコサイン類似度(コサイン距離)が近い(ベクトルv’の点からコサイン類似度が一定範囲内にある),任意のm個のベクトルx(x1,x2,・・・,xm)を,上述のGloVeのデータセット(単語Aをベクトル化した際のモデルのデータセット)から特定する。そして,特定したベクトルx(x1,x2,・・・,xm)に対応する単語X1,X2,・・・,Xmの単語群Xを特定することで,検索条件である単語A(第1の検索単語)に対応する修正検索条件である単語(第3の検索単語)の単語群Xを特定することができる。単語群Xを構成する単語の数mは,任意の数でよく,複数,たとえば10個から20個程度とすることができるが,それに限定するものではない。

【0051】
なお,検索条件修正処理部22は,上述の処理のほか,たとえば,単語とそれに類似,関連する単語,上位概念の単語をあらかじめ対応づけて記憶しておき,その対応関係に基づいて,検索条件受付処理部21で受け付けた検索条件における単語Aに対応する単語の単語群Xを特定してもよい。

【0052】
ノイズ処理部23は,検索条件受付処理部21で入力を受け付けた検索条件に対するノイズとなる検索条件を特定する処理である。ノイズ処理としては,無関係の検索条件を付加するほか,クラスタリングが困難となるノイズを付加することが好ましい。たとえば実際の検索条件が単語である場合,実際の検索条件の単語の意味解析に基づいて,ノイズとする単語を特定することができる。

【0053】
ノイズ処理部23におけるノイズ処理としては,高密度クラスタからノイズを選択するクラスタ手法,分割手法,ランダム手法などがあり,これらの手法のいずれか一以上によって得られた検索条件を特定するとよい。また,上記の3手法に限定するものではなく,上記の3手法以外,あるいは上記の3手法と組み合わせて,ほかの手法を用いることも可能である。

【0054】
上述と同様に,検索条件受付処理部21で受け付けたクエリにおける実際の検索条件における単語をAとした場合,ノイズ処理部23は,単語Aと同じクラスに属する単語から,ノイズの候補となる所定数,たとえば1000個の単語w1,・・・,w1000をランダムに特定し,単語群Wを構成する。なお,単語Aと同じクラスに属する単語wは,たとえば,ウィキペディアのOntologyクラスのデータセットを用いることなどで特定することができるが,それに限定するものではない。

【0055】
そして,ノイズ処理部23は,特定した単語群Wに対して,クラスタ手法,分割手法,ランダム手法のいずれかまたは複数の手法による処理を実行し,ノイズとなる単語Y1,Y2,・・・,Yzによる単語群Yを取得する。単語群Yを構成する単語の数zは任意の数とすることができ,好ましくは複数,たとえば10個~20個程度とすることができるが,それに限定するものではない。ノイズとなる単語群Yは,クラスタリングに対する耐性が高い単語により構成されることが好ましい。

【0056】
ノイズ処理部23は,複数の手法を用いる場合,ノイズとなる単語群Yの各単語について,各手法により得られる単語の単語数を任意の割合または数として設定することができる。たとえば単語群Yの単語数を10個とする場合,クラスタ手法による単語を5個(50%),分割手法による単語を3個(30%),ランダム手法による単語を2個(20%)のように設定することができる。各手法による単語の割合や数は,毎回,変更してもよいし,固定でもよい。

【0057】
ノイズ処理部23におけるクラスタ手法は,検索条件となる単語Aと同じクラスに属する単語群Wの単語wに基づいて,単語Aとは異なるクラスタを構成可能な複数の単語を特定してノイズとする単語群Yを構成することで,クラスタリングに対する耐性を高める。ノイズ処理部23におけるクラスタ手法は,以下のように実行する。クラスタ手法によるノイズとなる検索条件を特定する処理の一例を模式的に示すのが図11である。

【0058】
まず,単語群Wの単語wのなかから,単語Aと頻出頻度が近い単語を特定することで,クラスタの中心の候補となる単語の単語群S(s1,s2,・・・,si)を構成する。そして,特定した単語群Sの単語sのなかから,使用する単語群S’(s’1,s’2,・・・,s’j)(ただしj<i)を特定する。この特定の際には,単語Aのベクトルから適度に離れており,意味が類似している単語s’を優先して特定をすることが好ましい。すなわち,単語群S’における単語s’の特定は,単語Aのベクトルに対して,同次元のノイズベクトル(単語Aから適度に離れる値として設定するベクトル)を加算等の演算をして算出し,その加算したベクトルの点から,コサイン類似度(コサイン距離)が一定の閾値以上である単語群Sにおける単語sを,単語s’として特定する。

【0059】
特定した単語群S’において,それぞれの単語s’1,s’2,・・・,s’jに近い単語を所定数特定し,単語のクラスタCを生成する。たとえば各クラスタの単語数は3~10個とするが,それに限定するものではない。そして,密集度の高いクラスタCから順番に,クラスタにおける単語を特定し,あらかじめ設定した数になったら,それらをノイズの単語群Y(Y1,Y2,・・・,Yz)として特定をする。

【0060】
このような処理を実行することで,単語Aとは相違する密集度の高いクラスタCにおける単語を,ノイズの単語として特定できるので,仮に検索装置3側でクラスタリングをしたとしても,実際の単語Aの特定が困難となり,クラスタリングに対する耐性が高くなる。

【0061】
また,ノイズ処理部23における分割手法は,検索条件となる単語Aと同じクラスに属する多数の単語を分割,たとえば2分割(ただし単語数は同数ではない)し,その分割によって構成される単語群における単語を用いて,検索条件となる単語Aとは似ていない単語同士の単語群を生成することを,所定条件を充足するまで繰り返し,条件充足後の単語群から,単語Aと似ている複数の単語を特定してノイズとする単語群Yを構成することで,クラスタリングに対する耐性を高める。ノイズ処理部23における分割手法は,以下のように実行する。分割手法によるノイズとなる検索条件を特定する処理の一例を模式的に示すのが図12である。

【0062】
まず実際の検索条件である単語Aの点を取る超平面をランダムに特定し,その超平面において,単語群W(w1,・・・,w1000)を,単語群W1,単語群W2の2つに分割をする。ただし,単語群W1の単語数は,単語群W2の単語数より多いとする。そして,単語群W1において,単語Aと類似していない単語を,単語群W1から所定割合または所定数,たとえば10%だけ消去し,消去した単語を新たに単語群Wとして構成する。なお,単語Aと類似している単語か否かは,単語Aと,単語群W1における比較対象となる単語とのコサイン類似度(コサイン距離)が一定の閾値以上であるかで特定可能である。

【0063】
以上の処理を所定条件,たとえば|W|<2y(yは任意の値)となるまで繰り返す。

【0064】
上記の所定条件を充足した場合,その単語群Wの単語のなかから,単語Aに類似している単語をz個特定し,それらを単語群Y(Y1,Y2,・・・,Yz)として特定をする。

【0065】
以上のような分割手法を用いることで,実際の検索条件における単語A(第1の検索単語)とは非類似であって,かつ,また単語群Yを構成する単語自体は意味が近い単語(第2の検索単語)をノイズの単語として特定できるので,単語Aとは異なるクラスタとなりやすい単語をノイズの単語とすることができる。そのため,仮に検索装置3側でクラスタリングをしたとしても,実際の単語Aの特定が困難となり,クラスタリングに対する耐性が高くなる。

【0066】
さらに,ノイズ処理部23におけるランダム手法は,単語群W(w1,・・・,w1000)の中から,ランダムにz個の単語を特定し,それらを単語群Y(Y1,Y2,・・・,Yz)とする。

【0067】
ランダムにノイズとなる単語を特定することで,クラスタリングに対する耐性を高めることができる。

【0068】
以上のような処理をノイズ処理部23が実行することで,ノイズとする検索条件Yを特定できる。とくに,一つの手法のみならず,複数の手法を組み合わせることで,クラスタリングに対する耐性は,一層,高くすることができる。

【0069】
検索装置処理部24は,検索条件修正処理部22で特定した単語群Xにおける単語と,ノイズ処理部23で特定した単語群Yにおける単語とを,それぞれ検索装置3に送ることで検索処理を実行させる。この際には,単語群Xにおける単語,単語群Yにおける単語をランダムな順番で検索装置3に送るとよい。そして,各単語に対する検索結果を受け付ける。なお,少なくとも,検索装置3に送った単語群Xにおける単語と,その検索結果とを対応づけて記憶しておく。

【0070】
検索結果処理部25は,検索装置3から受け付けた検索結果に基づいて,ユーザ端末4に送る検索結果を出力する。検索結果処理部25は,検索装置3から受け付けた単語群Yの単語Y1,Y2,・・・,Yzに対する検索結果D(Yi)(1≦i≦z)をユーザ端末4に送る検索結果から除外し,単語群Xにおける単語X1,X2,・・・,Xmに対する検索装置3での各検索結果D(Xi)(1≦i≦m)に基づいて検索結果を生成する。たとえば各検索結果D(X1),D(X2),・・・,D(Xm)をソートすることで,検索結果を生成する。また検索結果を生成する際に,検索結果におけるページランクを用いてもよいし,ページランクの重み付けなどを用いてソートをしてもよい。さらに検索結果処理部25は,検索装置3から受け付けた検索結果の群D(Xi)に対して,単語Aに基づいて検索を行うことで,検索結果を生成してもよい。なお,検索結果の生成は,公知の方法を用いることができる。

【0071】
検索結果D(Xi)は,単語群Xの単語X1,X2,・・・,Xmに対する検索装置3での検索結果である。そして単語群Xにおける単語X1,X2,・・・,Xmは,単語Aに対応する単語ベクトルに近いものを特定している。すなわち,単語Aと単語群Xの単語とは共起性が高い(同一の文に同時に現れやすい)。そのため,単語Aの検索結果D(A)は,共起性の高い単語群Xに対する検索結果D(Xi)に基づいて生成することができる。この関係を模式的に示すのが図24である。

【0072】
検索結果処理部25は,以上のように生成した検索結果をユーザ端末4に送る。

【0073】
以上のような処理を実行することで,ユーザが入力をした検索条件は検索装置3側に知られることなく,精度のよい検索結果を得ることができる。
【実施例1】
【0074】
つぎに本発明の情報検索システム1を用いて情報の検索を行う場合の処理プロセスの一例を,図4乃至図9のフローチャートを用いて説明する。なお,本発明の処理は一例であって,その処理,とくに検索条件修正処理部22,ノイズ処理部23の処理などの順序を適宜,変更することは可能である。
【実施例1】
【0075】
ユーザが,自らが入力する検索条件としての単語を知られずに検索装置3で検索を行うことを所望する場合,ユーザ端末4において実際の検索条件としての単語Aを入力すると,単語Aを含むクエリがユーザ端末4から制御端末2に送られる。そして,制御端末2の検索条件受付処理部21で,単語Aを含むクエリを受け付け(S100),検索条件修正処理部22において,検索条件としての単語Aを修正する,検索条件修正処理を実行する(S110)。
【実施例1】
【0076】
すなわち,検索条件修正処理部22は,GloVeなどの公知のモデルを用いることで,単語Aの300次元の単語ベクトルv(v=v1,v2,・・・,v300)を取得する(S200)。また,検索条件修正処理部22は,300次元のノイズベクトルn(n=n1,n2,・・・,n300)を取得する(S210)。
【実施例1】
【0077】
このように取得した単語ベクトルvとノイズベクトルnとをそれぞれ加算することでベクトルv’(v’=v’1,v’2,・・・,v’300)を算出し(S220),ベクトルv’の点からコサイン類似度(コサイン距離)が一定の範囲内にある,任意のm個のベクトルx(x1,x2,・・・,xm)を,GloVeのデータセットを参照することで特定をする(S230)。そして検索条件修正処理部22は,特定した各ベクトルx(x1,x2,・・・,xm)に対応する単語X1,X2,・・・,Xmを特定し,それらを修正検索条件の単語群Xとする(S240)。たとえば,mは10個とすることができるが,数を増減してもよい。
【実施例1】
【0078】
以上のように修正検索条件の単語群Xの単語X1,X2,・・・,Xmを特定する。
【実施例1】
【0079】
また,ノイズ処理部23は,単語Aに基づいて,ノイズとする単語の単語群Yを特定するノイズ処理を実行する(S120)。
【実施例1】
【0080】
ノイズ処理部23は,まず,ウィキペディアのOntologyクラスのデータセットを参照し,単語Aと同じクラスに属する単語から,十分に大きな数,たとえば1000個程度以上の単語wを特定する(S300)。これらの単語wによって構成される単語群を,単語群Wとする。たとえば単語群Wは,単語w1,・・・,w1000により構成される。
【実施例1】
【0081】
そしてノイズ処理部23は,ノイズとする単語群Yの単語数を10個とし,その比率を,たとえばクラスタ手法による単語数が5個,分割手法が3個,ランダム手法が2個と決定をすると,各手法によって,単語群Yにおけるノイズとする単語Y1,Y2,・・・,Y10を特定する処理を実行する(S310,S320,S330)。
【実施例1】
【0082】
まずクラスタ手法によりノイズとする単語Y1,Y2,・・・,Y5を特定するには(S310),ノイズ処理部23は,単語Aの頻出頻度と,単語w1,・・・,w1000のそれぞれの頻出頻度とを比較することで,単語Aの頻出頻度から所定範囲内の頻出頻度にある単語wを特定し,その特定した単語により単語群S(s1,s2,・・・,si)を構成する(S400)。この単語群Sにおける単語s1,s2,・・・,siは,クラスタの中心の候補となる単語である。
【実施例1】
【0083】
そして,単語Aの単語ベクトルに,任意に設定する同次元のノイズベクトルを加算する。そして,その加算したベクトルの点から,コサイン類似度(コサイン距離)が一定の閾値以上である単語群Sの単語を特定し,特定した単語により単語群S’(s’1,s’2,・・・,s’j)(ただしj<i)を構成する(S410)。
【実施例1】
【0084】
以上のように特定した単語群S’を構成する各単語s’1,s’2,・・・,s’jのうち,これらの各単語の単語ベクトルの点からコサイン類似度(コサイン距離)が一定の範囲内にある任意の数(たとえば3~10個程度)のベクトルを,GloVeのデータセットを参照することで特定をする。そして特定した各ベクトルに対応する単語を特定することで,一つのクラスタCを構成する。そして,単語のクラスタCを一または複数構成する(S420)。このようにすることで,単語群S’を構成する各単語s’1,s’2,・・・,s’jに近い単語に基づいて単語のクラスタCを構成することができる。
【実施例1】
【0085】
そして各クラスタCにおける単語の密集度が高いクラスタから順番に,そのクラスタにおける単語を特定し,あらかじめ設定した数,ここでは5個になったら,それらをノイズの単語群Y(Y1,Y2,・・・,Y5)として特定をする(S430)。
【実施例1】
【0086】
以上のような処理をノイズ処理部23が実行することで,クラスタ手法によるノイズとする単語Y1,Y2,・・・,Y5を特定できる。
【実施例1】
【0087】
つぎに,ノイズ処理部23が分割手法により,ノイズとする単語Y6,Y7,Y8を特定するには(S320),ノイズ処理部23は,まず,単語Aのベクトルの点を通る超平面をランダムに特定することで(S500),S300で特定した単語群Wにおける単語wについて,単語群W1,単語群W2に分割をする(S510)。このとき,単語数が多い領域を単語群W1,少ない領域を単語群W2とする。
【実施例1】
【0088】
そして,ノイズ処理部23は,単語Aと,単語群W1における各単語とのコサイン類似度(コサイン距離)を比較し,コサイン類似度に基づいてソートをする。そして,コサイン類似度が低い順に下から,たとえば10%程度の単語群W1における単語を,単語Aに類似していない単語として,単語群W1から消去する。そしてこの消去した各単語を,新たな単語群Wとして構成する(S520)。
【実施例1】
【0089】
S520で特定した単語群Wの単語に基づいて,S500乃至S520の処理を,所定条件,たとえば|W|<2y(yは任意の値)となるまで繰り返す(S530)。
【実施例1】
【0090】
そして所定条件を充足した場合,最終的な単語群Wにおける単語と,単語Aとのコサイン類似度(コサイン距離)を比較し,コサイン類似度に基づいてソートをする。そして,コサイン類似度が高い順に上から,分割手法によるノイズの単語数分(ここでは3個)の単語を特定することで,分割手法によるノイズとする単語Y6,Y7,Y8を特定する(S540)。
【実施例1】
【0091】
さらに,ノイズ処理部23がランダム手法により,ノイズとする単語Y9,Y10を特定するには(S330),S300で特定した単語群W(w1,・・・,w1000)の中から,ランダムに2個の単語を特定し,それらをランダム手法によるノイズとする単語Y9,Y10とする(S600)。
【実施例1】
【0092】
ノイズ処理部23が以上のような処理を実行することで,ノイズとする単語群Yを構成する単語Y1,Y2,・・・,Y10を特定することができる。
【実施例1】
【0093】
検索装置処理部24は,検索条件修正処理部22で特定した修正検索条件の単語群Xの単語X1,X2,・・・,X10,ノイズ処理部23で特定したノイズとする単語群Yの単語Y1,Y2,・・・,Y10を,たとえばランダムや所定の規則に基づいて検索装置3に送ることで,各単語に基づく検索処理を検索装置3に実行させる(S130)。なおこの際に,検索装置処理部24は,単語群X,単語群Yの各単語のほかに,単語Aを検索装置3に送ってもよい。
【実施例1】
【0094】
そして,検索装置処理部24は,検索装置3に送った各単語に基づく検索結果を受け付け(S140),検索結果処理部25が,ユーザ端末4に送る検索結果の生成処理を行う(S150)。すなわち,検索結果処理部25は,検索装置処理部24で受け付けた検索結果のうち,単語群Yにおける単語Y1,Y2,・・・,Y10に対する検索結果D(Y1),D(Y2),・・・,D(Y10)を除外し,単語群Xにおける単語X1,X2,・・・,X10に対する検索装置3での各検索結果D(X1),D(X2),・・・,D(X10)に基づいてソートするなど公知の手法を用いることで,単語Aに対する検索結果D(A)を生成する。そして検索結果処理部25は,S150で生成した検索結果を,単語Aに対する検索結果D(A)として,ユーザ端末4に送る(S160)。
【実施例1】
【0095】
ユーザ端末4でこの検索結果を受け付けることで,ユーザは,自らが入力した単語Aに対する検索結果D(A)を取得することができる。
【実施例1】
【0096】
検索条件の匿名化(検索装置3に検索条件を知られないようにすること)と,検索結果の精度とはトレードオフの関係にある。本発明の情報検索システム1において,匿名性αは,実際の検索条件である単語Aとの間の平均コサイン類似度を用い,以下の数1で示される。
(数1)
JP2019219764A_000003t.gif ここで,v(A)は単語Aのベクトルであり,v(Xi)は修正検索条件である単語Xのベクトルであり,Q(A)は,単語Aに基づく修正検索条件の単語群X(X1,X2,・・・,Xn)である。
【実施例1】
【0097】
また,修正検索条件Xに基づく検索結果による,検索結果の再構築可能性の精度ρは,以下の数2で示される。
(数2)
JP2019219764A_000004t.gif ここでD(A)は,単語Aに基づく検索結果であり,D’(A)は,以下の数3で示される修正検索条件Xによる検索結果を用いて再構成された検索結果である。
(数3)
JP2019219764A_000005t.gif
【実施例1】
【0098】
そして,匿名性αと,検索結果の再構築可能性の精度ρは,以下の数4の関係性が成立する。
(数4)
JP2019219764A_000006t.gif
【実施例1】
【0099】
出願人による本発明の情報検索システム1における,単語群Xのみを用いた場合の匿名性と再構築可能性の精度の関係を図13に,単語群Xと単語群Yとを用いた場合の匿名性と再構築可能性の精度の関係を図14に示す。図13(a)および図14(a)は修正検索条件の単語Xを特定するにあたりノイズベクトルnを用いない場合であり,図13(b)および図14(b)はノイズベクトルが小さい場合であり,図13(c)および図14(c)はノイズベクトルが大きい場合である。
【実施例1】
【0100】
図13と図14は,本発明が実験的に確認できていることを示している。つまり,匿名性と再構築性がトレードオフの関係にあり,匿名性を上げれば再構築性は小さくなり,匿名性を下げれば再構築性は大きくなる。 匿名性はノイズの大小で制御できるため,ノイズの選び方により,匿名性か再構築性のどちらを重要視したいかを選択できる。図13と図14の比較から,単語群Yを使用した方(図14)が使用しない方(図13)より全般的に匿名性が向上することがわかる。
【実施例1】
【0101】
また,図15乃至図20に,本発明の情報検索システム1による検索結果と,実際の検索条件を入力した場合の比較例を示す。なお,図15乃至図20で用いた検索装置3はwikipediaである。図15乃至図18は実際の検索条件として「kyoto」を用いており,図15および図16では強いノイズ(ノイズベクトルが大きい)を,図17および図18では弱いノイズ(ノイズベクトルが小さい)の場合を示している。また図15乃至図18ではノイズ処理部23が,分割手法とランダム手法を用いて単語群Yを特定している。
【実施例1】
【0102】
図15では単語群Xの単語として「tokyo,copenhagen,hokkaido,nagoya,osaka,japan,kansai,seoul,fukuoka,chiba」が,単語群Yの単語として「arkansas,pueblo,saitama,conway,john,rosario,owen souund,armenia,patti,lyons,laporte,knowle west,columbus,north berwick,surat,patterson,millbrook,san diego,gill,walnut」が特定されている。そして,実際の検索条件「kyoto」で検索した場合と比較して,10個中9個の検索結果が一致している(左側のコラムが実際の検索条件に基づく検索結果,右側のコラムが本発明の情報検索システム1に基づく検索結果であり,左側のコラムに表示される「E」が一致している検索結果である)。また,匿名性αは0.778,検索結果の再構築可能性ρは0.421(ただし上位100の検索結果では0.71)である。
【実施例1】
【0103】
また図16では単語群Xの単語として「vasteras,nagoya,seoul,cmom,waseda,osaka,ginza,joad,tokyo,yokohama」が,単語群Yの単語として「ina,valley,islampur,rudbar,qasemabad,habibabad,alexander,wollongong,first,mehrdasht,humboldt,price,lara,perth,hayden,dauphin,hat,kuhsar,jahanabad,nosratabad」が特定されている。そして,実際の検索条件「kyoto」で検索した場合と比較して,10個中7個の検索結果が一致している。また,匿名性αは0.796,検索結果の再構築可能性ρは0.35(ただし上位100の検索結果では0.59)である。
【実施例1】
【0104】
また図17では単語群Xの単語として「nagoya,osaka,japan,copenhagen,seoul,tokyo,oslo,unfccc,treaty,nara」が,単語群Yの単語として「fernando,street,lugo,gray,walton,madhubani,stoney,mineral,english,nassau,sulphur,spring,durango,clay,rain,buena vista,gatineau,mari,lacey,foster」が特定されている。そして実際の検索条件「kyoto」で検索した場合と比較して,すべての検索結果が一致している。また,匿名性αは0.769,検索結果の再構築可能性ρは0.442(ただし上位100の検索結果では0.76)である。
【実施例1】
【0105】
また図18では単語群Xの単語として「japan,hiroshima,osaka,nagasaki,oslo,seoul,nagoya,tokyo,copenhagen,treaty」が,単語群Yの単語として「columbus,saint-louis,henderson,sidney,murray,roy,wolf,fox,hunter,clarksville,fountain,madison,marsa,monroe,seneca,southside,belvedere,huntingdon,avondale,afonso」が特定されている。そして,実際の検索条件「kyoto」で検索した場合と比較して,10個中9個の検索結果が一致している。また,匿名性αは0.787,検索結果の再構築可能性ρは0.409(ただし上位100の検索結果では0.66)である。
【実施例1】
【0106】
さらに,図19および図20は実際の検索条件として「nagasaki」を用いており,いずれも強いノイズ(ノイズベクトルが大きい)の場合を示している。また図19および図20ではノイズ処理部23が,クラスタ手法とランダム手法を用いて単語群Yを特定している。
【実施例1】
【0107】
図19では単語群Xの単語として,「iacono,niigata,bombing,bombed,hiroshima,bombs,a-bombing,osaka,sanfecce,hijrah」が,単語群Yの単語として「anjar,clark,jennings,lakeland,alexander,marshall,apple,valley,james,belleair,jefferson,band,thompson,ripley,morrison,taft,minneapolis,brooklyn heights,franklin,anderson」が特定されている。そして,実際の検索条件「nagasaki」で検索した場合と比較して,10個中6個の検索結果が一致している。また,匿名性αは0.833,検索結果の再構築可能性ρは0.539(ただし上位100の検索結果では0.47)である。
【実施例1】
【0108】
図20では単語群Xの単語として,「devastated,kiel,suburbs,niigata,prefecture,incinerated,bombings,inundated,bombed,hiroshima」が,単語群Yの単語として「grants,lakeview,howard,on, woodland,horton,lakeside,rudbar,nosratabad,baker,melrose park,davis, valley, victor, logan, manor, haymana, va, wollongong, bloomfield」が特定されている。そして,実際の検索条件「nagasaki」で検索した場合と比較して,10個中7個の検索結果が一致している。また,匿名性αは0.836,検索結果の再構築可能性ρは0.539(ただし上位100の検索結果では0.51)である。
【実施例1】
【0109】
以上のように,図15乃至図20の比較結果に基づけば,実際の検索条件を匿名化した上で,検索結果の再構築可能性も一定の精度を有している。とくにウェブサイトを検索する検索エンジンの場合には,検索結果としてせいぜい上位10位程度しか参照しないことも多い。そうすると,検索結果の再構築可能性も6割以上であるなど,十分に実用に耐えることができる。
【実施例2】
【0110】
本発明の情報検索システム1を用いた,別の実施態様として,たとえば検索条件修正処理部22による単語群Xの単語と,ノイズ処理部23による単語群Yの単語とを表示させ,実際の検索条件を推測させる処理を設けることも可能である。この場合,実際の検索条件は,制御端末2が任意に特定をすることで,それに基づいて検索条件修正処理部22で単語群Xの単語を,ノイズ処理部23で単語群Yの単語を,それぞれ特定する。そして単語群X,単語群Yの各単語をユーザ端末4にランダムの順番で表示させることで,それらの単語から,実際に入力された単語を推測させる,一種のゲーム感覚で,情報検索システム1における効果を体感することも可能である。
【実施例2】
【0111】
図21は単語群Xの単語,単語群Yの単語をそれぞれ表示した状態を示す画面である。そして,図22は,図21の状態で分からなかった場合(分からないことを示す操作を受け付けた,または回答として入力を受けた単語が誤っていた場合)に,単語群Yの単語を削除し,単語群Xの単語のみを表示した状態を示す画面である。図23は正解を表示した状態を示す画面である。
【実施例2】
【0112】
このように,本実施例の処理を実行することで,ゲーム感覚で本発明の情報検索システム1の効果を体感することもできる。
【産業上の利用可能性】
【0113】
本発明の情報検索システム1を用いることによって,実際の検索条件の特定を困難とする情報検索システム1を発明した。特に,クライスタリング耐性の高いノイズを用いる場合には,クラスタリング耐性を高めることができる。
【符号の説明】
【0114】
1:情報検索システム
2:制御端末
3:検索装置
4:ユーザ端末
21:検索条件受付処理部
22:検索条件修正処理部
23:ノイズ処理部
24:検索装置処理部
25:検索結果処理部
70:演算装置
71:記憶装置
72:表示装置
73:入力装置
74:通信装置
Drawing
(In Japanese)【図1】
0
(In Japanese)【図2】
1
(In Japanese)【図3】
2
(In Japanese)【図4】
3
(In Japanese)【図5】
4
(In Japanese)【図6】
5
(In Japanese)【図7】
6
(In Japanese)【図8】
7
(In Japanese)【図9】
8
(In Japanese)【図10】
9
(In Japanese)【図11】
10
(In Japanese)【図12】
11
(In Japanese)【図13】
12
(In Japanese)【図14】
13
(In Japanese)【図15】
14
(In Japanese)【図16】
15
(In Japanese)【図17】
16
(In Japanese)【図18】
17
(In Japanese)【図19】
18
(In Japanese)【図20】
19
(In Japanese)【図21】
20
(In Japanese)【図22】
21
(In Japanese)【図23】
22
(In Japanese)【図24】
23