TOP > 国内特許検索 > 情報処理装置、情報処理方法、プログラム、及び非一時記憶媒体

情報処理装置、情報処理方法、プログラム、及び非一時記憶媒体 NEW

国内特許コード P170014733
整理番号 (S2015-0015-N0)
掲載日 2017年12月21日
出願番号 特願2016-570732
出願日 平成28年1月22日(2016.1.22)
国際出願番号 JP2016051909
国際公開番号 WO2016117698
国際出願日 平成28年1月22日(2016.1.22)
国際公開日 平成28年7月28日(2016.7.28)
優先権データ
  • 特願2015-011853 (2015.1.23) JP
発明者
  • 原 一夫
  • 鈴木 郁美
出願人
  • 大学共同利用機関法人情報・システム研究機構
発明の名称 情報処理装置、情報処理方法、プログラム、及び非一時記憶媒体 NEW
発明の概要 情報処理装置は、複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1算出部と、前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する特定部と、前記特定部が特定する前記第2データセットから、前記処理対象データごとの基準を算出する第2算出部と、前記第1算出部が算出する前記類似度と、前記第2算出部が算出する基準とを用いて、前記処理対象データごとにスコアを算出する第3算出部と、を含む。
従来技術、競合技術の概要


k近傍法は実装が簡素であるにもかかわらず分類や情報検索で有効であるために多くの分類システムや情報検索システムで用いられている。しかし、データセット内のデータが高次元空間に存在するとみなせる場合(例えばデータが多数の属性を持つベクトルとして表現される場合)、他のデータのk近傍に頻出するデータ(ハブと呼ばれる)が出現し、結果としてk近傍法の性能は低下する。このハブの現象は、Radovanovicら(非特許文献1参照)により、ごく最近発見されたデータの高次元性にまつわる現象である。一方、発明者らは「(グローバル)センタリング」、すなわち、原点をデータセットの平均(グローバルセントロイド)に移動することにより、k近傍法におけるハブの影響を軽減できることを発表した(非特許文献2参照)。ハブはデータセットの平均の近くに位置するデータであり、センタリングはハブを軽減するのに有効である。

産業上の利用分野


本発明は、情報処理装置、情報処理方法、プログラム、及び非一時記憶媒体に関する。詳しくは、高次元又は/及び大規模データセットに対するk近傍検索で発生するハブを軽減する類似度演算システム及び類似度演算方法に関する。
2015年1月23日に、日本に出願された特願2015-11853号に基づき優先権を主張し、その内容をここに援用する。

特許請求の範囲 【請求項1】
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1算出部と、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する特定部と、
前記特定部が特定する前記第2データセットから、前記処理対象データごとの基準を算出する第2算出部と、
前記第1算出部が算出する前記類似度と、前記第2算出部が算出する基準とを用いて、前記処理対象データごとにスコアを算出する第3算出部と、
を含む情報処理装置。

【請求項2】
前記クエリについて、前記第1データセットから第1の所定数のデータを、前記スコアに基づいて抽出する抽出部
をさらに備える請求項1に記載の情報処理装置。

【請求項3】
前記特定部は、前記第1データセット内のデータと前記処理対象データとの間の類似度に基づいて、前記第2データセットを特定する
請求項1又は請求項2に記載の情報処理装置。

【請求項4】
前記特定部は、前記第1データセット内のデータと前記処理対象データとの間の類似度が高い順に第2の所定数のデータを抽出することにより、前記第2データセットを特定する
請求項1から請求項3のいずれか一項に記載の情報処理装置。

【請求項5】
前記第2の所定数とは、前記第1データセット内の2つのデータの全ての組み合わせにおける類似度に基づいて、前記第1データセット内の各々のデータに対して当該類似度が高い順に第1の所定数のデータを抽出する場合に、前記処理対象データが抽出される回数と、前記処理対象データと当該処理対象データの基準との間の類似度と、の間の相関が最大になる数である
請求項4に記載の情報処理装置。

【請求項6】
前記第2の所定数とは、前記第1データセット内の2つのデータの全ての組み合わせにおける類似度に基づいて、前記第1データセット内の各々のデータに対して当該類似度が高い順に第1の所定数のデータを抽出する場合に、前記処理対象データが抽出される回数に関する分布の歪度が最小になる数である
請求項4に記載の情報処理装置。

【請求項7】
前記第1算出部は、内積と、コサインと、距離と、カーネルとのうちの少なくともいずれか1つに基づいて前記類似度を算出する
請求項1から請求項6のいずれか一項に記載の情報処理装置。

【請求項8】
情報処理装置が、
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1ステップと、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する第2ステップと、
前記第2ステップにおいて特定した前記第2データセットから、前記処理対象データごとの基準を算出する第3ステップと、
前記第1ステップにおいて算出した前記類似度と、前記第3ステップにおいて算出した基準とを用いて、前記処理対象データごとにスコアを算出する第4ステップと、
を含む情報処理方法。

【請求項9】
コンピュータに、
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1ステップと、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する第2ステップと、
前記第1ステップにおいて特定した前記第2データセットから、前記処理対象データごとの基準を算出する第3ステップと、
前記第1ステップにおいて算出した前記類似度と、前記第3ステップにおいて算出した基準とを用いて、前記処理対象データごとにスコアを算出する第4ステップと、
を実行させるためのプログラム。

【請求項10】
コンピュータに、
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1ステップと、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する第2ステップと、
前記第1ステップにおいて特定した前記第2データセットから、前記処理対象データごとの基準を算出する第3ステップと、
前記第1ステップにおいて算出した前記類似度と、前記第3ステップにおいて算出した基準とを用いて、前記処理対象データごとにスコアを算出する第4ステップと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な非一時記憶媒体。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2016570732thum.jpg
出願権利状態 公開


PAGE TOP

close
close
close
close
close
close
close