Top > Search of International Patents > INFORMATION-PROCESSING DEVICE, INFORMATION-PROCESSING METHOD, PROGRAM, AND NON-TEMPORARY STORAGE MEDIUM

INFORMATION-PROCESSING DEVICE, INFORMATION-PROCESSING METHOD, PROGRAM, AND NON-TEMPORARY STORAGE MEDIUM

Foreign code F160008889
File No. (S2015-0015-N0)
Posted date Oct 25, 2016
Country WIPO
International application number 2016JP051909
International publication number WO 2016117698
Date of international filing Jan 22, 2016
Date of international publication Jul 28, 2016
Priority data
  • P2015-011853 (Jan 23, 2015) JP
Title INFORMATION-PROCESSING DEVICE, INFORMATION-PROCESSING METHOD, PROGRAM, AND NON-TEMPORARY STORAGE MEDIUM
Abstract The information-processing device includes: a first calculation unit for calculating similarity between the data to be processed in a first data set composed of a plurality of data and a query as the data to be searched; a specification unit for specifying, for each of the data to be processed, a second data set composed of some data in the first data set; a second calculation unit for calculating a criterion for each of the data to be processed from the second data set specified by the specification unit; and a third calculation unit for calculating a score for each of the data to be processed by using the similarity calculated by the first calculation unit and the criterion calculated by the second calculation unit.
Outline of related art and contending technology BACKGROUND ART
K-nearest neighbor algorithm is a simple implementation even though the classification and information retrieval to be effective in many classification systems and information retrieval system used. However, a high-dimensional space is a set of data independent of the existing (for example data of a number of attributes when expressed as a vector), k in the vicinity of the other data (referred to as a hub) data frequently appears, to reduce the performance of the k-nearest neighbor algorithm as a result. The hub of the phenomenon is, (see non-patent document 1) by Radovanovic et al., the most recently discovered phenomenon relating to the high dimensionality of the data. On the other hand, the inventors '(global) centering', that is, the origin of the data set by moving average (), k-nearest neighbor algorithm can reduce the influence of a hub in which the presenter (see Non-Patent Document 2). The hub is located in the vicinity of the average of the data set and the data, the centering hub is effective to reduce.
Scope of claims (In Japanese)[請求項1]
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1算出部と、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する特定部と、
前記特定部が特定する前記第2データセットから、前記処理対象データごとの基準を算出する第2算出部と、
前記第1算出部が算出する前記類似度と、前記第2算出部が算出する基準とを用いて、前記処理対象データごとにスコアを算出する第3算出部と、
を含む情報処理装置。
[請求項2]
前記クエリについて、前記第1データセットから第1の所定数のデータを、前記スコアに基づいて抽出する抽出部
をさらに備える請求項1に記載の情報処理装置。
[請求項3]
前記特定部は、前記第1データセット内のデータと前記処理対象データとの間の類似度に基づいて、前記第2データセットを特定する
請求項1又は請求項2に記載の情報処理装置。
[請求項4]
前記特定部は、前記第1データセット内のデータと前記処理対象データとの間の類似度が高い順に第2の所定数のデータを抽出することにより、前記第2データセットを特定する
請求項1から請求項3のいずれか一項に記載の情報処理装置。
[請求項5]
前記第2の所定数とは、前記第1データセット内の2つのデータの全ての組み合わせにおける類似度に基づいて、前記第1データセット内の各々のデータに対して当該類似度が高い順に第1の所定数のデータを抽出する場合に、前記処理対象データが抽出される回数と、前記処理対象データと当該処理対象データの基準との間の類似度と、の間の相関が最大になる数である
請求項4に記載の情報処理装置。
[請求項6]
前記第2の所定数とは、前記第1データセット内の2つのデータの全ての組み合わせにおける類似度に基づいて、前記第1データセット内の各々のデータに対して当該類似度が高い順に第1の所定数のデータを抽出する場合に、前記処理対象データが抽出される回数に関する分布の歪度が最小になる数である
請求項4に記載の情報処理装置。
[請求項7]
前記第1算出部は、内積と、コサインと、距離と、カーネルとのうちの少なくともいずれか1つに基づいて前記類似度を算出する
請求項1から請求項6のいずれか一項に記載の情報処理装置。
[請求項8]
情報処理装置が、
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1ステップと、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する第2ステップと、
前記第2ステップにおいて特定した前記第2データセットから、前記処理対象データごとの基準を算出する第3ステップと、
前記第1ステップにおいて算出した前記類似度と、前記第3ステップにおいて算出した基準とを用いて、前記処理対象データごとにスコアを算出する第4ステップと、
を含む情報処理方法。
[請求項9]
コンピュータに、
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1ステップと、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する第2ステップと、
前記第1ステップにおいて特定した前記第2データセットから、前記処理対象データごとの基準を算出する第3ステップと、
前記第1ステップにおいて算出した前記類似度と、前記第3ステップにおいて算出した基準とを用いて、前記処理対象データごとにスコアを算出する第4ステップと、
を実行させるためのプログラム。
[請求項10]
コンピュータに、
複数のデータにより構成される第1データセット内の処理対象データと、検索対象データとしてのクエリとの間の類似度を算出する第1ステップと、
前記第1データセット内の一部のデータにより構成される第2データセットを、前記処理対象データごとに特定する第2ステップと、
前記第1ステップにおいて特定した前記第2データセットから、前記処理対象データごとの基準を算出する第3ステップと、
前記第1ステップにおいて算出した前記類似度と、前記第3ステップにおいて算出した基準とを用いて、前記処理対象データごとにスコアを算出する第4ステップと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な非一時記憶媒体。
  • Applicant
  • ※All designated countries except for US in the data before July 2012
  • INTER-UNIVERSITY RESEARCH INSTITUTE CORPORATION RESEARCH ORGANIZATION OF INFORMATION AND SYSTEMS
  • Inventor
  • HARA Kazuo
  • SUZUKI Ikumi
IPC(International Patent Classification)
Specified countries National States: AE AG AL AM AO AT AU AZ BA BB BG BH BN BR BW BY BZ CA CH CL CN CO CR CU CZ DE DK DM DO DZ EC EE EG ES FI GB GD GE GH GM GT HN HR HU ID IL IN IR IS JP KE KG KN KP KR KZ LA LC LK LR LS LU LY MA MD ME MG MK MN MW MX MY MZ NA NG NI NO NZ OM PA PE PG PH PL PT QA RO RS RU RW SA SC SD SE SG SK SL SM ST SV SY TH TJ TM TN TR TT TZ UA UG US UZ VC VN ZA ZM ZW
ARIPO: BW GH GM KE LR LS MW MZ NA RW SD SL SZ TZ UG ZM ZW
EAPO: AM AZ BY KG KZ RU TJ TM
EPO: AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR
OAPI: BF BJ CF CG CI CM GA GN GQ GW KM ML MR NE SN ST TD TG

PAGE TOP

close
close
close
close
close
close