TOP > 国内特許検索 > 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体

分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体

国内特許コード P140010842
整理番号 2149
掲載日 2014年8月11日
出願番号 特願2008-161237
公開番号 特開2010-003106
登録番号 特許第5164209号
出願日 平成20年6月20日(2008.6.20)
公開日 平成22年1月7日(2010.1.7)
登録日 平成24年12月28日(2012.12.28)
発明者
  • 岩田 具治
  • 田中 利幸
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体
発明の概要 【課題】ターゲット分類体系のデータだけでなく、補助分類体系のデータも有効に利用することで、ターゲット分類体系に関する高精度な分類モデルを生成する。
【解決手段】分類装置1は、ターゲット分類体系における既分類データだけでなく、補助分類体系における既分類データも用い、誤差関数と重みとの積の総和である期待誤差を最小化させるように重みを推定し、その推定された重みと2種類の既分類データとを用いて分類モデルを生成することで、ターゲット分類体系のデータだけでなく、補助分類体系のデータも有効に利用し、ターゲット分類体系に関する高精度な分類モデルを生成することができる。
【選択図】図1
従来技術、競合技術の概要



学習データ(学習用のデータ)の数が少ない場合、一般に、分類モデルの性能は低くなる。そこで、補助分類体系におけるクラスのラベル(以下、「クラスラベル」または単に「ラベル」という。)が付与されたデータを用いることにより、分類モデルの性能を向上させることができれば好ましい。その場合、例えば、あるWebページを、あるターゲット分類体系のクラス(以下、「ターゲットクラス」ともいう。)に分類したいとする。そして、ディレクトリ型検索エンジンやソーシャルブックマークサイトにおける多数のユーザによって、ターゲット分類体系とは異なる補助分類体系に、多くのWebページがすでに分類されており、そのような情報を活用できれば望ましい。





また、例えば、オンラインショッピングなどの商品について購買順序を考慮した予測(分類)に関する技術が知られている(非特許文献1参照)。

【非特許文献1】

田具治、山田武士、上田修功、“購買順序を考慮した協調フィルタリング”、人工知能と知識処理研究会、AI2007-3,13-18,2007

産業上の利用分野



本発明は、分類対象データを分類する分類体系(以下、「ターゲット分類体系」という。)のデータだけでなく、別の分類体系(以下、「補助分類体系」という。)のデータも用いて、分類モデルを学習し、また、その学習した分類モデルを用いて分類対象データをターゲット分類体系において分類する技術に関する。

特許請求の範囲 【請求項1】
分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、
情報を記憶する記憶手段と、
前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、
を備えることを特徴とする分類モデル生成装置。

【請求項2】
前記重み推定部は、
前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、
前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、
を備えることを特徴とする請求項1に記載の分類モデル生成装置。

【請求項3】
前記モデル構築部は、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部
を備えることを特徴とする請求項1に記載の分類モデル生成装置。

【請求項4】
請求項3に記載の分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部
を備えることを特徴とする分類装置。

【請求項5】
分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置による分類モデル生成方法であって、
前記分類モデル生成装置は、情報を記憶する記憶手段と、重み推定部と、モデル構築部と、を備えており、
前記重み推定部は、前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定ステップを実行し、
前記モデル構築部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築ステップを実行する
ことを特徴とする分類モデル生成方法。

【請求項6】
前記重み推定部は、事後確率推定部と、混合比推定部と、を備えており、
前記重み推定ステップにおいて、
前記事後確率推定部は、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納し、
前記混合比推定部は、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。

【請求項7】
前記モデル構築部は、モデルパラメータ推定部を備えており、
前記モデル構築ステップにおいて、
前記モデルパラメータ推定部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。

【請求項8】
請求項7に記載の分類モデル生成方法によって前記記憶手段に格納されたモデルパラメータを用いて、
前記分類対象データを分類する分類装置における分類部は、
前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するステップを実行する
ことを特徴とする分類方法。

【請求項9】
コンピュータを請求項1から請求項3のいずれか一項に記載の分類モデル生成装置の各部として機能させるための分類モデル生成プログラム。

【請求項10】
コンピュータを請求項4に記載の分類装置の分類部として機能させるための分類プログラム。

【請求項11】
請求項9に記載の分類モデル生成プログラム、または、請求項10に記載の分類プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2008161237thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close