TOP > 技術シーズ検索 > 文書類似性導出装置及びそれを用いた回答支援システム

文書類似性導出装置及びそれを用いた回答支援システム

シーズコード S110005786
掲載日 2011年7月22日
研究者
  • 野村 浩郷
技術名称 文書類似性導出装置及びそれを用いた回答支援システム
技術概要 質問応答データベース構築支援システムでは、質問カテゴリ判定システムを利用して、質問メールが属するリーフカテゴリの判定を行う。判定手法として、質問メールと質問カテゴリをベクトル空間上の点で表し、ベクトル間の類似度を定義する。質問メールの文書ベクトルに関して、質問メールと質問メールが属する質問カテゴリの類似度が大きくなるように、ベクトルの要素を決定する。判定手法では、TF-IDFの重みづけによる文書ベクトルを拡張し、体言と用言の共起および文の特徴を考慮することで、質問メールの内容をより正確に反映する文書ベクトルを用いる。質問メールの文書ベクトルは、(1)TF-IDFによる文書ベクトル、(2)体言と用言の共起を考慮した文書ベクトル、(3)文タイプを考慮した文書ベクトルの3種類である。また、質問カテゴリに属する質問メールの文書ベクトルを平均化したものを質問カテゴリの文書ベクトルとし、判定する質問メールの文書ベクトルとの重みづき余弦尺度によって、両方の類似度を求める。類似度の計算結果によって、質問メールが属する質問カテゴリを判定する。
画像

※ 画像をクリックすると拡大します。

thum_2006-304301.gif
研究分野
  • 自然語処理
  • データ通信
展開可能なシーズ 従来の回答支援システムは、消費者がリストボックスやチェックボックスなどの選択形式の問い合わせに対して対応する回答作成者及び支援情報を特定するものであり、消費者が自ら作成した問い合わせ文章に対応できなかったが、文章による問い合わせに対してその種類を特定し、適切な回答を支援するシステムを提供する。また、このシステムで用いる文書間の類似性を求める新たな手法を提供する。
TF-IDFベクトルに加え、少なくとも共起ベクトル及び文タイプベクトルの一方を用いて文書間の類似性を求めるので、より文書内の意味内容を反映した類似性を求めることができる。また、第1の文書の文書ベクトルを求め、複数文書からなる第2の文書群の各文書の文書ベクトルから求めた第2の文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第2の文書群の類似性を求めることができる。
用途利用分野 文書類似性導出装置、メールコールセンター、回答支援システム、質問応答データベース
出願特許   特許 国際特許分類(IPC)
( 1 ) 学校法人九州工業大学, . 野村 浩郷, . 文書類似性導出装置及びそれを用いた回答支援システム. 特開2008-123111. 2008-05-29
  • G06F  17/30     

PAGE TOP