TOP > 国内特許検索 > 文書類似性導出装置及びそれを用いた回答支援システム

文書類似性導出装置及びそれを用いた回答支援システム 新技術説明会

国内特許コード P09A014794
掲載日 2009年11月13日
出願番号 特願2006-304301
公開番号 特開2008-123111
登録番号 特許第4904496号
出願日 平成18年11月9日(2006.11.9)
公開日 平成20年5月29日(2008.5.29)
登録日 平成24年1月20日(2012.1.20)
発明者
  • 野村 浩郷
出願人
  • 学校法人九州工業大学
発明の名称 文書類似性導出装置及びそれを用いた回答支援システム 新技術説明会
発明の概要

【課題】文書間の類似性を求める新たな手法を提供する。
【解決手段】TF-IDFベクトルに加え、少なくとも共起ベクトル及び文タイプベクトルの一方を用いて文書間の類似性を求めているので、より文書内の意味内容を反映した類似性を求めることができる。
【選択図】図1

従来技術、競合技術の概要


近年インターネットやパソコンの普及により、アフターサービスの一環としてパソコン技術サポートの必要性が高まっている。多くのパソコン技術サポートセンターでは、主に電話で技術サポートを行う従来型のコールセンターに加えて、インターネット経由でE-mailでの問い合わせを受け付けるメールコールセンターがたくさん設置されてきている。



メールコールセンターで行われている技術サポートは、すべて無料サポートである。質問メールは、夕刻から深夜にかけて多く送付されてくる。問い合わせメールの受信から回答の発信までは所定時間内(例えば24時間以内)に完了することが求められている。このような制約があるため、企業にとって、正確かつ迅速なサポートを行うには人件費などのコストが膨大なものになりつつある。そこで、メールコールセンターの自動化が強く求められている。
そこで、問い合わせに適した回答作成を支援する回答支援装置が、特開2001-273308号公報に開示されている。



この特開2001-273308号公報の回答支援装置は、予め想定された問い合わせの内容とこの問い合わせに対する回答作成を支援する支援情報とが対応づけられて格納される支援情報記憶手段と、予め想定された問い合わせの内容とこの問い合わせに対する回答作成者の回答作成者情報とが対応づけられて格納される回答作成者情報記憶手段と、入力される問い合わせの内容により前記支援情報記憶手段を検索して得られた支援情報および当該問い合わせの内容を、当該内容により前記回答作成者情報記憶手段を検索して得られた回答作成者情報に対応する回答作成者に送付する情報送付手段とを有するものである。

【特許文献1】特開2001-273308号公報

産業上の利用分野


本発明は、文書の類似性を求める文書類似性導出装置に関する。

特許請求の範囲 【請求項1】 [公開20080529] 文からなる文書の文を形態素解析する手段と、 形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、 形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段とを含み、 第1の文書のTF/IDF文書ベクトル及び共起ベクトルを求め、 第2の文書のTF/IDF文書ベクトル及び共起ベクトルを求め、 求めた第1の文書のTF/IDF文書ベクトル及び共起ベクトルと第2の文書のTF/IDF文書ベクトル及び共起ベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。
【請求項2】 [公開20080529] 文からなる文書の文章を形態素解析する手段と、 形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、 形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、 第1の文書のTF/IDF文書ベクトル及び文タイプベクトルを求め、 第2の文書のTF/IDF文書ベクトル及び文タイプベクトルを求め、 求めた第1の文書のTF/IDF文書ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。
【請求項3】 [公開20080529] 文からなる文書の文を形態素解析する手段と、 形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、 形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、 形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、 第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、 第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、 求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。
【請求項4】 [公開20080529] 前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、 TF-IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを第1の文書について求め、 複数文書からなる第2の文書群の各文書の文書ベクトルを求め、 求めた第2の文書群の各文書の文書ベクトルから平均文書ベクトルを求め、 求めた第2の文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第2の文書群の類似性を求める文書-文書群類似性導出装置。
【請求項5】 [公開20080529] 前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、 TF-IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象となる比較対象文書について求め、 第nの文書の索引TF-IDFの文書ベクトル、共起ベクトル及び文タイプベクトルを求め、 比較対象文書の文書ベクトルと第nの文書の文書ベクトルから比較対象文書と第nの文書の類似性を求め、 nは1ないしNまであり、各第nの文書と比較対象文書の類似性の中から類似性の高い第nの文書を特定する高類似性文書特定装置。
【請求項6】 [公開20080529] 前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、 TF-IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象文書について求め、 複数文書からなる第nの文書群の各文書の文書ベクトルを求め、 求めた第nの文書群の各文書の文書ベクトルから平均文書ベクトルを求め、 求めた第nの文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第nの文書群の類似性を求め、 nは1ないしNまであり、各第nの文書群と比較対象文書の類似性の中から類似性の高い第nの文書群を特定する高類似性文書群特定装置。
【請求項7】 [公開20080529] 文からなる文書の文を形態素解析する手段と、 形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、 形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、 形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段としてコンピュータを機能させ、 第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、 第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、 求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性をコンピュータに求めさせる文書類似性導出プログラム。
【請求項8】 [手続補正20111124] 文からなる文書の文を形態素解析するステップと、 形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求めるステップと、 形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求めるステップと、 形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求めるステップとを含み、 第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求めるステップと、 第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求めるステップと、 求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求めるステップとをさらに含む文書類似性導出方法。
産業区分
  • 計算機応用
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006304301thum.jpg
出願権利状態 権利存続中
詳細は、下記「問合せ先」まで直接お問い合わせください。


PAGE TOP

close
close
close
close
close
close
close