Top > Search of Japanese Patents > DOCUMENT SIMILARITY-DERIVING DEVICE AND ANSWER-SUPPORTING SYSTEM USING THE SAME

DOCUMENT SIMILARITY-DERIVING DEVICE AND ANSWER-SUPPORTING SYSTEM USING THE SAME meetings

Patent code P09A014794
Posted date Nov 13, 2009
Application number P2006-304301
Publication number P2008-123111A
Patent number P4904496
Date of filing Nov 9, 2006
Date of publication of application May 29, 2008
Date of registration Jan 20, 2012
Inventor
  • (In Japanese)野村 浩郷
Applicant
  • (In Japanese)国立大学法人九州工業大学
Title DOCUMENT SIMILARITY-DERIVING DEVICE AND ANSWER-SUPPORTING SYSTEM USING THE SAME meetings
Abstract PROBLEM TO BE SOLVED: To provide a new method for finding similarity between documents.
SOLUTION: A similarity between documents is found by using at least either a co-occurrence vector or a sentence type vector in addition to a TF-IDF vector. Accordingly, the similarity, which more reflects the meaning and contents of the documents, can be found.
Outline of related art and contending technology (In Japanese)

近年インターネットやパソコンの普及により、アフターサービスの一環としてパソコン技術サポートの必要性が高まっている。多くのパソコン技術サポートセンターでは、主に電話で技術サポートを行う従来型のコールセンターに加えて、インターネット経由でE-mailでの問い合わせを受け付けるメールコールセンターがたくさん設置されてきている。

メールコールセンターで行われている技術サポートは、すべて無料サポートである。質問メールは、夕刻から深夜にかけて多く送付されてくる。問い合わせメールの受信から回答の発信までは所定時間内(例えば24時間以内)に完了することが求められている。このような制約があるため、企業にとって、正確かつ迅速なサポートを行うには人件費などのコストが膨大なものになりつつある。そこで、メールコールセンターの自動化が強く求められている。
そこで、問い合わせに適した回答作成を支援する回答支援装置が、特開2001-273308号公報に開示されている。

この特開2001-273308号公報の回答支援装置は、予め想定された問い合わせの内容とこの問い合わせに対する回答作成を支援する支援情報とが対応づけられて格納される支援情報記憶手段と、予め想定された問い合わせの内容とこの問い合わせに対する回答作成者の回答作成者情報とが対応づけられて格納される回答作成者情報記憶手段と、入力される問い合わせの内容により前記支援情報記憶手段を検索して得られた支援情報および当該問い合わせの内容を、当該内容により前記回答作成者情報記憶手段を検索して得られた回答作成者情報に対応する回答作成者に送付する情報送付手段とを有するものである。
【特許文献1】
特開2001-273308号公報

Field of industrial application (In Japanese)

本発明は、文書の類似性を求める文書類似性導出装置に関する。

Scope of claims (In Japanese)
【請求項1】
 
文からなる文書の文を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段とを含み、
第1の文書のTF/IDF文書ベクトル及び共起ベクトルを求め、
第2の文書のTF/IDF文書ベクトル及び共起ベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル及び共起ベクトルと第2の文書のTF/IDF文書ベクトル及び共起ベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。

【請求項2】
 
文からなる文書の文章を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、
第1の文書のTF/IDF文書ベクトル及び文タイプベクトルを求め、
第2の文書のTF/IDF文書ベクトル及び文タイプベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。

【請求項3】
 
文からなる文書の文を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、
第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。

【請求項4】
 
前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、
TF-IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを第1の文書について求め、
複数文書からなる第2の文書群の各文書の文書ベクトルを求め、
求めた第2の文書群の各文書の文書ベクトルから平均文書ベクトルを求め、
求めた第2の文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第2の文書群の類似性を求める文書-文書群類似性導出装置。

【請求項5】
 
前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、
TF-IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象となる比較対象文書について求め、
第nの文書の索引TF-IDFの文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
比較対象文書の文書ベクトルと第nの文書の文書ベクトルから比較対象文書と第nの文書の類似性を求め、
nは1ないしNまであり、各第nの文書と比較対象文書の類似性の中から類似性の高い第nの文書を特定する高類似性文書特定装置。

【請求項6】
 
前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、
TF-IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象文書について求め、
複数文書からなる第nの文書群の各文書の文書ベクトルを求め、
求めた第nの文書群の各文書の文書ベクトルから平均文書ベクトルを求め、
求めた第nの文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第nの文書群の類似性を求め、
nは1ないしNまであり、各第nの文書群と比較対象文書の類似性の中から類似性の高い第nの文書群を特定する高類似性文書群特定装置。

【請求項7】
 
文からなる文書の文を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段としてコンピュータを機能させ、
第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性をコンピュータに求めさせる文書類似性導出プログラム。

【請求項8】
 
文からなる文書の文を形態素解析するステップと、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求めるステップと、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求めるステップと、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求めるステップとを含み、
第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求めるステップと、
第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求めるステップと、
求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求めるステップとをさらに含む文書類似性導出方法。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2006304301thum.jpg
State of application right Registered
Please contact us by E-mail or facsimile if you have any interests on this patent.


PAGE TOP

close
close
close
close
close
close
close