TOP > 国内特許検索 > 表示システム

表示システム コモンズ

国内特許コード P140010532
整理番号 03-199
掲載日 2014年5月13日
出願番号 特願2004-140841
公開番号 特開2005-322121
登録番号 特許第4593967号
出願日 平成16年5月11日(2004.5.11)
公開日 平成17年11月17日(2005.11.17)
登録日 平成22年9月24日(2010.9.24)
発明者
  • 村田 真樹
  • 馬 青
  • 白土 保
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 表示システム コモンズ
発明の概要 【課題】ユーザが入力した少数の用語と同じ分野の用語を抽出し該抽出した用語を二次元の図に類似した用語が集まるように表示すること。
【解決手段】入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部2と、前記抽出した表現である各用語に対して、その用語の抽出に使われたパターンを文脈とし、該用語と文脈の対の集合を可視化手段4に入力して二次元マップでの各用語の座標を定め、該求まった座標に用語を表示した図を出力する用語表示部3とを備える。
【選択図】 図3
従来技術、競合技術の概要


近年、質問応答の研究が重要視されつつあるが、質問応答システムでは、例えば、国名と首都名の対のデータのような二項データ(表2参照)をあらかじめ具備していれば、そういう関係の二項データでの質問応答を高性能に処理することができるものであった(例えば、非特許文献1参照)。二項データは、そういうシステムにも利用できるし、また、そういうシステムのために作成する二項データ抽出システムがあった(例えば、非特許文献2、3参照)。



しかし、従来のシステムは、入力した複数の用語と同じ分野の用語を高速にしかも正確に収集し、該収集した用語を二次元の図に、類似した用語が集まるように表示することは行われていなかった。
【非特許文献1】
Michael Fleischman,Eduard Hovy,and Abdessamad Echihabi "Offline strategies for online question answering:Answering questions before they are asked" Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (eds. Erhard Hinrichs and Dan Roth),(2003),pp.1-7 。
【非特許文献2】
Sergey Brin "Extracting patterns and relations from the world wide web" WebDB Workshop at 6th International Conference on Extending Database Technology,EDBT'98,(1998)。
【非特許文献3】
安藤まや, 関根聡, 石崎俊 "定型表現を利用した新聞記事からの下位概念単語の自動抽出" 情報処理学会自然言語処理研究会 2003-NL-157,(2003) 。

産業上の利用分野



本発明は、ユーザが入力した少数の単語と同じ分野の用語を収拾して可視化して表示するシステムに関する。





近年、質問応答処理システム(下記文献(1) 参照)において、固有名詞を取り出すような固有表現抽出の技術は必然的に必要な技術となっており、生物情報処理分野でタンパク質表現の抽出が重要視されそれに関する研究が盛んになっている(下記文献(2) 参照)ように、固有表現抽出(固有名詞、数字等の抽出)、専門用語抽出などの研究は非常に重要なものとなってきている。また、固有表現、専門用語に関する技術・考え方は、新しい分野に適用されつつあり、また、これからも適用されるもので、用語の種類は極めて多様なもの、多彩なものとなりつつある。





文献(1):村田真樹“質問応答システムの現状と展望”電子情報通信学会学会誌, Vol.86, No.12, (2003),pp.959-963。





文献(2):Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi, and Hirohumi Doi, “Boundary correction of protein names adapting heuristic rules ”Fifth International Conference on Intelligent Text Processing and Computational Linguistics(CICLing 2004),(2004)。





そこで、本発明では、多様な用語に関する、用語抽出の評価データを作成することができるものである。このデータでは、用語データも極力漏れの少ない形で作成されており、用語抽出の実験において、再現率・適合率を算出するなどの性能評価に用いることができるものである。本発明では、このデータの説明とこのデータを利用した簡単な用語抽出の評価実験について述べる。さらに、可視化機能を有する用語抽出の応用システムについても述べる。この応用システムは、ユーザが入力した数語の単語と同じ分野の用語を約20秒で収集して可視化して提示するシステムで実用的でかつ有益なものである。

特許請求の範囲 【請求項1】
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある表現を抽出する用語抽出部と、
前記抽出した表現である各用語に対して、その用語の抽出に使われたパターンを文脈とし、該用語と文脈の対の集合を可視化手段に入力して二次元マップでの各用語の座標を定め、該求まった座標に用語を表示した図を出力する用語表示部とを備えることを特徴とした表示システム。

【請求項2】
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある表現を抽出すると同時に前記パターンで抽出される表現での入力正例の割合(pi )によりスコアを算出し、該スコアの大きい順に抽出する用語抽出部と、
前記抽出した表現である各用語に対して、その用語の抽出に使われたパターンを文脈とし、該用語と文脈の対の集合を可視化手段に入力し二次元マップでの各用語の座標を定め、該求まった座標に用語を表示した図を出力する用語表示部とを備え、
前記用語表示部は、抽出の順序又は前記パターンで抽出される表現での入力正例の割合(pi )も同時に表示して出力することを特徴とした表示システム。

【請求項3】
前記用語抽出部は、前記スコアの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いることを特徴とした請求項2記載の表示システム。

【請求項4】
前記入力正例として複数の少数の用語の対を入力し、前記用語表示部で用語の対の表現を表示することを特徴とした請求項1~のいずれかに記載の表示システム。

【請求項5】
前記用語表示部は、前記入力正例がわかるように他の用語と区別できる表示を行うことを特徴とした請求項1~のいずれかに記載の表示システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2004140841thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close