TOP > 国内特許検索 > 抽出システム

抽出システム コモンズ

国内特許コード P140010531
整理番号 03-198
掲載日 2014年5月13日
出願番号 特願2004-140840
公開番号 特開2005-322120
登録番号 特許第4593966号
出願日 平成16年5月11日(2004.5.11)
公開日 平成17年11月17日(2005.11.17)
登録日 平成22年9月24日(2010.9.24)
発明者
  • 村田 真樹
  • 馬 青
  • 白土 保
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 抽出システム コモンズ
発明の概要 【課題】ユーザが入力した少数の用語と同じ分野の用語を高速に、且つ確実に収集すること。
【解決手段】入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部2とを備え、前記用語抽出部2は、前記入力正例になかった字種を含む表現を抽出しないようにする。
【選択図】 図1
従来技術、競合技術の概要


従来、少数の入力用語(入力正例)から、該入力用語と関連した用語を抽出することは、処理に時間がかかり、関連した用語を正確に抽出できないものであった。



また、近年、質問応答の研究が重要視されつつあるが、質問応答システムでは、例えば、国名と首都名の対のデータのような二項データ(表2参照)をあらかじめ具備していれば、そういう関係の二項データでの質問応答を高性能に処理することができるものであった(例えば、非特許文献1参照)。二項データは、そういうシステムにも利用できるし、また、そういうシステムのために作成する二項データ抽出システムがあった(例えば、非特許文献2、3参照)。
【非特許文献1】
Michael Fleischman,Eduard Hovy,and Abdessamad Echihabi "Offline strategies for online question answering:Answering questions before they are asked" Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (eds. Erhard Hinrichs and Dan Roth),(2003),pp.1-7 。
【非特許文献2】
Sergey Brin "Extracting patterns and relations from the world wide web" WebDB Workshop at 6th International Conference on Extending Database Technology,EDBT'98,(1998)。
【非特許文献3】
安藤まや, 関根聡, 石崎俊 "定型表現を利用した新聞記事からの下位概念単語の自動抽出" 情報処理学会自然言語処理研究会 2003-NL-157,(2003) 。

産業上の利用分野



本発明は、ユーザが入力した少数の単語と同じ分野の用語を収拾して出力する抽出システムに関する。





近年、質問応答処理システム(下記文献(1) 参照)において、固有名詞を取り出すような固有表現抽出の技術は必然的に必要な技術となっており、生物情報処理分野でタンパク質表現の抽出が重要視されそれに関する研究が盛んになっている(下記文献(2) 参照)ように、固有表現抽出(固有名詞、数字等の抽出)、専門用語抽出などの研究は非常に重要なものとなってきている。また、固有表現、専門用語に関する技術・考え方は、新しい分野に適用されつつあり、また、これからも適用されるもので、用語の種類は極めて多様なもの、多彩なものとなりつつある。





文献(1):村田真樹“質問応答システムの現状と展望”電子情報通信学会学会誌, Vol.86, No.12, (2003),pp.959-963。





文献(2):Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi, and Hirohumi Doi, “Boundary correction of protein names adapting heuristic rules ”Fifth International Conference on Intelligent Text Processing and Computational Linguistics(CICLing 2004),(2004)。





そこで、本発明では、多様な用語に関する、用語抽出の評価データを作成することができるものである。このデータでは、用語データも極力漏れの少ない形で作成されており、用語抽出の実験において、再現率・適合率を算出するなどの性能評価に用いることができるものである。本発明では、このデータの説明とこのデータを利用した簡単な用語抽出の評価実験について述べる。さらに、可視化機能を有する用語抽出の応用システムについても述べる。この応用システムは、ユーザが入力した数語の単語と同じ分野の用語を約20秒で収集して可視化して提示するシステムで実用的でかつ有益なものである。

特許請求の範囲 【請求項1】
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記スコアの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いることを特徴とした抽出システム。

【請求項2】
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある表現を抽出する用語抽出部とを備え、
前記用語抽出部は、前記入力正例の共通部分文字列を持った表現を抽出することを特徴とした抽出システム。

【請求項3】
前記入力正例として複数の少数の二項以上の用語データを入力し、前記用語抽出部で二項以上の用語の表現を抽出することを特徴とした請求項1又は2記載の抽出システム。

【請求項4】
入力する複数の少数の二項以上の用語データである入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある二項以上の用語の表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記スコアの算出に前記抽出した複数のパターンのデータの組み合わせを用いることを特徴とした抽出システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2004140840thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close