TOP > 技術シーズ検索 > 情報抽出装置、その方法及びプログラム

情報抽出装置、その方法及びプログラム

シーズコード S110007063
掲載日 2011年12月14日
研究者
  • 野村 浩郷
技術名称 情報抽出装置、その方法及びプログラム
技術概要 情報抽出装置は、入力部10、テンプレート抽出部20、係り受け抽出部30、ダグパターンマッチング部40、記事分割部50、見出しの形態素解析部60、見出しの助詞除去部70、見出し特徴情報マッチング部80、見出し特徴情報抽出部90、本文の形態素解析部100、本文の助詞除去部110、本文特徴情報マッチング部120、本文特徴情報抽出部130、本文の係り受け解析部140、補足説明の抽出部150、売り情報の出力160を含む。タグパターンマッチング部40は、記事にタグを付け、タグのパターンマッチングを行う。記事分割部50は、記事をタグのパターンマッチの結果に従い、見出しと本文に分割する。見出しの形態素解析部60は、分割された見出しの形態素解析を行う。ここで、形態素解析は、形態素解析システムJUMANを利用することができる。JUMANとは、日本語の形態素解析を行うためのシステムで、日本語の文章を入力とし、入力文を単語単位に区切り、それぞれの形態素を決定するものである。
画像

※ 画像をクリックすると拡大します。

thum_2007-094339.gif
研究分野
  • 自然語処理
展開可能なシーズ 指定された項目およびそれに関連する1つないしは複数個の情報、さらに指定された項目ではないが重要な情報を文書から見つけ出す高機能かつ高精度な情報抽出装置を提供する。
定型性の高い文章に対しては簡易かつ迅速に抽出することができる。また、文書の中からあらかじめ定められた種類の情報やあらかじめ定められた種類の情報に関連する重要な情報が簡潔な言語表現で迅速かつ簡易に抽出可能となる。
用途利用分野 情報抽出装置、情報抽出プログラム
出願特許   特許 国際特許分類(IPC)
( 1 ) 国立大学法人九州工業大学, . 野村 浩郷, . 情報抽出装置、その方法及びプログラム. 特開2008-250887. 2008-10-16
  • G06F  17/30     

PAGE TOP