TOP > 国内特許検索 > 情報抽出装置、その方法及びプログラム

情報抽出装置、その方法及びプログラム 新技術説明会

国内特許コード P09A014852
掲載日 2009年11月20日
出願番号 特願2007-094339
公開番号 特開2008-250887
登録番号 特許第4934819号
出願日 平成19年3月30日(2007.3.30)
公開日 平成20年10月16日(2008.10.16)
登録日 平成24年3月2日(2012.3.2)
発明者
  • 野村 浩郷
出願人
  • 国立大学法人九州工業大学
発明の名称 情報抽出装置、その方法及びプログラム 新技術説明会
発明の概要 【課題】指定された項目およびそれに関連する1つないしは複数個の情報、さらに指定された項目ではないが重要な情報を文書から見つけ出す高機能かつ高精度な情報抽出装置の提供。
【解決手段】記事入力手段10と、テンプレートによる抽出手段20と、係り受け解析による抽出手段30と、記事情報のタグパターンマッチング手段40と、見出しと本文の分割手段50と、見出しの形態素解析手段60と、見出しの助詞除去手段70と、テンプレート又は係り受け解析により抽出された情報と見出し情報とのマッチング手段80と、見出しの特徴情報抽出手段90と、本文の形態素解析手段100と、本文の助詞除去手段110と、見出し特徴情報と本文の文節とのマッチング手段120と、本文の特徴情報の抽出手段130と、見出し特徴情報又は本文特徴情報の売り情報出力手段140とを含む。
【選択図】図5
従来技術、競合技術の概要


ネットワークの普及により、情報を電子化して管理する機会が増加しつつある現在、それらの情報の中から必要な情報だけを人間の手作業で取り出してくることは困難な状況になっている。このような状況下において、大量の情報を管理する技術として文章データの中から目的の情報のみを取り出してくる情報抽出の技術が要求されている。また、情報抽出は文章の整理やデータベースの自動的な構築、要約文の生成など応用範囲の広い技術に適用されるため、より高機能・高精度な情報抽出技術が必要となっている。
そこで、情報抽出を利用した文書要約装置が、特開2002-288190号公報に開示されている。



背景技術の情報抽出を利用した文書要約装置は、形態素列(1つの形態素からなる列を含む。以下同様。)の入力を受け付ける形態素列入力受付部と、要素として認定されるべき形態素列と、当該要素の属性と、をあらかじめ記憶する要素記憶部と、前記記憶された属性の列と、当該属性の列の間に埋め込む文字列の情報とを含むテンプレートを記憶するテンプレート記憶部と、前記入力を受け付けられた形態素列から、前記記憶された要素を検索し、当該検索結果の要素を列として出力する要素検索部と、前記検索結果の要素の列から当該要素の属性の列を取得し、前記記憶されたテンプレートのうち、当該要素の属性の列を含むものを用いて、当該検索された属性の列のそれぞれに対応する要素に対応する形態素列の間に、当該テンプレートが含む文字列の情報を埋め込んで、要約を生成する要約生成部とを備えることを特徴とするものである。
【特許文献1】
特開2002-288190号公報

産業上の利用分野


本発明は、文書の中から、あらかじめ定められた種類の情報を自動抽出する装置に関する。

特許請求の範囲 【請求項1】
記事入力手段と、
入力された記事情報についてテンプレートを利用して主要な製品情報を抽出するテンプレート抽出手段と、
入力された記事情報について付与されたタグに基づいてパターンマッチングを行うダグパターンマッチング手段と、
前記パターンマッチング結果に基づいて記事を見出しと本文に分割する記事分割手段と、
分割された記事の見出しを形態素解析する見出しの形態素解析手段と、
形態素解析された見出しの文節から助詞を除去する見出し助詞除去手段と、
前記テンプレートにより抽出された主要な製品情報と形態素解析後に助詞を除去された見出しの文節とをマッチングする見出し特徴情報マッチング手段と、
前記主要な製品情報以外の情報を示す文節を見出しの特徴情報として抽出する見出し特徴情報抽出手段と、
分割された記事の本文を形態素解析する本文の形態素解析手段と、
形態素解析された本文の文節から助詞を除去する本文助詞除去手段と、
見出し特徴情報と形態素解析後に助詞を除去された本文の文節とをマッチングする本文特徴情報マッチング手段と、
前記マッチングされた本文の特徴情報を抽出する本文特徴情報抽出手段と、
見出し特徴情報または本文特徴情報を売り情報として出力する売り情報の出力手段と
を含む情報抽出装置。

【請求項2】
記事入力手段と、
入力された記事情報について係り受け解析を利用して主要な製品情報を抽出する係り受け抽出手段と、
入力された記事情報について付与されたタグに基づいてパターンマッチングを行うダグパターンマッチング手段と、
前記パターンマッチング結果に基づいて記事を見出しと本文に分割する記事分割手段と、
分割された記事の見出しを形態素解析する見出しの形態素解析手段と、
形態素解析された見出しの文節から助詞を除去する見出し助詞除去手段と、
前記係り受け解析により抽出された主要な製品情報と形態素解析後に助詞を除去された見出しの文節とをマッチングする見出し特徴情報マッチング手段と、
前記主要な製品情報以外の情報を示す文節を見出しの特徴情報として抽出する見出し特徴情報抽出手段と、
分割された記事の本文を形態素解析する本文の形態素解析手段と、
形態素解析された本文の文節から助詞を除去する本文助詞除去手段と、
見出し特徴情報と形態素解析後に助詞を除去された本文の文節とをマッチングする本文特徴情報マッチング手段と、
前記マッチングされた本文の特徴情報を抽出する本文特徴情報抽出手段と、
見出し特徴情報または本文特徴情報を売り情報として出力する売り情報の出力手段と
を含む情報抽出装置。

【請求項3】
記事入力手段と、
抽出精度の重み付けの閾値が一定以上のテンプレートを利用して入力された記事情報から主要な製品情報を抽出するテンプレート抽出手段と、
前記テンプレートにより抽出されなかった記事情報について係り受け解析を利用して主要な製品情報を抽出する係り受け抽出手段と、
入力された記事情報について付与されたタグに基づいてパターンマッチングを行うダグパターンマッチング手段と、
前記パターンマッチング結果に基づいて記事を見出しと本文に分割する記事分割手段と、
分割された記事の見出しを形態素解析する見出しの形態素解析手段と、
形態素解析された見出しの文節から助詞を除去する見出し助詞除去手段と、
前記テンプレートまたは係り受け解析により抽出された主要な製品情報と形態素解析後に助詞を除去された見出しの文節とをマッチングする見出し特徴情報マッチング手段と、
前記主要な製品情報以外の情報を示す文節を見出しの特徴情報として抽出する見出し特徴情報抽出手段と、
分割された記事の本文を形態素解析する本文の形態素解析手段と、
形態素解析された本文の文節から助詞を除去する本文助詞除去手段と、
見出し特徴情報と形態素解析後に助詞を除去された本文の文節とをマッチングする本文特徴情報マッチング手段と、
前記マッチングされた本文の特徴情報を抽出する本文特徴情報抽出手段と、
見出し特徴情報または本文特徴情報を売り情報として出力する売り情報の出力手段と
を含む情報抽出装置。

【請求項4】
前記形態素解析された本文の係り受け関係を調べる本文の係り受け関係解析手段と、
係り受け関係により修飾語句を補足説明情報として抽出する補足説明の抽出手段と、
補足説明情報を売り情報として出力する売り情報の出力手段と
を含む請求項1ないし請求項3のいずれかに記載された情報抽出装置。

【請求項5】
前記テンプレート抽出手段は、
入力された記事を句点ごとに分割する記事句点分割手段と、
記事の1行目に対応するAテンプレート集合とマッチングを行うAテンプレートマッチング手段と、
前記Aテンプレート集合によりマッチングされた製品の特徴情報を抽出するAテンプレート抽出手段と、
抽出された製品の特徴情報について抽出項目ごとに制約をチェックする制約チェック手段と、
情報を抽出することができたテンプレートのIDを記憶するテンプレートID記憶手段と、
記事の2行目以降に対応するBテンプレート集合とマッチングを行うBテンプレートマッチング手段と、
前記Bテンプレート集合によりマッチングされた製品の特徴情報を抽出するBテンプレート抽出手段と、
抽出された製品の特徴情報である抽出解と製品を対応付けるテンプレート製品対応手段と、
を含む請求項1又は3に記載された情報抽出装置。

【請求項6】
前記係り受け抽出手段は、
入力された記事に付与されたタグに基づいてパターンマッチングを行う係り受けタグパターンマッチング手段と、
前記パターンマッチングの結果に基づいて記事を見出しと本文に分割する係り受けタグ分割手段と、
分割された見出しに含まれる特殊記号を分析する見出し分析手段と、
前記見出しに含まれる特殊記号の後方の語句を「販売元」情報として処理する見出し処理手段と、
分割された本文を句点ごとに分割する本文句点分割手段と、
前記本文中に括弧内数値が存在するか否かを判定する括弧内数値判定手段と、
括弧内数値が存在すると判断した場合に、構文解析により文節情報を作成する文節情報作成手段と、
括弧内数値が存在しないと判断した場合に、固定パターンが存在するか否かを判断する固定パターン判定手段と、
固定パターンが存在すると判断した場合に、固定パターンと文節情報から得られる固定パターンの係り受け情報を利用して固定パターンに係る文節情報集合を作成する固定パターン係り受け作成手段と、
前記作成された固定パターンに係る文節情報集合から固定パターン及び各形式について定めた条件に従って文節情報を抽出する抽出手段と、
抽出された文節情報から不要な情報を削除して抽出解を作成する抽出解作成手段と、
抽出解から製品に対する対応や割り当てを行う係り受け対応・割付手段と
を含む請求項2又は3に記載された情報抽出装置。

【請求項7】
記事入力ステップと、
入力された記事情報についてテンプレートを利用して主要な製品情報を抽出するテンプレート抽出ステップと、
前記テンプレートにより抽出されなかった記事情報について係り受け解析を利用して主要な製品情報を抽出する係り受け抽出ステップと、
入力された記事情報について付与されたタグに基づいてパターンマッチングを行うダグパターンマッチングステップと、
前記パターンマッチング結果に基づいて記事を見出しと本文に分割する記事分割ステップと、
分割された記事の見出しを形態素解析する見出しの形態素解析ステップと、
形態素解析された見出しの文節から助詞を除去する見出し助詞除去ステップと、
前記テンプレートまたは係り受け解析により抽出された主要な製品情報と形態素解析後に助詞を除去された見出しの文節とをマッチングする見出し特徴情報マッチングステップと、
前記主要な製品情報以外の情報を示す文節を見出しの特徴情報として抽出する見出し特徴情報抽出ステップと、
分割された記事の本文を形態素解析する本文の形態素解析ステップと、
形態素解析された本文の文節から助詞を除去する本文助詞除去ステップと、
見出し特徴情報と形態素解析後に助詞を除去された本文の文節とをマッチングする本文特徴情報マッチングステップと、
前記マッチングされた本文の特徴情報を抽出する本文特徴情報抽出ステップと、
形態素解析された本文の係り受け関係を調べる本文の係り受け関係解析ステップと、
係り受け関係により修飾語句を補足説明情報として抽出する補足説明の抽出ステップと、
見出し特徴情報または本文特徴情報または補足説明情報を売り情報として出力する売り情報の出力ステップと
を含む情報抽出方法。

【請求項8】
記事入力手順と、
入力された記事情報についてテンプレートを利用して主要な製品情報を抽出するテンプレート抽出手順と、
前記テンプレートにより抽出されなかった記事情報について係り受け解析を利用して主要な製品情報を抽出する係り受け抽出手順と、
入力された記事情報について付与されたタグに基づいてパターンマッチングを行うダグパターンマッチング手順と、
前記パターンマッチング結果に基づいて記事を見出しと本文に分割する記事分割手順と、
分割された記事の見出しを形態素解析する見出しの形態素解析手順と、
形態素解析された見出しの文節から助詞を除去する見出し助詞除去手順と、
前記テンプレートまたは係り受け解析により抽出された主要な製品情報と形態素解析後に助詞を除去された見出しの文節とをマッチングする見出し特徴情報マッチング手順と、
前記主要な製品情報以外の情報を示す文節として見出しの特徴情報を抽出する見出し特徴情報抽出手順と、
分割された記事の本文を形態素解析する本文の形態素解析手順と、
形態素解析された本文の文節から助詞を除去する本文助詞除去手順と、
見出し特徴情報と形態素解析後に助詞を除去された本文の文節とをマッチングする本文特徴情報マッチング手順と、
前記マッチングされた本文の特徴情報を抽出する本文特徴情報抽出手順と、
形態素解析された本文の係り受け関係を調べる本文の係り受け関係解析手順と、
係り受け関係により修飾語句を補足説明情報として抽出する補足説明の抽出手順と、
見出し特徴情報または本文特徴情報または補足説明情報を売り情報として出力する売り情報の出力手順
としてコンピュータを機能させる情報抽出プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2007094339thum.jpg
出願権利状態 登録
詳細は、下記「問合せ先」まで直接お問い合わせください。


PAGE TOP

close
close
close
close
close
close
close