TOP > 技術シーズ検索 > 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法

共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法

シーズコード S120008191
掲載日 2012年1月20日
研究者
  • 池田 大輔
  • 山田 泰寛
  • 廣川 佐千男
技術名称 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法
技術概要 共通パターン発見装置は、電子化された複数又は単数のテキスト情報を対象としてこのテキスト情報の中から最大長さまでのすべての長さの部分文字列を部分文字列取り出し手段11で抽出し、この抽出した部分文字列の出現回数をカウントして同一の部分文字列ごとに出現回数の和をとって頻度カウント手段12で頻度を求め、同一頻度ごとに部分文字列取り出し手段11が取り出した異なる部分文字列の数を部分文字列種類数カウント手段13でカウントする。このカウントした頻度とカウントした異なる部分文字列の数との積を総数計算手段14で計算し、この計算された積と頻度との関係から、変化率が閾値以上のピークが出現する位置の頻度をピーク発見手段15で探し、ピークが存在するときピークの位置の頻度と同一頻度の部分文字列を含むテキスト情報を情報抽出手段16で抽出する。テキスト情報に同一の部分文字列が存在する場合に、この部分文字列の頻度の大きさに比例して積の値の大きさを増し、頻度に関してピークを形成する分布にして、このピークの位置の頻度を有する部分文字列を基に複数又は単数のテキスト情報間で共通する配列をもつ文字列情報を発見する。
画像

※ 画像をクリックすると拡大します。

thum_2003-315129.gif
研究分野
  • 情報処理
展開可能なシーズ ウェブサイトの情報を構造化し、属性名のない表情報に変換する研究がすすめられている。しかし、これらはHTML等に限られ、一般的な手段ではなく、情報間で共通の表現やパターンを発見するものではない。そこで、複数又は単数のテキスト情報間で共通する配列の文字列情報を容易に発見することができる共通パターン発見装置等を提供する。
すべての長さの異なる部分文字列の数にその部分文字列の頻度を掛けることによりこの頻度に関して針状のピークを形成する分布とすることができ、このピークが出現する位置を探すことにより複数又は単数のテキスト情報間で共通する配列の文字列情報を抽出できる。また、部分文字列を抽出してその頻度と同一頻度となる異なった部分文字列の数を数えて、両者の積を計算し、ピークの存在の有無をみるだけであるから、テキスト情報の中で共通する配列の文字列情報を簡単に発見できる。計算時間は格段に少なく、きわめてシンプルな構成、手法であるから、拡張、応用が容易であり、データベースの統合に有効となる。
用途利用分野 共通パターン発見装置、筆跡同一性判断装置、指紋同一性判断装置
出願特許   特許 国際特許分類(IPC)
( 1 ) 国立大学法人九州大学, . 池田 大輔, 山田 泰寛, 廣川 佐千男, . 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法. 特開2005-084859. 2005-03-31
  • G06F  17/30     
  • G06F  19/00     

PAGE TOP