TOP > 国内特許検索 > 文書差分検出装置及びプログラム

文書差分検出装置及びプログラム コモンズ

国内特許コード P140010719
整理番号 02-113
掲載日 2014年7月7日
出願番号 特願2002-290946
公開番号 特開2004-126986
登録番号 特許第3682535号
出願日 平成14年10月3日(2002.10.3)
公開日 平成16年4月22日(2004.4.22)
登録日 平成17年6月3日(2005.6.3)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 文書差分検出装置及びプログラム コモンズ
発明の概要 【課題】文書の特徴や新情報のわかりやすい表示を行うこと。
【解決手段】文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域を設定する抽出・検出領域設定手段21と、情報を格納する格納手段3aと、抽出手段2とを備え、前記抽出手段2は、入力された文書データの現在の前記検出領域以外の領域から全ての前記抽出単位に相当するものを抽出して前記格納手段3aに格納し、現在の前記検出領域において、前記格納手段3aに格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力することを、前記検出領域ごとに繰り返す。
【選択図】     図1
従来技術、競合技術の概要



従来、diffコマンドを用いて、入力された複数の文書データの差分を検出し、複数の文書データの差分の内で、共通部分は一つを出力し、不一致部分はそれぞれを並べて出力する技術があった。





ここで、diff(ディフ)とは、UNIX(ユニックス)(登録商標)のファイル比較ツールdiffのことである。このdiffコマンドは、与えられた二つのファイルの差分を順序情報を保持したまま行を単位として出力するものである。





diffコマンドには、-Dオプションという便利なオプションがある。このオプションを付けてdiffコマンドを使うと差分部分だけでなく共通部分も出力される。つまり、ファイルのマージが実現される。また、差分部分を見やすく表示するため、差分部分の始まり、差分部分の終わり、差分を構成する二つのデータの境界を表す表示を行う。このような、ファイルのマージを行う場合のdiffを、Mdiff (エムディフ)と呼ぶ(M はmerge の Mである)(例えば、非特許文献1及び特願2001-311329参照)。





この技術を用いて、一つの特許の複数の請求項の間の差分を検出する実験を行なった。これは新しい試みである。ある特許の二つの請求項を一行に1個の単語がはいるように変形してから、それらの Mdiffをとった(なお、以下の説明では請求項等のすみ付き括弧は「〔」又は「〕」に置き換えてある)。





例1、

〔請求項17〕 前記プリンタシステムは上位装置を有することを特徴とする請求項16記載のプリンタシステムの制御方法。

〔請求項18〕 前記プリンタシステムはプリンタを有することを特徴とする請求項16記載のプリンタシステムの制御方法。





(上記例1の Mdiff結果)

前記プリンタシステムは

;=====begin=====

上位装置

;────────

プリンタ

;=====end=====

を有することを特徴とする請求項16記載のプリンタシステムの制御方法







上記例1の請求項17と請求項18の Mdiffをとった結果から、たいへん容易に請求項17と請求項18の違いを理解することができる。即ち、;=====begin=====は差分部分の始まり、;=====end=====は差分部分の終わり、;────────は差分を構成する二つのデータの境界を表す。ここで、違いは「上位装置」と「プリンタ」である。しかし、違いがもっとややこしい場合は、Mdiff の結果は見にくいことになる。





例2、

〔請求項1〕

刃部材の先端の刃部を凹凸に形成し波状刃とするとともに螺旋状に湾曲させ、前記刃部材に取っ手を取り付けたことを特徴とする草取り鎌。

〔請求項2〕

取っ手の上部及び下部に滑り止め部を設けたことを特徴とする草取り鎌。





(上記例2の Mdiff結果)

;=====begin=====

刃部材

;────────

取っ手

;=====end=====



;=====begin=====

先端の刃

;────────

上部及び下部に滑り止め

;=====end=====

部を

;=====begin=====

凹凸に形成し波状刃とするとともに螺旋状に湾曲させ、前記刃部材に取っ 手を取り付け

;────────

設け

;=====end=====

たことを特徴とする草取り鎌。





上記例2の請求項1と請求項2の Mdiffをとった結果は、違いがややこしいので、Mdiff の結果は見にくいことになっている。即ち、Mdiff は、順序情報を保存する機構であるため、違いが複雑な場合に、違いがわかりにくく、このままでは問題があることがわかった。





【非特許文献1】

村田真樹,外1名, diffと言語処理「言語理解とコミュニケーショ

ン」社団法人電子情報通信学会2001年 7月17日(NLC2001-26 ) 電子

情報通信学会技術研究報告, p.29~36

産業上の利用分野



本発明は、文書(又は文章)の差分を検出して、文書の違いを容易に理解できるようにする文書差分検出装置及びプログラムに関する。

特許請求の範囲 【請求項1】
情報の入力を行う入力手段と、
文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域とが前記入力手段により設定される抽出・検出領域設定手段と、
情報を格納する格納手段と、
抽出手段とを備え、
前記抽出手段は、入力された文書データの現在の前記検出領域以外の領域から全ての前記抽出単位に相当するものを抽出して前記格納手段に格納し、現在の前記検出領域において、前記格納手段に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力することを、前記検出領域ごとに繰り返すことを特徴とした文書差分検出装置。

【請求項2】
情報の入力を行う入力手段と、
文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域とが前記入力手段により設定される抽出・検出領域設定手段と、
情報を格納する格納手段と、
抽出手段とを備え、
前記抽出手段は、入力された文書データの現在の前記検出領域において、前記格納手段に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力し、前記強調表示したものを前記格納手段に格納することを、前記検出領域ごとに繰り返すことを特徴とした文書差分検出装置。

【請求項3】
前記格納手段に予め前記強調表示しない前記抽出単位のデータを格納することを特徴とした請求項1又は2記載の文書差分検出装置。

【請求項4】
前記抽出単位として、単語の単位とすることを特徴とした請求項1~3のいずれかに記載の文書差分検出装置。

【請求項5】
前記検出領域の単位として、箇条書きの単位とすることを特徴とした請求項1~4のいずれかに記載の文書差分検出装置。

【請求項6】
前記検出領域の単位として、特許請求の範囲の単位とすることを特徴とした請求項1~4のいずれかに記載の文書差分検出装置。

【請求項7】
文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域とが入力手段により設定される抽出・検出領域設定手段と、
入力された文書データの現在の前記検出領域以外の領域から全ての前記抽出単位に相当するものを抽出して格納手段に格納し、現在の前記検出領域において、前記格納手段に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力することを、前記検出領域ごとに繰り返す抽出手段として、
コンピュータを機能させるためのプログラム。

【請求項8】
文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域とが入力手段により設定される抽出・検出領域設定手段と、
入力された文書データの現在の前記検出領域において、格納手段に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力し、前記強調表示したものを前記格納手段に格納することを、前記検出領域ごとに繰り返す抽出手段として、
コンピュータを機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2002290946thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close