TOP > 国内特許検索 > 文章更新量評価プログラム

文章更新量評価プログラム 外国出願あり

国内特許コード P07P005761
掲載日 2007年12月28日
出願番号 特願2006-140850
公開番号 特開2007-310746
登録番号 特許第4872079号
出願日 平成18年5月19日(2006.5.19)
公開日 平成19年11月29日(2007.11.29)
登録日 平成23年12月2日(2011.12.2)
発明者
  • 高橋 正幸
  • 三上 喜貴
  • 中平 勝子
出願人
  • 国立大学法人長岡技術科学大学
発明の名称 文章更新量評価プログラム 外国出願あり
発明の概要

【課題】文章の編集・更新過程における知的作業量の定量的把握を可能とした文章更新量評価プログラムを提供する。
【解決手段】比較するテキストをある閾値以上の長さを有する共通部分文字列と非共通部分文字列とに分類する。共通部分文字列の割合と出現パターンから元のテキストからの編集点数及び文脈編集距離を計算する。共通部分文字列集合に包含される要素数から編集点数が求まり、共通部分文字列の出現順の変化から文脈編集距離が求まる。非共通部分文字列に対しては新規創作率の計算とN-gramによる分析を行う。非共通部分文字列集合に包含される要素の合計長から新規創作率が求まり、非共通部分文字列集合と非共通部分文字列集合に包含される要素間の非部分一致率から新規創作分新規度が求まる。共通部分文字列集合と非共通部分文字列集合での計算結果を統合し、文章更新量を計算する。
【選択図】図3

従来技術、競合技術の概要


文章の更新量を計測する、という必要はさまざまな局面で発生する。例えば、翻訳テキストの添削を行なう校正者の作業量の評価、剽窃が疑われる文書間における創作量や模倣量の評価、継続的に更新の加えられている文書に関する更新量の定量的評価を含む履歴管理、バージョンの順序関係が不明となった文書間の変更履歴復元、自動生成されるWebページ内の新規記事部分の抽出などである。これらに共通するのは、文章の編集,更新過程における知的な作業量を定量的に把握するという課題であり、こうした作業量は単純に作業時間やファイルサイズの変化量で評価することは出来ない。



文章の変更量を評価する指標として、別の文章に変更するための最小操作回数を表す「レーベンシュタイン距離」(Levenstein Distance)があり、単に「編集距離」(Edit Distance)とも呼ばれ、文章間の評価指標に留まらず、近年急速な発展を遂げるバイオインフォマティクス分野におけるDNA配列間の類似性評価にまで応用されている。例えば、特許文献1では、このレーベンシュタイン距離を用いて2つの文字列の近似度を判定している。

【特許文献1】特開平6-83871号公報

産業上の利用分野


本発明は、複数の文字列データを比較し、一の文字列データに対する他の文字列データの更新量を評価する文章更新量評価プログラムに関する。

特許請求の範囲 【請求項1】
コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列の抽出数から1を減算して編集点数を求めるステップと、前記共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、各分割列を対比して一の分割列を他の分割列と一致させるために必要な前記共通部分文字列間の最小置換回数を計算して文脈編集距離を求めるステップと、前記テキストから当該共通部分文字列を取り除いた残余の文字列の合計長さが当該テキストの全長に対して占める割合を計算して新規創作率を求めるステップと、前記各テキストから当該共通部分文字列を取り除いた残余の文字列をそれぞれ集めて非共通部分文字列集合を作成するステップと、数式1で表される
【数式1】


(Γ1,Γ2は前記各非共通部分文字列集合から作成されるNグラム集合、|Γ1∩Γ2|はNグラム集合Γ1及びΓ2に共通して現れる共通要素数、|Γ1|はNグラム集合Γ1に含まれるNグラムの総数)
前記各非共通部分文字列集合間における前記閾値未満の長さによるNグラムの不一致率である新規創作分新規度DOを求める新規度評価ステップとを実行させ、
各ステップにより求められた編集点数と文脈編集距離と新規創作率と新規創作分新規度とを用いて、
評価式:a・EP+b・CED+NCP・DO・L
(EPは編集点数,CEDは文脈編集距離,NCPは新規創作率,DOは新規創作分新規度,Lは更新後のテキストの全長,a及びbは任意の係数)
により文章更新量を算出するステップを実行させるための文章更新量評価プログラム。

【請求項2】
前記共通要素数は、前記更新前後のテキストから作成された前記各非共通部分文字列集合にそれぞれ対応する第1の文字列と第2の文字列とを終端記号で連結し、当該連結後の連結文字列に対して接尾辞配列を生成して高さ配列計算をすると共に、前記接尾辞配列作成時に接尾辞のインデックスの数値と、前記連結文字列の前方となる前記第1の文字列の文字列長との比較を行い、接尾辞の開始部分が前記第1の文字列から始まるグループと、接尾辞の開始部分が前記第2の文字列から始まるグループとに分類し、隣接する接尾辞配列が別のグループかつ所定のN値以上の高さを持つ位置に対応する隣接接尾辞配列間で前方一致する部分文字列の出現回数を数え上げることにより求められるものであることを特徴とする請求項に記載の文章更新量評価プログラム。

【請求項3】
コンピュータに、前記編集点数の大小関係から各テキストの更新順序を決定するステップを実行させる請求項1記載の文章更新量評価プログラム。

【請求項4】
コンピュータに、前記文脈編集距離の大小関係から各テキストの更新順序を決定するステップを実行させるための請求項1記載の文章更新量評価プログラム。

【請求項5】
前記抽出ステップは、前記更新前後の各テキストにそれぞれ対応する第1の文字列と第2の文字列とを終端記号で連結し、当該連結後の連結文字列に対して接尾辞配列を生成して高さ配列計算をすると共に、前記接尾辞配列作成時に接尾辞のインデックスの数値と、前記連結文字列の前方となる前記第1の文字列の文字列長との比較を行い、接尾辞の開始部分が前記第1の文字列から始まるグループと、接尾辞の開始部分が前記第2の文字列から始まるグループとに分類し、隣接する接尾辞配列が別のグループかつ最大の高さを持つ位置に対応する隣接接尾辞配列間で前方一致する文字列を最長共通部分文字列として前記テキストから抽出し、残余の文字列から前記最長共通部分文字列の長さが前記閾値以下となるまで最長共通部分文字列の抽出を繰り返すものであることを特徴とする請求項1~のいずれか1つに記載の文章更新量評価プログラム。

【請求項6】
前記抽出ステップは、前記共通部分文字列を抽出する際にそれぞれ別の特殊文字に置換するものであることを特徴とする請求項1~のいずれか1つに記載の文章更新量評価プログラム。

【請求項7】
前記抽出ステップは、前記各テキストを対比して作成されたドットマトリックス上にプロットされたドットにおける前記ドットマトリックスの中心からのオフセットが、前記閾値以上の回数にわたって連続で一定の値として出現する箇所に対応する文字列を共通部分文字列として前記テキストから抽出するものであることを特徴とする請求項1~のいずれか1つに記載の文章更新量評価プログラム。

【請求項8】
コンピュータに、前記共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、前記各テキストから作成された前記各分割列を対比して、前記各分割列に含まれる前記共通部分文字列単位の一致における共通部分文字列を構成する各文字をドットとしてプロットすることにより作成されたドットマトリックスを表示させるステップとを実行させるための請求項1~7のいずれか1つ記載の文章更新量評価プログラム。
産業区分
  • 計算機応用
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006140850thum.jpg
出願権利状態 権利存続中
上記の特許・技術に関心のある方は、下記問い合わせ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close
close