Top > Search of Japanese Patents > TEXT UPDATE AMOUNT EVALUATION PROGRAM

TEXT UPDATE AMOUNT EVALUATION PROGRAM foreign

Patent code P07P005761
Posted date Dec 28, 2007
Application number P2006-140850
Publication number P2007-310746A
Patent number P4872079
Date of filing May 19, 2006
Date of publication of application Nov 29, 2007
Date of registration Dec 2, 2011
Inventor
  • (In Japanese)高橋 正幸
  • (In Japanese)三上 喜貴
  • (In Japanese)中平 勝子
Applicant
  • (In Japanese)国立大学法人長岡技術科学大学
Title TEXT UPDATE AMOUNT EVALUATION PROGRAM foreign
Abstract PROBLEM TO BE SOLVED: To provide a text update amount evaluation program quantitatively recognizing an amount of intellectual work in a text editing/updating process.
SOLUTION: A text to be compared is classified into common partial character strings having lengths equal to or longer than a threshold and non-common partial character strings. The number of edited parts and a context editing distance of an original text are calculated from the proportion of common partial character strings and appearing patterns. The number of edited parts is obtained from the number of elements included in a set of common partial character strings, and the context editing distance is obtained from changes in appearance order of common partial character strings. Calculation of a new creation rate and analysis based on N-gram are performed with respect to non-common partial character strings. The new creation rate is obtained from a total length of elements included in a set of non-common partial character strings, and the degree of newness of new creation is obtained from the set of non-common partial character strings and a non-partial coincidence rate between elements included in the set of non-common partial character strings. Calculation results of the set of common partial character strings and the set of non-common partial character strings are integrated to calculate the amount of text update.
Outline of related art and contending technology (In Japanese)

文章の更新量を計測する、という必要はさまざまな局面で発生する。例えば、翻訳テキストの添削を行なう校正者の作業量の評価、剽窃が疑われる文書間における創作量や模倣量の評価、継続的に更新の加えられている文書に関する更新量の定量的評価を含む履歴管理、バージョンの順序関係が不明となった文書間の変更履歴復元、自動生成されるWebページ内の新規記事部分の抽出などである。これらに共通するのは、文章の編集,更新過程における知的な作業量を定量的に把握するという課題であり、こうした作業量は単純に作業時間やファイルサイズの変化量で評価することは出来ない。

文章の変更量を評価する指標として、別の文章に変更するための最小操作回数を表す「レーベンシュタイン距離」(Levenstein Distance)があり、単に「編集距離」(Edit Distance)とも呼ばれ、文章間の評価指標に留まらず、近年急速な発展を遂げるバイオインフォマティクス分野におけるDNA配列間の類似性評価にまで応用されている。例えば、特許文献1では、このレーベンシュタイン距離を用いて2つの文字列の近似度を判定している。
【特許文献1】
特開平6-83871号公報

Field of industrial application (In Japanese)

本発明は、複数の文字列データを比較し、一の文字列データに対する他の文字列データの更新量を評価する文章更新量評価プログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列の抽出数から1を減算して編集点数を求めるステップと、前記共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、各分割列を対比して一の分割列を他の分割列と一致させるために必要な前記共通部分文字列間の最小置換回数を計算して文脈編集距離を求めるステップと、前記テキストから当該共通部分文字列を取り除いた残余の文字列の合計長さが当該テキストの全長に対して占める割合を計算して新規創作率を求めるステップと、前記各テキストから当該共通部分文字列を取り除いた残余の文字列をそれぞれ集めて非共通部分文字列集合を作成するステップと、数式1で表される
【数1】
 
(省略)
(Γ1,Γ2は前記各非共通部分文字列集合から作成されるNグラム集合、|Γ1∩Γ2|はNグラム集合Γ1及びΓ2に共通して現れる共通要素数、|Γ1|はNグラム集合Γ1に含まれるNグラムの総数)
前記各非共通部分文字列集合間における前記閾値未満の長さによるNグラムの不一致率である新規創作分新規度DOを求める新規度評価ステップとを実行させ、
各ステップにより求められた編集点数と文脈編集距離と新規創作率と新規創作分新規度とを用いて、
評価式:a・EP+b・CED+NCP・DO・L
(EPは編集点数,CEDは文脈編集距離,NCPは新規創作率,DOは新規創作分新規度,Lは更新後のテキストの全長,a及びbは任意の係数)
により文章更新量を算出するステップを実行させるための文章更新量評価プログラム。

【請求項2】
 
前記共通要素数は、前記更新前後のテキストから作成された前記各非共通部分文字列集合にそれぞれ対応する第1の文字列と第2の文字列とを終端記号で連結し、当該連結後の連結文字列に対して接尾辞配列を生成して高さ配列計算をすると共に、前記接尾辞配列作成時に接尾辞のインデックスの数値と、前記連結文字列の前方となる前記第1の文字列の文字列長との比較を行い、接尾辞の開始部分が前記第1の文字列から始まるグループと、接尾辞の開始部分が前記第2の文字列から始まるグループとに分類し、隣接する接尾辞配列が別のグループかつ所定のN値以上の高さを持つ位置に対応する隣接接尾辞配列間で前方一致する部分文字列の出現回数を数え上げることにより求められるものであることを特徴とする請求項1に記載の文章更新量評価プログラム。

【請求項3】
 
コンピュータに、前記編集点数の大小関係から各テキストの更新順序を決定するステップを実行させる請求項1記載の文章更新量評価プログラム。

【請求項4】
 
コンピュータに、前記文脈編集距離の大小関係から各テキストの更新順序を決定するステップを実行させるための請求項1記載の文章更新量評価プログラム。

【請求項5】
 
前記抽出ステップは、前記更新前後の各テキストにそれぞれ対応する第1の文字列と第2の文字列とを終端記号で連結し、当該連結後の連結文字列に対して接尾辞配列を生成して高さ配列計算をすると共に、前記接尾辞配列作成時に接尾辞のインデックスの数値と、前記連結文字列の前方となる前記第1の文字列の文字列長との比較を行い、接尾辞の開始部分が前記第1の文字列から始まるグループと、接尾辞の開始部分が前記第2の文字列から始まるグループとに分類し、隣接する接尾辞配列が別のグループかつ最大の高さを持つ位置に対応する隣接接尾辞配列間で前方一致する文字列を最長共通部分文字列として前記テキストから抽出し、残余の文字列から前記最長共通部分文字列の長さが前記閾値以下となるまで最長共通部分文字列の抽出を繰り返すものであることを特徴とする請求項1~4のいずれか1つに記載の文章更新量評価プログラム。

【請求項6】
 
前記抽出ステップは、前記共通部分文字列を抽出する際にそれぞれ別の特殊文字に置換するものであることを特徴とする請求項1~5のいずれか1つに記載の文章更新量評価プログラム。

【請求項7】
 
前記抽出ステップは、前記各テキストを対比して作成されたドットマトリックス上にプロットされたドットにおける前記ドットマトリックスの中心からのオフセットが、前記閾値以上の回数にわたって連続で一定の値として出現する箇所に対応する文字列を共通部分文字列として前記テキストから抽出するものであることを特徴とする請求項1~6のいずれか1つに記載の文章更新量評価プログラム。

【請求項8】
 
コンピュータに、前記共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、前記各テキストから作成された前記各分割列を対比して、前記各分割列に含まれる前記共通部分文字列単位の一致における共通部分文字列を構成する各文字をドットとしてプロットすることにより作成されたドットマトリックスを表示させるステップとを実行させるための請求項1~7のいずれか1つ記載の文章更新量評価プログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2006140850thum.jpg
State of application right Registered
(In Japanese)上記の特許・技術に関心のある方は、下記問い合わせ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close
close