TOP > 中国の大学の特許 > 北京大学の特許一覧 > 電子掲示板リプライ増加量の採集方法及びシステム

電子掲示板リプライ増加量の採集方法及びシステム

国内特許コード P150011767
掲載日 2015年3月30日
出願番号 特願2013-545030
公表番号 特表2014-506355
登録番号 特許第5702474号
出願日 平成23年12月22日(2011.12.22)
公表日 平成26年3月13日(2014.3.13)
登録日 平成27年2月27日(2015.2.27)
国際出願番号 CN2011084457
国際公開番号 WO2012083870
国際出願日 平成23年12月22日(2011.12.22)
国際公開日 平成24年6月28日(2012.6.28)
優先権データ
  • 201010618393.4 (2010.12.22) CN
発明者
  • ウー シンリー
  • ヤン ジエンウー
出願人
  • 北大方正集▲団▼有限公司
  • 北京大学
  • 北京北大方正▲電▼子有限公司
  • 北京北大方正技▲術▼研究院有限公司
発明の名称 電子掲示板リプライ増加量の採集方法及びシステム
発明の概要 本発明は迅速に正確に完全に一つの投稿の全てのスレッド・リプライの情報を採集し、従来の検索エンジンが投稿のページターニングのリプライ情報を採集する時に存在する検索漏れや検索不能などの問題を解消することができる電子掲示板リプライの増加量の採集方法及びシステムを提供する。本発明は、採集が必要な全ての電子掲示板のリストページに、新規投稿、及び/又は新規リプライがなされた投稿が存在するかどうかを周期的に判定し、存在すると判定されたときに、新規投稿からスレッドとリプライを抽出し、新規リプライがなされた投稿からリプライ情報を抽出する。
従来技術、競合技術の概要



インターネットが出現し、特に、インターネット掲示板・インターネットコミュニティが広く設けられるにつれて、世界中の人々は一緒に自由に様々な考え方を発表し交流できることになっている。中国でのインターネットの電子掲示板は一百万以上に達している。そして、80%のウェブサイトは独立的な電子掲示板を持っている。時々インターネットの電子掲示板を見るユーザー数は一億以上になっている。他の形式と異なり、インターネットの電子掲示板は、スピードが速くて、範囲が広い特徴を持っている。注目されている話題は、短い期間で一万以上のイントネット利用者にリプライされて検討されるので、リプライの情報も何百何千ページに達することが可能である。その場合、インターネット利用者は、話題が立てる人の言論であるメインポストの内容だけでなく、他のインターネット利用者のこの話題に対するリプライを見たがっている。ところで、通常の検索エンジンでは、ページめくりのリプライ情報を検索することが困難である。偶に見つかっていても、時効性の問題があるので、望ましいものではなく、データ遅延の問題もある。現在の電子掲示板採集システムも、スレッドのトップページの情報しか採集できず、メインポストへのリプライの情報を採集していない。

産業上の利用分野



本発明は、インターネット情報の採集技術に関し、更に詳しくは、電子掲示板のリプライ(reply)を増分的に採集する方法及びシステムに関する。

特許請求の範囲 【請求項1】
判定装置と、抽出装置とを備えたシステムにおけるコンピューターによって実行される電子掲示板のリプライを増分的に採集する方法であって、
投稿のトップページURLと投稿のリプライ数情報に基づいて、採集が必要な全ての電子掲示板のリストページに新規投稿、及び/又は新規リプライがなされた投稿が存在するかどうかを周期的に判定する第1ステップ(1)と、
新規投稿が存在すると判定されたときに、新規投稿からメインポスト及びリプライ情報を抽出し、また、新規リプライがなされた投稿が存在すると判定されたときに、新規リプライ起点と新規リプライ数を計算し、新規リプライ起点と新規リプライ数に基づいて、新規リプライがなされた投稿から新規リプライ情報を抽出する第2ステップ(2)と、
を含むことを特徴とする電子掲示板リプライを増分的に採集する方法。

【請求項2】
採集が必要な全ての電子掲示板のリストページに新規投稿及び/又は新規リプライがなされた投稿を周期的に判定する前記第1ステップ(1)において、
採集が必要な全ての電子掲示板のリストページURLを取得するステップ(a)と、
前記各リストページURLに対して、当該リストページURLに対応するウェブページ内容を取得し、前記ウェブページ内容から各投稿のトップページURLと現在のリプライ数を抽出するステップ(b)と、
前記投稿のトップページURLに基づいて、採集した投稿の情報リストに各投稿が存在するかどうかを判定し、存在すると判定されたときに、当該投稿の現在のリプライ数が、採集した投稿情報に記録している今回のリプライ数より大きいかどうかを判定し、当該投稿の現在のリプライ数が今回のリプライ数より大きい場合に、当該投稿に新規リプライがあるとして、採集した投稿の情報リストに当該投稿の前回のリプライ数と今回のリプライ数を更新し、また、採集した投稿の情報リストに当該投稿がないと判定されたときに、当該投稿が新規投稿として、当該投稿のトップページURLと現在のリプライ数を、採集した投稿の情報リストに追加するステップ(c)と、
をさらに含むことを特徴とする請求項1に記載の電子掲示板のリプライを増分的に採集する方法

【請求項3】
前記採集が必要な全ての電子掲示板リストページURLを取得するステップ(a)において、
前記採集が必要な各電子掲示板リストページに対していずれも採集時間間隔を設け、各リストページの採集時間間隔をモニターし、あるリストページが採集時間間隔に達した時に、当該リストページURLをリストページ採集キューに追加し、
前記リストページ採集キューを定期的に走査し、前記リストページ採集キューが空なければ、FIFOの順番で前記リストページ採集キューからリストページURLを順に抽出する
ことを特徴とする請求項2に記載の電子掲示板のリプライを増分的に採集する方法

【請求項4】
前記採集時間間隔は、リストページが属する電子掲示板の更新頻度によりダイナミックに調整され、
電子掲示板の更新頻度が速ければ速いほど、採集時間間隔が短くなり、
電子掲示板の更新頻度が遅ければ遅いほど、採集時間間隔が長くなる
ことを特徴とする請求項3に記載の電子掲示板のリプライを増分的に採集する方法

【請求項5】
前記リストページ採集キューから抽出されるリストページURLは、当該リストページURLが属するウェブサイトの正当のアクセスの条件を満たすことが必要である
ことを特徴とする請求項3に記載の電子掲示板のリプライを増分的に採集する方法

【請求項6】
新規投稿からメインポストとリプライを抽出し、新規リプライがなされた投稿から新規リプライの情報を抽出する前記第2ステップ(2)においては
新規投稿のトップページURLと新規リプライがなされた投稿のURLを内容ページ採集キューに追加するステップ(i)と、
前記内容ページ採集キューを定期的に走査するステップ(ii)と、
前記内容ページ採集キューが空ない場合、前記内容ページ採集キューから各URLを抽出するステップ(iii)と、
抽出されたURLに対応するウェブページ内容を取得し、前記ウェブページ内容からメインポスト及び/又はリプライ情報及び/又はページターニングURLを抽出し、ページターニングURLを前記内容ページ採集キューに追加するステップ(iv)と
を含むことを特徴とする請求項2乃至請求項5のいずれか1項に記載の電子掲示板のリプライを増分的に採集する方法

【請求項7】
前記新規投稿のトップページURLと、新規リプライがなされた投稿のURLとを内容ページ採集キューに追加するステップ(i)においては、
新規投稿については、当該投稿のトップページURLが前記内容ページ採集キューに存在する場合、当該投稿のトップページURLを抽出し、採集した投稿の情報リストに記録した当該投稿の今回のリプライ数を現在のリプライ数で置換し、当該投稿のトップページURLを前記内容ページ採集キューに挿入するが、当該投稿のトップページURLが前記内容ページ採集キューに存在しない場合、当該投稿のトップページURLを直接に前記内容ページ採集キューに追加し、
新規リプライがなされた投稿については、当該投稿が属する電子掲示板のページターニングモードが計算ページターニングの場合、新規リプライがなされた投稿のトップページURLを直接に前記内容ページ採集キューに追加するが、当該投稿が属する電子掲示板のページターニングモードが次ページターニングの場合、ページターニングURL情報リストを調べて、前記ページターニングURL情報リストにおける最後のページターニングURLを前記内容ページ採集キューに追加する
ことを特徴とする請求項6に記載の電子掲示板のリプライを増分的に採集する方法

【請求項8】
前記内容ページ採集キューが空ない場合、前記内容ページ採集キューから各URLを抽出するステップ(iii)においては、
FIFOの順番で前記内容ページ採集キューからURLを順に抽出し、且つ、当該URLが属するウェブサイトの正当のアクセスの条件を満たす
ことを特徴とする請求項6に記載の電子掲示板のリプライを増分的に採集する方法

【請求項9】
前記抽出されたURLに対応するウェブページ内容を取得し、前記ウェブページ内容からメインポスト及び/又はリプライ情報及び/又はページターニングURLを抽出し、ページターニングURLを前記内容ページ採集キューに追加するステップ(iv)においては、
当該URLが投稿のトップページURLであって、初めて採集されるものである場合、当該URLに対応するウェブページ内容からメインポストとリプライ情報を抽出し、
当該URLが投稿のトップページURLであるが、初めて採集されるものではない場合、以下の式により新規リプライ起点S’Fromと新規リプライ数C’ParseCountを確定し、新規リプライ起点S’FromからC’ParseCount個の新規リプライの情報を抽出し、
【数1】


C’ParseCount=RCurNum-RPreNum
ここで、前記RPreNumは当該投稿の前回採集時のリプライ数を示し、前記RCurNumは当該投稿の現在のリプライ数を示し、前記NPerPageは当該投稿のページ毎のリプライの数を示し、
当該URLが投稿のトップページURLではない場合、当該投稿に対応するページ番号が現在抽出すべきページのページ番号と同一であるかどうか判断することにより、オーバーラップページURLであるかどうかを判定し、
現在抽出すべきページのページ番号の計算式は以下の通りであり、
【数2】


ここで、前記PBeginは現在抽出すべきページのページ番号を示し、前記ceilはラウンドアップ演算を示し、
当該URLがオーバーラップページである場合、以下の式により新規リプライ起点S’’Fromと新規リプライ数C’’ParseCountを計算し、新規リプライ起点S’’FromからC’’ParseCount個の新規リプライ情報を抽出し、
【数3】


ここで、前記%は剰余演算を示し、
当該URLが投稿のトップページURLでもなく、オーバーラップページURLでもない場合、以下の式により、新規リプライ起点S’’’Fromと新規リプライ数C’’’ParseCountを計算し、
【数4】





新規リプライ起点S’’’FromからC’’’ParseCount個の新規リプライの情報を抽出する
ことを特徴とする請求項6に記載の電子掲示板のリプライを増分的に採集する方法

【請求項10】
前記抽出されたURLに対応するウェブページ内容を取得し、前記ウェブページ内容からメインポスト及び/又はリプライ情報及び/又はページターニングURLを抽出し、ページターニングURLを前記内容ページ採集キューに追加するステップ(iv)においては、
掲示板が計算ページターニングモードであって、URLが投稿のトップページURLである場合、以下の式によりページターニングの開始ページ番号PBeginと終了ページ番号PEndを計算し、
【数5】


もしSFrom=0且つRPreNum>0であれば、SFrom=NPerPage,PBegin=PBegin+1とし、
ここで、前記SFromは新規リプライ起点を示し、上記の式によりページターニングの開始ページ番号と終了ページ番号を算出してから、予め決められたページターニングURL規則に基づいて全てのページターニングURLを合成させ、
掲示板のページターニングモードが次ページターニングである場合、ウェブページ内容からページターニングURLを抽出する
ことを特徴とする請求項9に記載の電子掲示板のリプライを増分的に採集する方法

【請求項11】
前記ページターニングURL規則において、ページターニングURLは第1部分と、第2部分と第3部分と三つの部分に分けられており、前記第1部分と前記第3部分は変化しない部分であり、夫々strBeforePageとstrAfterPageと記しており、前記第2部分は変化する部分であり、nPageUpと記しており、
前記ページターニングURLの合成方法は以下の通りであり、
【数6】


ここで、前記iはターニングページ番号を示し、PBegin≦i≦PEnd、前記nPageNoは新規リプライが位置するページの番号を示し、前記nFirstPostPageIndexは投稿のトップページの番号を示し、前記nFirstPostPageIndexの値は0又は1となり、前記nPageUpは合成されるURL内に記録した、ページターニングを示すページ番号の値であり、前記nPageUsBaseNumはページターニング基数を示し、前記strPostPageUrlは合成されたURLを示す
ことを特徴とする請求項10に記載の電子掲示板のリプライを増分的に採集する方法

【請求項12】
ウェブページ内容より前記ページターニングURLを抽出してから、前記内容ページ採集キューに追加する前には、更に、前記ページターニングURLに対して重複除去処理を行う
ことを特徴とする請求項10に記載の電子掲示板のリプライを増分的に採集する方法

【請求項13】
前記重複除去処理においては、
前記ページターニングURL情報で当該ページターニングURLが属する投稿にページターニングURL情報リストが存在するかどうかを調べ、
前記ページターニングURL情報リストが存在しない場合、当該ページターニングURLが属する投稿のページターニングURL情報リストを立て、当該ページターニングURLをページターニングURL情報リストと前記内容ページ採集キューに追加し、
ページターニングURL情報リストが存在する場合、当該ページターニングURLのページ番号が当該ページターニングモードが属する投稿のページターニングURLのページ番号より大きいかどうかを判定し、大きい場合に、当該ページターニングURLが属する投稿のページターニングURL情報リストを更新し、ページターニングURLを内容ページ採集ジョブキューに追加し、大きくない場合、直接に当該ページターニングURLを削除する
ことを特徴とする請求項12に記載の電子掲示板のリプライを増分的に採集する方法

【請求項14】
投稿のトップページURLと投稿のリプライ数情報に基づいて、採集が必要な全ての電子掲示板のリストページに新規投稿、及び/又は新規リプライがなされた投稿が存在するかどうかを周期的に判定する判定装置(11)と、
新規投稿に対しては、当該新規投稿からメインポストとリプライの情報を抽出し、また、新規リプライがなされた投稿に対しては、新規リプライ起点と新規リプライ数に基づいて、新規リプライがなされた投稿から新規リプライの情報を抽出する抽出装置(12)と、
を備えることを特徴とする電子掲示板リプライの増分的採集システム。

【請求項15】
前記判定装置(11)は、
採集が必要な全ての電子掲示板リストページURLをリストページ採集キューに追加する第1キュー手段(111)と、
リストページ採集キューから各リストページURLを抽出する第1取得手段(112)と、
抽出された各リストページURLに対して、このリストページURLに対応するウェブページ内容を取得し、上記ウェブページ内容から各投稿のトップページURLと現在のリプライ数を抽出するリストページ抽出手段(113)と、
投稿のトップページURLに基づいて、採集した投稿の情報リストに各投稿が存在するかどうかを判定し、存在すると判定されたときに、当該投稿の現在のリプライ数が、採集した投稿情報に記録している今回のリプライ数より大きいかどうかを判定し、当該投稿の現在のリプライ数が今回のリプライ数より大きい場合に、当該投稿に新規リプライがあるとして、採集した投稿の情報リストに当該投稿の前回のリプライ数と今回のリプライ数を更新し、また、採集した投稿の情報リストに当該投稿がないと判定されたときに、当該投稿が新規投稿として、当該投稿のトップページURLと現在のリプライ数を、採集した投稿の情報リストに追加する判定手段(114)と、
を備えることを特徴とする請求項14に記載の電子掲示板リプライの増分的採集システム。

【請求項16】
前記抽出装置(12)は、
新規投稿のトップページURLと、新規リプライがなされた投稿のURLとを前記内容ページ採集キューに追加する第2キュー手段(121)と、
前記内容ページ採集キューを定期的に走査する走査手段(122)と、
前記内容ページ採集キューから各URLを抽出する第2取得手段(123)と、
URLに対応するウェブページ内容を取得し、前記ウェブページ内容からメインポスト及び/又はリプライ及び/又はページターニングURLを抽出する内容ページ抽出手段(124)と、
を備えることを特徴とする請求項14に記載の電子掲示板リプライの増分的採集システム。

【請求項17】
前記抽出装置(12)は、電子掲示板のページターニングモードが次ページターニングモードである場合、ウェブページ内容からページターニングURLを抽出して、重複除去処理を行う重複除去手段(125)を更に備え、
前記第2キュー手段(121)は、重複除去処理後のページターニングURLを前記内容ページ採集キューに追加することを特徴とする請求項16に記載の電子掲示板リプライの増分的採集システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2013545030thum.jpg
出願権利状態 登録
分野
  • 物理学
※ 特許の内容に興味を持たれた方は、下記問合せ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close