TOP > 中国の大学の特許 > 北京大学の特許一覧 > ネットコメントの収集方法およびシステム > 明細書

明細書 :ネットコメントの収集方法およびシステム

発行国 日本国特許庁(JP)
公表番号 特表2014-532220 (P2014-532220A)
公報種別 公表特許公報(A)
公表日 平成26年12月4日(2014.12.4)
発明の名称または考案の名称 ネットコメントの収集方法およびシステム
国際特許分類 G06F  17/30        (2006.01)
G06F  13/00        (2006.01)
FI G06F 17/30 180Z
G06F 13/00 540F
国際予備審査の請求 未請求
全頁数 21
翻訳文提出日 平成26年3月28日(2014.3.28)
出願番号 特願2014-532240 (P2014-532240)
出願日 平成24年12月13日(2012.12.13)
国際出願番号 PCT/CN2012/086575
国際公開番号 WO2013/087005
国際公開日 平成25年6月20日(2013.6.20)
優先権出願番号 201110415749.9
優先日 平成23年12月13日(2011.12.13)
優先権主張国 中華人民共和国(CN)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IS , JP , KE , KG , KM , KN , KP , KR , KZ , LA , LC , LK , LR , LS , LT , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT , TZ , UA , UG , US , UZ , VC
発明者または考案者 【氏名】ジャン タオ
【氏名】ユー シアオミン
【氏名】ヤン ジエンウー
出願人 【識別番号】507231932
【氏名又は名称】北大方正集▲団▼有限公司
【氏名又は名称】PEKING UNIVERSITY FOUNDER GROUP CO., LTD
【識別番号】507232478
【氏名又は名称】北京大学
【氏名又は名称】PEKING UNIVERSITY
【識別番号】507232456
【氏名又は名称】北京北大方正▲電▼子有限公司
【氏名又は名称】BEIJING FOUNDER ELECTRONICS CO., LTD.
個別代理人の代理人 【識別番号】110001243、【氏名又は名称】特許業務法人 谷・阿部特許事務所
審査請求
テーマコード 5B084
Fターム 5B084BB12
要約 本発明は、ネットコメントの収集方法およびシステム開示した。当該方法は、前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。ここで、Nは正の整数であるステップと;前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する。ここで、前記MはNより小さいまたは大きい正の整数であるステップと;前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集するステップとを備える。
特許請求の範囲 【請求項1】
ウェブページのエントリーリンクアドレスを取得するステップと、
前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断するステップと、
前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断するステップと、
前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集するステップとを備え,
前記Nは正の整数であり、
前記MはNより小さいまたは大きい正の整数であることを特徴とするネットコメントの収集方法。
【請求項2】
前記ウェブページのエントリーリンクアドレスの取得は、
前記N個ネットコメントがコメントしたトピックがあるトピックページを取得するステップと、
前記トピックページの特性コードを取得するステップと、
前記トピックがあるチャネルの特性コードを取得するステップと、
前記トピックページの特性コードと前記チャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得するステップとを備えることを特徴とする請求項1に記載のネットコメントの収集方法。
【請求項3】
前記方法は、周期的に前記トピックページのエントリーリンクアドレスを更新することをさらに備えることを特徴とする請求項2に記載のネットコメントの収集方法。
【請求項4】
前記方法は、前記ウェブページでのネットコメントが予定時間を越えても更新がない場合、前記ウェブページのエントリーリンクアドレスを削除することをさらに備えることを特徴とする請求項1に記載のネットコメントの収集方法。
【請求項5】
請求項1に記載した前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、NとPの差分値を計算し、もしNがPより大きければ、新たに増えたネットコメントを有することを示すステップをさらに備ええ、
前記新たに増えたネットコメントの個数はNとPの差分値Mであり、Pは前回前記ページにアクセスした際のネットコメントの個数であることを特徴とする請求項1に記載のネットコメントの収集方法。
【請求項6】
前記方法は、前記ページの目下のページに備えるネットコメントの個数Lを計算し、もし前記LがMより小さければ、ページングするページ数を計算し、かつ前記ページ数に対応するページングのリンクを抽出ことさらに備え、
前記Lは正の整数であることを特徴とする請求項5に記載のネットコメントの収集方法。
【請求項7】
前記方法は、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較し、もし比較結果が異なれば、前記比較結果が異なるM個ネットコメントを抽出することをさらに備えることを特徴とする請求項5に記載のネットコメントの収集方法。
【請求項8】
請求項1に記載した前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較し、もし比較結果が異なれば、比較結果が異なるM個ネットコメントは収集の条件を満たすネットコメントであることを確認するステップを備えることを特徴とする請求項1に記載のネットコメントの収集方法。
【請求項9】
前記方法は、抽出した前記M個ネットコメント内容を前記ウェブページと異なるストレージユニットに保存することをさらに備えることを特徴とする請求項1に記載のネットコメントの収集方法。
【請求項10】
ウェブページのエントリーリンクアドレスを取得する、エントリーリンク取得コンポーネントと、
前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する、第1判断コンポーネントと、
前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する、第2判断コンポーネントと
前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集する、内容収集コンポーネントとを備え、
前記Nは正の整数であり、
前記MはNより小さいまたは大きい正の整数であることを特徴とするネットコメントの収集システム。
発明の詳細な説明 【技術分野】
【0001】
本発明は情報検索とデータ統合技術分野に関し、特にネットコメントの収集方法およびシステムに関する。
【背景技術】
【0002】
本出願は、2011年12月13日に中国特許局に提出し、出願番号が201110415749.9であり、発明名称が「ネットコメントの収集方法およびシステム」である中国特許出願を基礎である優先権を主張し、その開示の総てをここに取り込む。
【0003】
現在、インターネット技術の急速な発展に伴い、インターネットはすでに世界で最大のデータベースとなり、人類のほぼ全ての領域を網羅し、人々の情報獲得、情報交換における重要なプラットフォームとなっている。人々が情報を閲覧しやすくするため、インターネットに基づいた情報検索技術もより深い研究と充足した発展を得た。さらに、ネットワーク世論分析、バーティカル検索の評価等のような情報検索に基づいた関連応用も出現した。これら応用技術は全て、まずウェブページをローカルにダウンロードし、不純物を取り除いて分析に必要な内容を抜き出し、最後にこの基礎の上でさらに分析を行う。
【0004】
インターネットに公表する情報について、ネットワークユーザーが情報をブラウジング後に自身の考えを発表し、当該情報に対するコメントを形成する。目下のインターネットの普遍性、広汎性および即効性により、ネットコメントは大衆のある事柄への見方を一定程度代表すると言える。これは、世論分析に大きな意義と応用空間を持たせる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
よって、ネットコメントはすでに多様な応用の重要なデータソースの一つとなり、ネットコメントデータソースの収集は最も基本的な条件である。だが、従来技術において、ネットコメントの収集研究はほぼ白紙であり、ネットコメントに対する効率的、全面的な収集技術に欠ける。
【課題を解決するための手段】
【0006】
本発明に係る実施形態は、効率的、全面的にネットコメントを収集するネットコメントの収集方法およびシステムを提供する。
【0007】
一方で本発明に係るネットコメントの収集方法は、ウェブページのエントリーリンクアドレス(Entry link addres)を取得するステップと;前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断し、Nが正の整数であるステップと;前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断し、前記MはNより小さいまたは大きい正の整数であるステップと;前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集するステップとを備える。
【0008】
好ましくは、前記ウェブページのエントリーリンクアドレスの取得は、具体的に、前記N個ネットコメントがコメントしたトピックがあるトピックページを取得するステップと;前記トピックページの特性コードを取得するステップと;前記トピックがあるチャネルの特性コードを取得するステップと;前記トピックページの特性コードと前記チャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得するステップとを備える。
【0009】
好ましくは、周期的に前記トピックページのエントリーリンクアドレスを更新する。
【0010】
好ましくは、前記ウェブページでのネットコメントが予定時間を越えても更新がない場合、前記ウェブページのエントリーリンクアドレスを削除する。
【0011】
好ましくは、上述の前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、NとPの差分値を計算し、もしNがPより大きければ、新たに増えたネットコメントを有することを示す。かつ、前記新たに増えたネットコメントの個数はNとPの差分値Mである。ここで、Pは前回前記ページにアクセスした際のネットコメントの個数であるステップを備える。
【0012】
好ましくは、前記ページの目下のページに備えるネットコメントの個数Lを計算する。もし前記LがMより小さければ、ページングするページ数を計算する。かつ前記ページ数に対応するページングのリンクを抜き出す。ここで、Lは正の整数である。
【0013】
好ましくは、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。もし比較結果が異なれば、前記比較結果が異なるM個ネットコメントを抽出する。
【0014】
好ましくは、上述の前記N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かの判断は、具体的に、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。もし比較結果が異なれば、比較結果が異なるM個ネットコメントは収集の条件を満たすネットコメントであることを確認するステップを備える。
【0015】
好ましくは、抽出した前記M個ネットコメント内容を前記ウェブページと異なるストレージユニットに保存する。
【0016】
また一方で本発明に係るネットコメントの収集システムは、ウェブページのエントリーリンクアドレスを取得する、エントリーリンク取得コンポーネントと;前記ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。ここで、Nは正の整数である、第1判断コンポーネントと;前記N個ネットコメントを有する場合、前記N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断し、前記MはNより小さいまたは大きい正の整数である、第2判断コンポーネントと;前記収集の条件を満たすM個ネットコメントを有する場合、前記M個ネットコメントを収集する、内容収集コンポーネントとを備える。
【発明の効果】
【0017】
本発明の有益な効果を以下に記述する。
【0018】
本発明に係る実施形態はネットコメント収集システムを用いてネットコメントを収集し、ネットコメントのエントリーリンクアドレスの取得および収集の条件の設定により、全面的にネットコメントを収集する技術效果を果たす。
【0019】
さらに、比較コンポーネントを用いて、今回抽出した全コメントでの各コメントと前回抽出した全コメントでの各コメントの比較を実現できる。そして、内容抽出コンポーネントを用いて、比較結果が異なるコメントのみを抽出するため、全面的にネットコメントを収集する基礎において効率的な収集の效果を果たすことができる。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態における収集方法のフロー図。
【図2】本発明の図1における収集方法の詳細なフロー図。
【図3】本発明の図1における収集方法の詳細なフロー図。
【図4】本発明の第1実施形態における収集システムアーキテクチャを示す図。
【図5】本発明の第2実施形態における収集システムアーキテクチャを示す図。
【図6】本発明の第3実施形態における収集システムアーキテクチャを示す図。
【図7】本発明の第4実施形態における収集システムアーキテクチャを示す図。
【図8】本発明の別の実施形態における収集システムアーキテクチャを示す図。
【発明を実施するための形態】
【0021】
図1は、本発明に係るネットコメントを収集するネットコメントの収集方法はであり、以下のステップ11からステップ14を備える。

【0022】
ステップ11において、ウェブページのエントリーリンクアドレスを取得する。

【0023】
ステップ12において、ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。ここでNは正の整数である。

【0024】
ステップ13において、N個ネットコメントを有する場合、N個ネットコメントにN個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する。ここで、前記MはNより小さいまたは大きい正の整数である。

【0025】
ステップ14において、収集の条件を満たすM個ネットコメントを有する場合、M個ネットコメントを収集する。

【0026】
ここで、図2に示すように、ステップ11は具体的にさらに以下のステップ111からステップ114を備える。

【0027】
ステップ111において、N個ネットコメントがコメントしたトピックがあるトピックページを取得する。

【0028】
ステップ112において、トピックページの特性コードを取得する。

【0029】
ステップ113において、トピックがあるチャネルの特性コードを取得する。
ステップ114において、トピックページの特性コードとチャネルの特性コードを接合(Splicing)し、ウェブページのエントリーリンクアドレスを取得する。

【0030】
本発明において、トピックページはニュースがあるページでも良く商品情報があるページでも良い。ここではニュースウェブページを例に挙げ、本実施形態を詳細に説明する。実際には、トピックページは他の情報があるページでも良いが、本発明ではこれを制限しない。

【0031】
本実施形態において、ニュースにコメントするコメントページのエントリーリンクアドレスは、ニュースページのスクリプトにおける特性コードにより特定ルールに従い接合後に取得する。例えば、ニュースに対するネットコメントページのエントリーリンクアドレスは、ニュースページのスクリプトにより当該ニュースを識別する特性コード、当該ニュースがあるチャネル識別する特性コード、さらにドメイン名および一部他の要素(例えば目下の時間)を加えて接合してできる。前記特性コードを取得し、かつ個性的なルールを設定し、指定モデルに基づき、ネットコメントページのエントリーリンクアドレスをマッチングする。

【0032】
引き続き図2に示すように、ステップ11はさらに以下のステップ115を備える。

【0033】
ステップ115において、周期的にウェブページのエントリーリンクアドレスを更新する。

【0034】
ステップ115において、ニュースウェブページのホームページバックグラウンドはニュースを再編集する可能性があり、同じ内容のニュースウェブページリンクには変化が生じる。即ち、ニュースの識別およびニュースがあるチャネルの特性コードには変化が生じ、ネットコメントのエントリーリンクもこれに伴い変化する。新しいネットコメント内容は変化後のネットコメントのエントリーリンクによりロードする。さらに、これより前に抽出したネットコメントのエントリーリンクアドレスが指定するページには新しいコメントの更新は無いことを意味する。よって、もし元々記録したネットコメントのエントリーリンクを引き続き使用し、アクセスすれば、新たに更新したコメント内容を取得できない。故に当該状況において、周期的に目下記録したニュースページリンクを更新する。もしリンクアドレスが変化すれば、サイトは自動的に変化後のニュースウェブページにジャンプする。こうして、新たに獲得したニュースウェブページに基づき、ネットコメントのエントリーリンク改めて抽出し、引き続き収集できることは明らかである。即ち、ニュースウェブページのエントリーリンクアドレスが更新される場合、ステップ111にジャンプし、実行する。そうでなければ、本フローを終了する。

【0035】
図3に示すように、ステップ13の具体的なステップは、ステップ131からステップ133を備える。

【0036】
ステップ131において、ウェブページから目下のネットコメントの個数Nを抽出し、NとPの差分値Mを計算する。ここで、Pは前回アクセスした当該リンクが抽出したネットコメント個数である。

【0037】
ステップ132において、Mが0より大きいか否かを判断する。

【0038】
ステップ133において、ステップ132の結果が、Mが0より大きい場合、M個ネットコメントを抽出する。

【0039】
ここで、ステップ131におけるウェブページからの目下のネットコメントの個数Nの抽出は、正規表現によりウェブページから抽出しても良く、他の方法を使用し、抽出しても良いが、本発明はこれを制限しない。最初にネットコメントを収集する場合、Pは0と等しい。

【0040】
引き続き図3に示すように、ここでステップ133は具体的に以下のステップ1331からステップ1333を備える。

【0041】
ステップ1331において、ページにおける目下のページに備えられるネットコメントの個数Lを計算する。ここで、LはMより小さいまたは等しい正の整数である。

【0042】
ステップ1332において、LがMより小さいか否かを判断する。

【0043】
ステップ1333において、ステップ1332の結果が、LがMより小さい場合、ページングするページ数を計算する。かつ、ページ数に対応するページングのリンクを抽出する。

【0044】
ここで、ステップ1333において、ページングの計算公式は:

【0045】
【数1】
JP2014532220A_000003t.gif

【0046】
ここで、Pcountは、ページングするページ数を示し、PUpdate(即ち、M)は、コメント更新数を示し、CCurrent(即ち、L)は、目下のウェブページコメント個数を示し、NPerpageは、単数のウェブページコメント数を示す。

【0047】
引き続き図3に示すように、ステップ133はさらに以下のステップ1334およびステップ1335を備える。

【0048】
ステップ1334において、N個ネットコメントでの各ネットコメントとP個ネットコメントでのネットコメントが同じか否かを判断する。

【0049】
ステップ1335において、ステップ1334の結果が、N個ネットコメントでの各ネットコメントとP個ネットコメントでの各ネットコメントが同じである場合、比較結果が異なるM個ネットコメントを抽出する。

【0050】
ステップ1335において、抽出したM個ネットコメント内容は、コメントウェブページの異なるストレージユニットに保存される。ストレージユニットに保存されたネットコメントは集中ブラウジングしやすく、ユーザー収集後のネットコメントを応用しやすい。

【0051】
本実施形態において、ニュースには即効性があり、一定時間を越えたニュースは意味が無いと認識される。同様に、ニュースの附属であるニュースコメントもニュースの失効に伴い失効する。前記原因に基づき、もしネットコメントが予定時間を越えても更新がない場合、当該ニュースコメントリンクを削除し、引き続いて更新はしない。こうして、システムリソースを節約し、より高い作業効率を有することができる。

【0052】
別の実施形態において、N個ネットコメントに収集の条件を満たすM個ネットコメントを有するか否かを判断する場合、前記実施形態におけるNとPの差分値Mを計算する方法を用いなくても良い。つまり、N個ネットコメントでの各ネットコメントとP個ネットコメントでの各ネットコメントをそれぞれ直接比較する。もし比較結果が異なれば、前記比較結果が異なるM個ネットコメントを抽出する。このような収集方法を用いるのは、ニュースウェブページのホームページバックグラウンドが不定期にネットコメントを削除するためである。例えば、システムの最初の収集は15ネットコメントを有し、2回目の収集感覚では、一部の原因によりホームページバックグラウンドは15コメントを全て削除し、同時に30の新しいコメントを加える。つまり1つのウェブページでは15コメントしか表示できないため、ネットコメントの第1ページと第2ページのネットコメントは全て新しいと認識できる。収集周期に達する場合、今回収集した30コメントと前回の15コメントを比較する。こうして、比較の結果が今回収集した30コメントと前回の15コメント全てが異なる。故に、今回30の新しいコメントを収集する。さらに、今回収集した30ネットコメント内容はコメントウェブページの異なるストレージユニットに保存される。ストレージユニットに保存されたネットコメントは集中ブラウジングしやすく、ユーザー収集後のネットコメントを応用しやすい。

【0053】
本発明の第1実施形態に係るネットコメントデータの収集システムは、図4に示すようにである。図4は本実施形態におけるシステムアーキテクチャであり、当該システムは、エントリーリンク取得コンポーネント10、第1判断コンポーネント20、第2判断コンポーネント30および内容収集コンポーネント40を備える。エントリーリンク取得コンポーネント10は、ウェブページのエントリーリンクアドレスを取得する。第1判断コンポーネント20は、ウェブページのエントリーリンクアドレスに対応するウェブページにN個ネットコメントを有するか否かを判断する。第2判断コンポーネント30は収集の条件を満たすM個ネットコメントを有するか否かを判断する。内容収集コンポーネント40は、ネットコメントを収集する。

【0054】
ここで、エントリーリンク取得コンポーネント10は、第1獲得ユニット101、第2獲得ユニット102、第3獲得ユニット103および接合ユニット104を備える。第1獲得ユニット101は、N個ネットコメントがコメントしたトピックがあるトピックページを取得する。第2獲得ユニット102は、トピックページの特性コードを取得する。第3獲得ユニット103は、トピックがあるチャネルの特性コードを取得する。接合ユニット104は、トピックページの特性コードとチャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得する。

【0055】
第2判断コンポーネント30による収集の条件を満たすM個ネットコメントを有するか否かの判断は具体的に、ウェブページからN個ネットコメントを抽出し、NとPの差分値Mを計算する。ここで、Pは前回アクセスした当該リンクが抽出したネットコメント個数であるステップをさらに備える。さらに、Mが0より大きいか否かを判断する。もしMが0より大きければ、M個ネットコメントは収集の条件を満たすコメントであることを示す。第2実施形態において、第1実施形態と異なる点は、システムが周期的にウェブページのエントリーリンクアドレスを更新する、エントリーリンクアドレス更新コンポーネント50をさらに備えることである。本実施形態において、エントリーリンクアドレス更新コンポーネント50は、エントリーリンク取得コンポーネント10と共に運用でき、更新したネットコメントの速やかな収集を実現する。

【0056】
第3実施形態において、第1、第2実施形態と異なる点は、システムがウェブページでのネットコメントの無更新が予定時間を越えているか否かを判断する。もし超えていれば、ウェブページのエントリーリンクアドレスを削除する、ネットコメントページ更新コンポーネント60をさらに備えることである。本実施形態において、ネットコメントページ更新コンポーネント60は、第1判断コンポーネント20と共に運用でき、システム収集効率を高め、いまだ更新しないネットコメントは収集を放棄できる。

【0057】
第2と第3実施形態はそれぞれ図5と図6に示すようにである。実際には、2つの実施形態を結合して使用でき、収集は全面的なネットコメントの収集を実現すると同時にシステムの収集効率を高める。第4実施形態において、第1、第2および第3実施形態と異なる点は、内容収集コンポーネント40がページング抽出コンポーネント401、比較コンポーネント402、内容抽出コンポーネント403およびディスクI/Oコンポーネント404をさらに備えることである。ページング抽出コンポーネント401は、ページングするページ数を計算する。かつ、ページ数に対応するページングのリンクを抽出する。比較コンポーネント402は、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。内容抽出コンポーネント403は、比較結果が異なる場合、前記比較結果が異なるネットコメントを抽出する。ディスクI/Oコンポーネント404は、抽出したネットコメント内容をウェブページの異なるストレージユニットに保存する。本実施形態は図7に示すようにである。

【0058】
本発明に係る別のネットコメントデータの収集システムは図8に示すようにである。図8は、本実施形態におけるシステムアーキテクチャである。

【0059】
本実施形態と第1実施形態が異なる点は、本実施形態が比較コンポーネント402と内容抽出コンポーネント403を備えないことである。図8に示すように、本実施形態のシステムは、エントリーリンク取得コンポーネント80、第1判断コンポーネント81、第2判断コンポーネント82および内容収集コンポーネント83を備える。エントリーリンク取得コンポーネント80は、ウェブページのエントリーリンクアドレスを取得する。第1判断コンポーネント81は、ウェブページのエントリーリンクアドレスに対応するウェブページにネットコメントを有するか否かを判断する。第2判断コンポーネント82は、収集の条件を満たすネットコメントを有するか否かを判断する。内容収集コンポーネント83は、ネットコメントを収集する。

【0060】
ここで、エントリーリンク取得コンポーネント80は、第1獲得ユニット801、第2獲得ユニット802、第3獲得ユニット803および接合ユニット804を備える。第1獲得ユニット801は、N個ネットコメントがコメントしたトピックがあるトピックページを取得する。第2獲得ユニット802は、トピックページの特性コードを取得する。第3獲得ユニット803は、トピックがあるチャネルの特性コードを取得する。接合ユニット804は、トピックページの特性コードとチャネルの特性コードを接合し、ウェブページのエントリーリンクアドレスを取得する。

【0061】
第2判断コンポーネント82は、前記N個ネットコメントでの各ネットコメントと前記P個ネットコメントでの各ネットコメントをそれぞれ比較する。もし比較結果が異なれば、比較結果が異なるM個ネットコメントは収集の条件を満たすネットコメントであることを確認する。

【0062】
内容収集コンポーネント83は、ページング抽出コンポーネント831およびディスクI/Oコンポーネント832を備える。ページング抽出コンポーネント831は、ページングするページ数を計算する。かつ、ページ数に対応するページングのリンクを抽出する。ディスクI/Oコンポーネント832は、抽出したネットコメント内容をウェブページの異なるストレージユニットに保存する。

【0063】
本実施形態において、エントリーリンク取得コンポーネント80は、第2実施形態におけるエントリーリンクアドレス更新コンポーネント84と結合して共に応用でき、比較的全面的なネットコメントの収集を実現する。第1判断コンポーネント81は、第3実施形態におけるネットコメントページ更新コンポーネント85と結合して共に応用でき、全面的、効率的にネットコメントの収集を実現する。

【0064】
前記第1、第2、第3、第4および別の実施形態におけるシステムは、本発明が提供したネットコメント収集方法の実施形態における方法およびその各種変化の形式の記述に基づき、実施できる。明細書を簡潔にするため、ここでは説明を繰り返さない。

【0065】
本発明の実施形態は、ネットコメント収集システムを用いて、ネットコメントを収集し、ネットコメントのエントリーリンクアドレスの取得および収集の条件の設定により全面的なネットコメントを収集する技術效果を果たす。

【0066】
さらに、比較コンポーネントを用いて、今回抽出した全コメントでの各コメントと前回抽出した全コメントでの各コメントの比較を実現できる。そして、内容抽出コンポーネントを用いて、比較結果が異なるコメントのみを抽出する。よって、全面的にネットコメントを収集する基礎の上に効率的な収集の效果を果たすことができる。

【0067】
以上は本発明の実施形態の方法、装置(システム)、およびコンピュータプログラム製品のフロー図および/またはブロック図によって、本発明を記述した。理解すべきことは、コンピュータプログラム指令によって、フロー図および/またはブロック図における各フローおよび/またはブロックと、フロー図および/またはブロック図におけるフローおよび/またはブロックの結合を実現できる。プロセッサはこれらのコンピュータプログラム指令を、汎用コンピュータ、専用コンピュータ、組込み式処理装置、或いは他のプログラム可能なデータ処理装置設備の処理装置器に提供でき、コンピュータ或いは他のプログラム可能なデータ処理装置のプロセッサは、これらのコンピュータプログラム指令を実行し、フロー図における一つ或いは複数のフローおよび/またはブロック図における一つ或いは複数のブロックに指定する機能を実現する。

【0068】
これらのコンピュータプログラム指令は又、コンピュータ或いは他のプログラム可能なデータ処理装置を特定方式で動作させるコンピュータ読取記憶装置に記憶できる。これによって、指令を含む装置は当該コンピュータ読取記憶装置内の指令を実行でき、フロー図における一つ或いは複数のフローおよび/またはブロック図における一つ或いは複数のブロックに指定する機能を実現する。

【0069】
これらコンピュータプログラム指令はさらに、コンピュータ或いは他のプログラム可能なデータ処理装置設備に実装もできる。コンピュータプログラム指令が実装されたコンピュータ或いは他のプログラム可能設備は、一連の操作ステップを実行することによって、関連の処理を実現し、コンピュータ或いは他のプログラム可能な設備において実行される指令によって、フロー図における一つ或いは複数のフローおよび/またはブロック図における一つ或いは複数のブロックに指定する機能を実現する。

【0070】
上述した実施形態に記述された技術的な解決手段を改造し、或いはその中の一部の技術要素を置換することもできる。そのような、改造と置換は本発明の各実施形態の技術の範囲から逸脱するとは見なされない。

【0071】
無論、当業者によって、上述した実施形態に記述された技術的な解決手段を改造し、或いはその中の一部の技術要素を置換することもできる。そのような、改造と置換は本発明の各実施形態の技術の範囲から逸脱するとは見なされない。そのような改造と置換は、すべて本発明の請求の範囲に属する。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7