TOP > 中国の大学の特許 > 北京大学の特許一覧 > ネットデータの採集方法及びシステム

ネットデータの採集方法及びシステム

国内特許コード P150011807
掲載日 2015年3月30日
出願番号 特願2014-532241
公表番号 特表2014-528136
登録番号 特許第5823620号
出願日 平成24年12月13日(2012.12.13)
公表日 平成26年10月23日(2014.10.23)
登録日 平成27年10月16日(2015.10.16)
国際出願番号 CN2012086584
国際公開番号 WO2013087012
国際出願日 平成24年12月13日(2012.12.13)
国際公開日 平成25年6月20日(2013.6.20)
優先権データ
  • 201110415356.8 (2011.12.13) CN
発明者
  • ウー シンリー
  • ヤン ジエンウー
出願人
  • 北大方正集▲団▼有限公司
  • 北京大学
  • 北京北大方正▲電▼子有限公司
発明の名称 ネットデータの採集方法及びシステム
発明の概要 本発明はネットデータの採集方法及びシステムを開示している。該方法はウェブサイトで公表した、M個(Mが正の整数である)の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するに用いられる。該方法は、採取対象のネットデータのウェブサイトのリンクアドレスに対応するタイプに応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、前記採取対象のネットデータのウェブサイトのリンクアドレス、を対応するタイプのキューに設置するステップと、前記対応するタイプのキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップと、前記ウェブサイトソースコードに対応するURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップと、を備える。
従来技術、競合技術の概要



インターネットの現れ及び普及に伴い、インターネットは数億のネットワークのユーザに様々な文学資料情報を提供した。その同時に、伝統文学特徴と異なるネット文学は、新しい文学媒体とし、ネットワークのユーザを読書対象とし、盛んになっている。





ネット文学は、近頃に現われた、ネットワークを展示台として、ハイパーテキストリンクとマルチメディアプレゼンテーション等の手段により表現される文学作品、文学と類似する類似文学作品、及び一部が文学要素が含まれるネットワーク芸術を意味する。そのうち、オリジナルネットワーク作品を中心としている。

ネット文学は、以下のような3種類に分けられてもよい。

第1種類のネット文学は、既に公表した文学作品を電子走査技術又はマニュアル入力により形成されたデジタルリソースである。

第2種類のネット文学は、直接にインターネットで「公開発表」した文学作品である。

第3種類のネット文学は、コンピュータにより作成されたか、又はコンピュータソフトウェアにより生成された文学作品がインターネットで発表され、インターネット開放性に基づいて、数人、数十人乃至数百人の作家により、協力で作成した「リレー小説」等である。

産業上の利用分野



本出願は、2011年12月13日に中国特許局に提出し、出願番号が201110415356.8であり、発明名称が「ネットデータの採集方法及びシステム」との中国特許出願を基礎とする優先権を主張し、その全文の内容を引用することにより本出願に取り込む。

本発明は情報検索及びデータ集積の技術分野に関し、特に、ネットデータの採集方法及びシステムに関する。

特許請求の範囲 【請求項1】
ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するためのネットデータの採集方法であって、
プロセッサーが採取対象のネットデータのウェブサイトのリンクアドレスに対応する種類に応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、前記採取対象のネットデータのウェブサイトのリンクアドレスを、対応する種類のキューに設置するステップと、
プロセッサーが前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップと、
プロセッサーが前記ウェブサイトソースコードに対応するユニフォームリソースロケーターURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップと
前記M個の主題における各主題は一つの文学作品であり、前記方法は、
【数1】


のように、ネット文学の構成に応じて前記URLの採集深度値を設置するステップとを備え、
前記採取対象のネットデータのウェブサイトリンクアドレスに対応する前記種類は、主題名称ページ、リストページ、及び内容ページを備え、プロセッサーが主題名称を抽出するように前記主題名称ページを設置し、主題章節目録又は主題章節を抽出するように前記リストページを設置して、主題本文内容を抽出するように前記内容ページを設置し、
前記採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置する前記ステップは、
プロセッサーが種類が主題名称であるリンクアドレスを主題名称ページキューに設置し、
プロセッサーが種類が前記リストページであるリンクアドレスをリストページキューに設置し、
プロセッサーが種類が前記内容ページであるリンクアドレスを内容ページキューに設置することであり、
前記Mは正の整数であり、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップは、
プロセッサーが前記主題名称ページのキューから前記主題名称ページのリンクアドレスに対応するウェブサイトソースコードを取得することであり、
前記ウェブサイトソースコードに対応するURL情報及び前記URLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップは、
プロセッサーが採集深度値が第1閾値である場合、主題の名称及び前記名称に対応するURLを抽出し、かつ、前記名称に対応するURLの採集深度値を第2閾値としてマークして前記リストページキューに追加し、
プロセッサーが採集深度値が第2閾値である場合、主題の名称及び前記名称に対応するURLを抽出し、かつ、前記名称に対応するURLの採集深度値を第3閾値としてマークして前記リストページキューに追加する
ことを特徴とするネットデータの採集方法。

【請求項2】
ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するためのネットデータの採集方法であって、
プロセッサーが採取対象のネットデータのウェブサイトのリンクアドレスに対応する種類に応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、前記採取対象のネットデータのウェブサイトのリンクアドレスを、対応する種類のキューに設置するステップと、
プロセッサーが前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップと、
プロセッサーが前記ウェブサイトソースコードに対応するユニフォームリソースロケーターURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップと
前記M個の主題における各主題は一つの文学作品であり、前記方法は、
【数2】


のように、ネット文学の構成に応じて前記URLの採集深度値を設置するステップとを備え、
前記採取対象のネットデータのウェブサイトリンクアドレスに対応する前記種類は、主題名称ページ、リストページ、及び内容ページを備え、プロセッサーが主題名称を抽出するように前記主題名称ページを設置し、主題章節目録又は主題章節を抽出するように前記リストページを設置して、主題本文内容を抽出するように前記内容ページを設置し、
前記採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置する前記ステップは、
プロセッサーが種類が主題名称であるリンクアドレスを主題名称ページキューに設置し、
プロセッサーが種類が前記リストページであるリンクアドレスをリストページキューに設置し、
プロセッサーが種類が前記内容ページであるリンクアドレスを内容ページキューに設置することであり、
前記Mは正の整数であり、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップは、
プロセッサーが前記リストページキューから前記リストページのリンクアドレスに対応するウェブサイトソースコードを取得することであり、
前記ウェブサイトソースコードに対応するURL情報及び前記URLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップは、
プロセッサーが採集深度値が第2閾値である場合、主題の章節目録及び前記章節目録に対応するURLを抽出し、かつ、前記章節目録に対応するURLの採集深度値を第3閾値としてマークしてから前記リストページキューに追加し、
プロセッサーが採集深度値が第3閾値である場合、前記ウェブサイトソースコードに対応するURLには上位URLが存在するか否かを判断し、
プロセッサーが存在すると判断する場合、主題の章節タイトル及び前記章節タイトルに対応する章節のURLを抽出し、かつ、前記章節のURLを前記内容ページキューに追加し、
プロセッサーが存在しないと判断する場合、主題の名称、主題の章節タイトル、及び前記章節タイトルに対応する章節のURLを抽出し、かつ、前記章節のURLを前記内容ページキューに追加する
ことを特徴とするネットデータの採集方法。

【請求項3】
ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するためのネットデータの採集方法であって、
プロセッサーが採取対象のネットデータのウェブサイトのリンクアドレスに対応する種類に応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、前記採取対象のネットデータのウェブサイトのリンクアドレスを、対応する種類のキューに設置するステップと、
プロセッサーが前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップと、
プロセッサーが前記ウェブサイトソースコードに対応するユニフォームリソースロケーターURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップと
前記M個の主題における各主題は一つの文学作品であり、前記方法は、
【数3】


のように、ネット文学の構成に応じて前記URLの採集深度値を設置するステップとを備え、
前記採取対象のネットデータのウェブサイトリンクアドレスに対応する前記種類は、主題名称ページ、リストページ、及び内容ページを備え、プロセッサーが主題名称を抽出するように前記主題名称ページを設置し、主題章節目録又は主題章節を抽出するように前記リストページを設置して、主題本文内容を抽出するように前記内容ページを設置し、
前記採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置する前記ステップは、
プロセッサーが種類が主題名称であるリンクアドレスを主題名称ページキューに設置し、
プロセッサーが種類が前記リストページであるリンクアドレスをリストページキューに設置し、
プロセッサーが種類が前記内容ページであるリンクアドレスを内容ページキューに設置することであり、
前記Mは正の整数であり、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得するステップは、
プロセッサーが前記内容ページキューから前記内容ページのリンクアドレスに対応するウェブサイトソースコードを取得することであり、
前記ウェブサイトソースコードに対応するURL情報及び前記URLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するステップは、
プロセッサーが前記ウェブサイトソースコードから主題の章節タイトル及び章節本文内容を抽出し、かつ、前記ウェブサイトソースコードに対応するURLから前記章節タイトルに対応する章節の章節IDを抽出する
ことを特徴とするネットデータの採集方法。

【請求項4】
プロセッサーが前記ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントの更新頻度に応じてリフレッシュ時間間隔を設置するステップと、
プロセッサーが前記リフレッシュ時間間隔に基づいて前記採取対象のネットデータのウェブサイトリンクアドレスをリフレッシュするステップと
を更に備えることを特徴とする請求項1ないし請求項3のいずれか1つに記載の方法。

【請求項5】
プロセッサーが前記章節本文内容にはページングが存在する場合、次のページのリンクアドレスを抽出するとともに現在ページのページ番号及び次のページのページ番号をマークし、かつ、次のページのリンクアドレスを前記内容ページキューに追加して採集待機する
ことを特徴とする請求項に記載の方法。

【請求項6】
プロセッサーが前記章節本文内容の第1ページのリンクを唯一のキー値として、前記ページングの内容を格納して、最後の1ページを採集終了する際に終了フラグを付与することを特徴とする請求項に記載の方法。

【請求項7】
プロセッサーが抽出した全てのページングの内容を合併して、前記章節タイトルを結合して出力することを特徴とする請求項に記載の方法。

【請求項8】
ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するためのネットデータの採集システムであって、
採取対象のネットデータのウェブサイトリンクアドレスに対応する種類に応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置することに用いられる設置モジュールと、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトリンクアドレスに対応するウェブサイトソースコードを取得することに用いられるウェブサイト取得モジュールと、
前記ウェブサイトソースコードに対応するユニフォームリソースロケーターURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するデータ抽出モジュールと
を備え、
前記Mは正の整数であり、
前記採取対象のネットデータのウェブサイトリンクアドレスに対応する種類は、主題名称ページ、リストページ、及び内容ページを備え、
前記設置モジュールは、主題名称を抽出するように前記主題名称ページを設置し、主題章節目録又は主題章節を抽出するように前記リストページを設置し、主題内容を抽出するように前記内容ページを設置することに用いられるウェブサイト設置モジュールと、
前記採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置するためのキュー設置モジュールを備え、
前記キュー設置モジュールは、
種類が前記主題名称であるリンクアドレスを主題名称ページキューに設置する第1設置手段と、
種類が前記リストページであるリンクアドレスをリストページキューに設置する第2設置手段と、
種類が前記内容ページであるリンクアドレスを内容ページキューに設置する第3設置手段とを備え、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得することは、
プロセッサーが前記主題名称ページのキューから前記主題名称ページのリンクアドレスに対応するウェブサイトソースコードを取得することであり、
前記ウェブサイトソースコードに対応するURL情報及び前記URLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出することは、
プロセッサーが採集深度値が第1閾値である場合、主題の名称及び前記名称に対応するURLを抽出し、かつ、前記名称に対応するURLの採集深度値を第2閾値としてマークして前記リストページキューに追加し、
プロセッサーが採集深度値が第2閾値である場合、主題の名称及び前記名称に対応するURLを抽出し、かつ、前記名称に対応するURLの採集深度値を第3閾値としてマークして前記リストページキューに追加する
ことを特徴とするネットデータの採集システム。

【請求項9】
ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するためのネットデータの採集システムであって、
採取対象のネットデータのウェブサイトリンクアドレスに対応する種類に応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置することに用いられる設置モジュールと、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトリンクアドレスに対応するウェブサイトソースコードを取得することに用いられるウェブサイト取得モジュールと、
前記ウェブサイトソースコードに対応するユニフォームリソースロケーターURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するデータ抽出モジュールと
を備え、
前記Mは正の整数であり、
前記採取対象のネットデータのウェブサイトリンクアドレスに対応する種類は、主題名称ページ、リストページ、及び内容ページを備え、
前記設置モジュールは、主題名称を抽出するように前記主題名称ページを設置し、主題章節目録又は主題章節を抽出するように前記リストページを設置し、主題内容を抽出するように前記内容ページを設置することに用いられるウェブサイト設置モジュールと、
前記採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置するためのキュー設置モジュールを備え、
前記キュー設置モジュールは、
種類が前記主題名称であるリンクアドレスを主題名称ページキューに設置する第1設置手段と、
種類が前記リストページであるリンクアドレスをリストページキューに設置する第2設置手段と、
種類が前記内容ページであるリンクアドレスを内容ページキューに設置する第3設置手段とを備え、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得することは、
プロセッサーが前記リストページキューから前記リストページのリンクアドレスに対応するウェブサイトソースコードを取得することであり、
前記ウェブサイトソースコードに対応するURL情報及び前記URLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出することは、
プロセッサーが採集深度値が第2閾値である場合、主題の章節目録及び前記章節目録に対応するURLを抽出し、かつ、前記章節目録に対応するURLの採集深度値を第3閾値としてマークしてから前記リストページキューに追加し、
プロセッサーが採集深度値が第3閾値である場合、前記ウェブサイトソースコードに対応するURLには上位URLが存在するか否かを判断し、
プロセッサーが存在すると判断する場合、主題の章節タイトル及び前記章節タイトルに対応する章節のURLを抽出し、かつ、前記章節のURLを前記内容ページキューに追加し、
プロセッサーが存在しないと判断する場合、主題の名称、主題の章節タイトル、及び前記章節タイトルに対応する章節のURLを抽出し、かつ、前記章節のURLを前記内容ページキューに追加する
ことを特徴とするネットデータの採集システム。

【請求項10】
ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントのデータを採集するためのネットデータの採集システムであって、
採取対象のネットデータのウェブサイトリンクアドレスに対応する種類に応じて、前記M個の主題のそれぞれに関連するオンライン・ドキュメントのデータが位置するウェブサイトのリンクアドレスである、採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置することに用いられる設置モジュールと、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトリンクアドレスに対応するウェブサイトソースコードを取得することに用いられるウェブサイト取得モジュールと、
前記ウェブサイトソースコードに対応するユニフォームリソースロケーターURL情報及びURLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出するデータ抽出モジュールと
を備え、
前記Mは正の整数であり、
前記採取対象のネットデータのウェブサイトリンクアドレスに対応する種類は、主題名称ページ、リストページ、及び内容ページを備え、
前記設置モジュールは、主題名称を抽出するように前記主題名称ページを設置し、主題章節目録又は主題章節を抽出するように前記リストページを設置し、主題内容を抽出するように前記内容ページを設置することに用いられるウェブサイト設置モジュールと、
前記採取対象のネットデータのウェブサイトリンクアドレスを対応する種類のキューに設置するためのキュー設置モジュールを備え、
前記キュー設置モジュールは、
種類が前記主題名称であるリンクアドレスを主題名称ページキューに設置する第1設置手段と、
種類が前記リストページであるリンクアドレスをリストページキューに設置する第2設置手段と、
種類が前記内容ページであるリンクアドレスを内容ページキューに設置する第3設置手段とを備え、
前記対応する種類のキューにおける前記採取対象のネットデータのウェブサイトのリンクアドレスに対応するウェブサイトソースコードを取得することは、
プロセッサーが前記内容ページキューから前記内容ページのリンクアドレスに対応するウェブサイトソースコードを取得することであり、
前記ウェブサイトソースコードに対応するURL情報及び前記URLの採集深度値に応じて、前記URLに対応するオンライン・ドキュメントのデータを抽出することは、
プロセッサーが前記ウェブサイトソースコードから主題の章節タイトル及び章節本文内容を抽出し、かつ、前記ウェブサイトソースコードに対応するURLから前記章節タイトルに対応する章節の章節IDを抽出する
ことを特徴とするネットデータの採集システム。

【請求項11】
前記システムは、
前記ウェブサイトで公表した、M個の主題のそれぞれに関連するオンライン・ドキュメントの更新頻度に応じてリフレッシュ時間間隔を設置し、かつ、前記リフレッシュ時間間隔に基づいて、前記採取対象のネットデータのウェブサイトリンクアドレスをリフレッシュすることに用いられるリフレッシュモジュールを備える
ことを特徴とする請求項8ないし10のいずれか1つに記載のシステム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2014532241thum.jpg
出願権利状態 登録
分野
  • 物理学
※ 特許の内容に興味を持たれた方は、下記問合せ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close