TOP > 国内特許検索 > リンクオーソリティ決定方法及び装置並びにプログラム > 明細書

明細書 :リンクオーソリティ決定方法及び装置並びにプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4496370号 (P4496370)
公開番号 特開2007-058335 (P2007-058335A)
登録日 平成22年4月23日(2010.4.23)
発行日 平成22年7月7日(2010.7.7)
公開日 平成19年3月8日(2007.3.8)
発明の名称または考案の名称 リンクオーソリティ決定方法及び装置並びにプログラム
国際特許分類 G06F  12/00        (2006.01)
G06F  17/30        (2006.01)
FI G06F 12/00 546B
G06F 17/30 419B
請求項の数または発明の数 7
全頁数 17
出願番号 特願2005-240254 (P2005-240254)
出願日 平成17年8月22日(2005.8.22)
新規性喪失の例外の表示 特許法第30条第1項適用 平成17年2月22日 電子情報通信学会データ工学専門委員会主催の「電子情報通信学会 第16回データ工学ワークショップ」のウエブサイト(http://www.digitalcity.gr.jp/~satoh/DEWS2005/top04.htm)」にて発表
審査請求日 平成19年3月5日(2007.3.5)
特許権者または実用新案権者 【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
発明者または考案者 【氏名】森嶋 厚行
【氏名】飯田 敏成
【氏名】杉本 重雄
【氏名】北川 博之
【氏名】中溝 昌佳
個別代理人の代理人 【識別番号】100091443、【弁理士】、【氏名又は名称】西浦 ▲嗣▼晴
審査官 【審査官】田川 泰宏
参考文献・文献 飯田 敏成,Webリンク切れ自動修正のための公開実験システムの開発,電子情報通信学会技術研究報告(DE2005-45),日本,社団法人電子情報通信学会,2005年 7月 6日,第105巻,第171号,p.89-94
飯田 敏成,Webリンク切れ自動修正のための公開実験システムの開発,情報処理学会研究報告(2005-DBS-137(I)-16),日本,社団法人情報処理学会,2005年 7月13日,第2005巻,第67号,p.113-120
Akiyoshi Nakamizo,A Tool to Compute Reliable Web Links and Its Applications , Data Engineering Workshops, 2005. 21st International Conference,米国,IEEE,2005年 4月 5日,p.146-149
調査した分野 G06F 12/00
G06F 17/30
特許請求の範囲 【請求項1】
コンピュータが、
監視対象とするURLへのリンクを持つ複数のWebページを収集する収集ステップと、
前記複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定めるリンクオーソリティ候補決定ステップと、
前記リンクオーソリティ候補に含まれる前記複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定するリンクオーソリティ決定ステップを実行し、
前記リンクオーソリティ候補決定ステップでは、予めリンクオーソリティとなり得るWebページが有する複数の属性を定めて、前記複数の属性を基準にして前記複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングを行い、前記ランキングの結果から上位のランクにある複数のWebページを前記リンクオーソリティ候補として定め、
前記リンクオーソリティ決定ステップでは、前記上位のランクにある複数のWebページのそれぞれについて、各Webページについてのリンク切れのリンクの数またはリンク切れではないリンクの数を求め、この数と前記各Webページにあるリンクの数とに基づいてリンク切れの割合が少ない順にランキングを行い、前記ランキングの結果から上位のランクにある1以上のWebページを前記リンクオーソリティとして決定するリンクオーソリティの決定方法であって、
前記複数の属性には二つのWebページ間に直接的若しくは間接的な相互リンクが存在しているという相互リンクの属性が含まれており、
前記間接的な相互リンクが存在しているか否かの探索では、前記二つのWebページの一方のWebページだけの探索を行って、前記一方のWebページ中のいずれかのページに対するリンクがあれば、前記二つのWebページ間には前記間接的な相互リンクが存在するものとみなすことを特徴とするリンクオーソリティの決定方法。
【請求項2】
前記リンクオーソリティ決定ステップでは、前記リンクの数と前記リンク切れではないリンクの数の割合を反映した値をキーとして前記ランキングを行うことを特徴とする請求項1に記載のリンクオーソリティの決定方法。
【請求項3】
前記リンクの数と前記リンク切れではないリンクの数の割合の相乗平均を前記キーとすることを特徴とする請求項2に記載のリンクオーソリティの決定方法。
【請求項4】
監視対象とするURLへのリンクを持つ複数のWebページを収集する収集機能と、
前記複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定めるリンクオーソリティ候補決定機能と、
前記リンクオーソリティ候補に含まれる前記複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定するリンクオーソリティ決定機能とをコンピュータに実現させるためのプログラムであって、
前記リンクオーソリティ候補決定機能は、予め定めたリンクオーソリティとなり得るWebページが有する複数の属性を基準にして、前記複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングを行う機能と、前記ランキングの結果から上位のランクにある複数のWebページを前記リンクオーソリティ候補として定める機能を含み、
前記リンクオーソリティ決定機能は、前記上位のランクにある複数のWebページのそれぞれについて、各Webページについてのリンク切れのリンクの数またはリンク切れではないリンクの数を求める機能と、この数と前記各Webページにあるリンクの数とに基づいてリンク切れの割合が少ない順にランキングを行う機能と、前記ランキングの結果から上位のランクにある1以上のWebページを前記リンクオーソリティとして決定する機能とを含み、
前記複数の属性には二つのWebページ間に直接的若しくは間接的な相互リンクが存在しているという相互リンクの属性が含まれており、
前記間接的な相互リンクが存在しているか否かの探索では、前記二つのWebページの一方のWebページだけの探索を行って、前記一方のWebページ中のいずれかのページに対するリンクがあれば、前記二つのWebページ間には前記間接的な相互リンクが存在するものとみなすことを特徴とするプログラム。
【請求項5】
前記リンクオーソリティ決定機能に含まれる前記ランキングを行う機能は、前記リンクの数と前記リンク切れではないリンクの数の割合を反映した値をキーとして前記ランキングを行うことを特徴とする請求項4に記載のプログラム。
【請求項6】
監視対象とするURLへのリンクを持つ複数のWebページを収集する収集手段と、
前記複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定めるリンクオーソリティ候補決定手段と、
前記リンクオーソリティ候補に含まれる前記複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定するリンクオーソリティ決定手段とを備えて、
前記リンクオーソリティ候補決定手段は、予め定めたリンクオーソリティとなり得るWebページが有する複数の属性を記憶する属性記憶手段と、前記属性記憶手段に記憶された前記複数の属性を基準にして、前記複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングを行うランキング手段と、前記ランキング手段によるランキングの結果から上位のランクにある複数のWebページを前記リンクオーソリティ候補として定める候補決定手段を含み、
前記リンクオーソリティ決定手段は、前記上位のランクにある複数のWebページのそれぞれについて、リンク切れのリンクの数またはリンク切れではないリンクの数を求める検索手段と、前記検索手段により求めた数と前記各Webページにあるリンクの数とに基づいてリンク切れの割合が少ない順にランキングを行うランキング手段と、前記ランキング手段によるランキングの結果から上位のランクにある1以上のWebページを前記リンクオーソリティとして決定する最終決定手段とを含むリンクオーソリティ決定装置であって、
前記リンクオーソリティ候補決定手段の前記属性記憶手段に記憶されている前記複数の属性には、二つのWebページ間に直接的若しくは間接的な相互リンクが存在しているという相互リンクの属性が含まれており、前記リンクオーソリティ候補決定手段は、前記二つのWebページの一方のWebページだけの探索を行って、前記一方のWebページ中のいずれかのページに対するリンクがあれば、前記二つのWebページ間には前記間接的な相互リンクが存在するものとみなすことを特徴とするリンクオーソリティ決定装置。
【請求項7】
前記ランキング手段は、前記リンクの数と前記リンク切れではないリンクの数の割合を反映する値をキーとして前記ランキングを行うことを特徴とする請求項6に記載のリンクオーソリティ決定装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、Webページのリンク切れを自動的に修正するために用いられるリンクオーソリティを決定するために用いられるリンクオーソリティ決定方法及び装置並びにプログラムに関するものである。
【背景技術】
【0002】
近年、World Wide Web(以下Web)は、社会における重要なメディアの一つである。そしてWebの特徴の一つに、分散管理が挙げられる。即ち、Webコンテンツは多くの組織・個人により独立して追加・削除・更新が行われている。この特徴はWebを便利なツールとする一方で、Webコンテンツの一貫性の維持を困難としている要因でもある。コンテンツの一貫性が損なわれる一例として、Webページのリンク切れがある。そこで従来から、リンク切れが発生したときに代わりとなるリンク候補を探す技術が種々提案されている。例えば、特開平09-081446号公報「ハイパーテキストシステム」(特許文献1)には、リンク切れが起こった場合に、代わりとなるリンク先ページ候補を探すことが記載されている。この公報に記載の技術では、代わりとなるリンク先ページの発見に、アドレス(URL)の情報とWebページの内容のみを利用している。また特開平11-039327号公報「リンク情報自動修復方法および装置」(特許文献2)には、リンク切れが起こった場合に,代わりとなるリンク先ページ候補を探すために、「同じノード(ページのこと)」を探すことが記載されている。さらに、特開2001-273185号公報「ホームページアドレス登録装置及びホームページアドレス登録処理プログラムを記憶した記憶媒体」(特許文献3)には、リンク切れが起こった場合に、代わりとなるリンク先Webページ候補を探すために、Webページの内容のみを利用する技術が開示されている。
【0003】
これらの技術では、リンク先ページの探索精度が必ずしも高くない。そこで本出願の発明者等は、Webのリンク切れを発見すると、変更先と考えられるリンクの候補を自動的に発見しリンクの訂正を試みるシステムの開発を行い、実験を行ってきた(非特許文献1:中溝昌佳、森嶋厚行、杉本重雄及び北川博之著「WWWリンク一貫性維持支援システムにおけるリンク切れ自動修復」日本データベース学会Letters、Vol.3、No.2、2004年12月。非特許文献2:中溝昌佳、森嶋厚行、有山智洋、杉本重雄及び北川博之著「WWWコンテンツ一貫性維持のためのリンク更新機構の提案」日本データベース学会Letters、Vol.2、No.2、65頁-68頁、2003年10月)。このシステムでは、Webのリンク切れはページの移動に伴って生じたものであると仮定し移動先の探索を行う。
【0004】
そして発明者等は、信頼できるリンクを含むページである「リンクオーソリティ(Link Authority)」を求めるための仕組みと、それを実装したLAサーバ(Link Authority Server)を提案し、LAサーバを利用することによりWebページの移動先を効率よく発見できる可能性があることを指摘した(非特許文献3:中溝昌佳、森嶋厚行、杉本重雄及び北川博之著「WWWにおける信頼度の高いリンクの発見」情報処理学会研究報告、Vol.2004、No.72(2004-DBS-134(II)、397頁-402頁。非特許文献4:中溝昌佳、森嶋厚行、杉本重雄及び北川博之著「WWWにおける信頼度の高いリンクの発見」電子情報通信学会技術研究報告、Vol.104、No.177(DE2004-63)、87頁-92頁、2004年7月)。
【0005】
ここで発明者等が定義したWebページのリンクオーソリティとは、Webページが移動したときに、全Webページ中で十分に大きな確率でリンクが更新されるページを意味する。直観的には、リンクオーソリティとは、「リンク先の内容が変化したときに、全Webページ中で十分大きな確率でリンクが更新されるページ」のことである(GoogleなどにおけるAuthorityページとは異なる観念である)。なおここで全Webページとは、システムにおいて利用可能なWebページの全てという意味である。
【0006】
例えば、図1に示す例で説明すると、ある大学Aの研究室のWebページu(m.l.s.ac.jp)が存在し、このページは複数のページからリンクされているものとする。このうちWebページv(l.s.ac.jp)はその研究室が所属する学科の研究室一覧ページである。このとき、一般には、WebページvはWebページuに関するリンクオーソリティである。したがって、WebページuがWebページu(m.org)に移動したとき、Webページuへリンクしているページはリンク切れを起こすが、WebページvはWebページuへのリンクをWebページuに貼り換えるはずである。そこで発明者等は、あるWebページvは次の2つの条件を満たすとき、別のWebページuのリンクオーソリティとなるものと定義した。(1)WebページvがWebページuへのリンクを持っており、且つ(2)Webページuが別のWebページunewに移動すると、Webページv中のWebページuへのリンクがWebページunewへのリンクに確実に変更されることが強く期待される。
【0007】
あるWebページ中に含まれるWebページuへのリンクがリンク切れになった場合に、もしWebページuのリンクオーソリティとなるWebページvを知っていれば、Webページvを見ることにより新たなリンク先unewを知ることができ、リンク先の修正が可能になる。したがってリンク先の修正をするためには、リンクオーソリティを高い精度で決定することが必要となる。

【特許文献1】特開平09-081446号公報
【特許文献2】特開平11-039327号公報
【特許文献3】特開2001-273185号公報
【非特許文献1】中溝昌佳、森嶋厚行、杉本重雄及び北川博之著「WWWリンク一貫性維持支援システムにおけるリンク切れ自動修復」日本データベース学会Letters、Vol.3、No.2、2004年12月
【非特許文献2】中溝昌佳、森嶋厚行、有山智洋、杉本重雄及び北川博之著「WWWコンテンツ一貫性維持のためのリンク更新機構の提案」日本データベース学会Letters、Vol.2、No.2、65頁-68頁、2003年10月
【非特許文献3】中溝昌佳、森嶋厚行、杉本重雄及び北川博之著「WWWにおける信頼度の高いリンクの発見」情報処理学会研究報告、Vol.2004、No.72(2004-DBS-134(II)、397頁-402頁
【非特許文献4】中溝昌佳、森嶋厚行、杉本重雄及び北川博之著「WWWにおける信頼度の高いリンクの発見」電子情報通信学会技術研究報告、Vol.104、No.177(DE2004-63)、87頁-92頁、2004年7月
【発明の開示】
【発明が解決しようとする課題】
【0008】
リンクオーソリティを利用してリンク切れを修正する場合には、リンクオーソリティとしての機能ができるだけ発揮できるWebページをリンクオーソリティとして決定する必要がある。リンクオーソリティの決定方法は、種々考えられるものの、監視対象となるWebページが多くなればなるほど、決定に要するまでの時間をできるだけ短くすることができ、しかも少ない労力で実行できるものが望まれる。しかしながら従来は、この点に着目していなかったため、このような要望に答えることができる方法、装置及びプログラムはなかった。
【0009】
本発明の目的は、できるだけ短い時間でしかも少ない労力で、適正なリンクオーソリティを決定できるリンクオーソリティの決定方法及び装置並びにプログラムを提供することにある。
【課題を解決するための手段】
【0010】
本発明のリンクオーソリティ決定方法では、収集ステップと、リンクオーソリティ候補決定ステップと、リンクオーソリティ決定ステップとから構成される。収集ステップは、監視対象とするURLへのリンクを持つ複数のWebページを収集する。リンクオーソリティ候補決定ステップでは、収集した複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定める。そしてリンクオーソリティ決定ステップでは、リンクオーソリティ候補に含まれる複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定する。
【0011】
特に本発明では、リンクオーソリティ候補決定ステップで、まず予めリンクオーソリティとなり得るWebページが有する複数の属性を定める。ここで複数の属性の定め方は任意である。しかしながらできるだけリンクオーソリティになり得るWebページが集まるように属性を定める必要がある。例えば「監視対象のWebページと同一サイトの同一ディレクトリに存在する」、「監視対象となるWebページの同一サイトの上位ディレクトリに存在する」、「監視対象となるWebページの同一サイトの上位ディレクトリに存在する」、「監視対象のWebページとの間に直接的、もしくは間接的な相互リンクが存在する」「ファイル名にデフォルトファイル名が含まれている」等である。
【0012】
このような複数の属性を基準にして、複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングする。ランキングの手法(何をキーとしてランキング行うか)は任意である。そしてランキングの結果から上位のランクにある複数のWebページをリンクオーソリティ候補として定める。ここで上位のランクにある複数のWebページの定め方は任意である。例えば予め定めた順位(例えば1位及び2位)に属するWebページを候補と定める方法を採用してもよいし、また上位30件以内に入るWebページを候補と定める方法を採用することができる。
【0013】
そして本発明の方法では、リンクオーソリティ決定ステップで、各Webページについてのリンク切れのリンクの数またはリンク切れではないリンクの数を求める。そしてこの数と各Webページにあるリンクの数と基づいてリンク切れの割合が少ない順にランキングを行い、ランキングの結果から上位のランクにある1以上のWebページをリンクオーソリティとして決定する。なお各Webページにあるリンクの数は、リンク切れのリンクの数またはリンク切れではないリンクの数を求める際に一緒に求めてもよいが、これらの数を求める場合とは、別に求めてもよい。一つのWebページにあるリンクが切れているか否かの確認作業は、時間と手間(アクセス作業、確認作業)を要する。本発明では、リンクオーソリティ候補として予め絞られた複数のWebページに関してだけ、この確認作業を行うため、収集したWebページのすべてについて確認作業を行う場合と比べて、リンクオーソリティの決定までの時間と労力を少ないものとすることができる。特に、リンク切れの割合が少ないことを基準にしてランキングすると、より適正なリンクオーソリティ(更新率の高いリンクオーソリティ)を決定できる。この場合、リンクオーソリティ決定ステップでは、リンクの数とリンク切れではないリンクの数の割合を反映した値をキーとしてランキングを行うことが好ましい。このようにすると、ランキングが容易になる上、ランキングの精度を高いものとすることができる。なおキーとする値は、種々の演算法を用いて演算することができる。例えば、リンクの数とリンク切れではないリンクの数の割合の相乗平均により求めた値をキーとしてランキングを行うと、ランキングの精度をより高めることができる。なおリンクオーソリティとして決定する上位のランクにある1以上のWebページの数は、例えば、リンク数等を参考にして定めればよく、リンク数が少ない場合には、上位の複数のWebページをリンクオーソリティとして用いればよい。
【0014】
本発明の方法をコンピュータを用いて実現する場合に用いるプログラムは、監視対象とするURLへのリンクを持つ複数のWebページを収集する収集機能と、前記複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定めるリンクオーソリティ候補決定機能と、複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定するリンクオーソリティ決定機能とをコンピュータに実現させるためのプログラムである。特にこのプログラムでは、リンクオーソリティ候補決定機能が、予め定めたリンクオーソリティとなり得るWebページが有する複数の属性を基準にして、リンクオーソリティ候補に含まれる複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングを行う機能と、ランキングの結果から上位のランクにある複数のWebページを前記リンクオーソリティ候補として定める機能を含む。そしてリンクオーソリティ決定機能が、上位のランクにある複数のWebページのそれぞれについて、リンク切れのリンクの数またはリンク切れではないリンクの数を求める機能と、この数と各Webページにあるリンクの数とに基づいてリンク切れの割合が少ない順にランキングを行う機能と、このランキングの結果から上位のランクにある1以上のWebページをリンクオーソリティとして決定する機能とを含む。
【0015】
また本発明の方法を実施するリンクオーソリティ決定装置は、監視対象とするURLへのリンクを持つ複数のWebページを収集するWebページ収集手段と、収集した複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定めるリンクオーソリティ候補決定手段と、複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定するリンクオーソリティ決定手段とからなる。そして特に、リンクオーソリティ候補決定手段は、予め定めたリンクオーソリティとなり得るWebページが有する複数の属性を記憶する属性記憶手段と、属性記憶手段に記憶された複数の属性を基準にして、リンクオーソリティ候補に含まれる複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングを行うランキング手段と、ランキング手段によるランキングの結果から上位のランクにある複数のWebページをリンクオーソリティ候補として定める候補決定手段を含む。またリンクオーソリティ決定手段は、上位のランクにある複数のWebページのそれぞれについて、リンク切れのリンクの数またはリンク切れではないリンクの数とを求める検索手段と、検索手段により求めた数と各Webページにあるリンクの数とに基づいてリンク切れの割合が少ない順にランキングを行うランキング手段と、ランキング手段によるランキングの結果から上位のランクにある1以上のWebページをリンクオーソリティとして決定する最終決定手段とを含む。なおWebページにあるリンクの数は、検索手段により一緒に求めてもよいが、別の手段により求めてもよい。
【発明の効果】
【0016】
本発明によれば、リンクオーソリティ候補として予め絞られた複数のWebページに関してだけ、リンク切れの確認作業を行うため、収集したWebページのすべてについて確認作業を行う場合と比べて、リンクオーソリティの決定までの時間を短くして、しかも決定に要する労力を少ないものとすることができる利点が得られる。
【発明を実施するための最良の形態】
【0017】
以下図面を参照して本発明のリンクオーソリティの決定方法及び装置の実施の形態の一例を詳細に説明する。実施の形態を説明する前に、図2を用いて本発明のリンクオーソリティ決定装置1の主要部を構成するLAサーバ(リンクオーソリティ・サーバ)を用いたリンク切れの自動修正について説明する。ここでLAサーバとは、あるWebページ(監視対象となるWebページ)のURLを「u」とした場合に、このuのリンクオーソリティと考えられる候補を決定するサーバである。実際には、リンクオーソリティを一気に求めることは困難であるため、LAサーバは複数のリンクオーソリティ候補を収集し、リンクオーソリティである可能性が高いと考えられる順にランキングしたページのURLのリストV=[v,v,...]を、結果として出力する。
【0018】
図3は、自動修正システムの構成(アーキテクチャ)を示す図である。リンクオーソリティ決定装置1として用いられるLAサーバ以外の構成は、既に発明者等が前述の論文で発表しているシステムである。簡単化のため、ここでは、システムが監視対象とするWebページ(リンク)はURL「u」で表されるただ一つのリンクに限定する。このシステムは監視対象としてのuがリンク切れであることを発見すると、新しいリンク先unewを発見し、unewに自動修正することを試みる。本システムの主要な構成要素は、対象となるリンクを監視するLIM(Link Intengrity Maintenance)サーバ、移動先のページのURLであるunewの候補集合Uを収集するチェーサー(Chaser)、Uに含まれる発見された各候補に対して「移動先らしさ」を表すスコアscoreを計算するマーカー(Marker)である。これらの動作をまとめた抽象アルゴリズムを図4に示す。このアルゴリズムは、簡単に説明すると次のようになる。(1)LIMサーバはuを監視する。リンク切れを発見すると次のようにチェーサー(Chaser)とマーカー(Maker)を呼び出す。(2)チェーサー(Chaser)は移動前のWebページuのコンテンツとURLの情報w用いて、Webサーチエンジンによる候補収集やロボットによるサイト内検索を用いた候補収集を行い、Uを作成する(4行目)。(3)Markerは各u∈Uに対し、主に移動前のWebページと候補先のWebページとの類似度やURLの関係などに基づいてスコアscoreを計算する(5~7行目)。(4)LIMサーバは、scoreを用いてUの中のuをランキングし、リストUを計算する(8行目)。
【0019】
LAサーバを追加した場合の処理は次のようになる。チェーサー(Chaser)はリンクオーソリティを含むリンク群を、移動先リンクunewの候補として新たにUを追加する。マーカー(Marker)はU中の候補ページのランキングの際に、もしそのページがリンクオーソリティとされているならば高いスコアを割り当てる。具体的には、候補ページが、LAサーバが求めたランキング上位5位までのリンクオーソリティ候補からリンクされている場合、元のscoreにある定数を掛けることにより、スコアを高くする。
【0020】
LIMサーバは、監視対象の各リンクに対して、利用者が(1)リンクオーソリティを明示的に指摘する手段と、(2)自動修正を行うためのスコアの閾値を明示的に指定する手段をそれぞれ備えている。(1)では、利用者によって明示的に指定されたリンクオーソリティを参照することにより、LIMサーバはそのリンクオーソリティに従ってリンクの自動修正を行うための閾値を指定することができる。LIMサーバは、この閾値を見て、もし指定された閾値より候補ページのスコアが大きい場合、発見されたリンクへの自動修正を行う。また、もし指定された閾値よりも候補ページのスコアが小さい場合、移動先候補の一覧ページを生成し、その生成されたページのリンクへ自動修正を行う。
【0021】
図5は、主として前述のLAサーバーによって構成される本発明のリンクオーソリティ決定装置1の実施の形態の構成の一例を示すブロック図である。そして図6は、リンクオーソリティ決定装置1を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。
【0022】
リンクオーソリティ決定装置1は、Webページ収集手段3と、リンクオーソリティ候補決定手段5と、リンクオーソリティ決定手段13とから構成される。Webページ収集手段3は、監視対象とするWebページのURL「u」へのリンクを持つ複数のWebページを、ネットワークNWを介して収集する。Webページ収集手段3は、例えば「u」へのリンクを持つページの集合を計算できるものであればどのような構成でもよい。図3の例では、チェーサー(Chaser)がこの手段の一部を構成している。収集には、例えば、クローラ(WWW巡回プログラム)を用いて収集する方法や、Webアーカイブなどを利用する方法や、Webサーチエンジンを利用する方法などが考えられる。具体的なLAサーバの実装では、次の(a)及び(b)によって収集を行うことができる。(a)Google Web Service API(商標)及びAlexs Web information Service API(商標)を用いて、uへのリンクを持つページを検索する。(b)クローラを用いて、uへのリンクを持つページがある可能性が高いと考えられる場所を探索する。すなわち(1)uと同じサイト内のページ、(2)uの属するサイトをサブドメインとして含むサイトに属するページ、(3)u中のリンクが指す先のページを探索する。したがって、必ずしもuにリンクを持つ全てのページが収集されるとは限らない。
【0023】
リンクオーソリティ候補決定手段5は、ランキング手段7と、属性記憶手段9と、候補決定手段11とを備えて、収集した複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定める。属性記憶手段9は、予め定めたリンクオーソリティとなり得るWebページが有する複数の属性を記憶する。この属性については、後に詳しく説明する。そしてランキング手段7は、属性記憶手段9に記憶された複数の属性を基準にして、リンクオーソリティ候補に含まれる複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングする。候補決定手段11は、ランキング手段7によるランキングの結果から、上位のランクにある複数のWebページをリンクオーソリティ候補として定める。
【0024】
またリンクオーソリティ候補決定手段13は、検索手段15と、ランキング手段17と最終決定手段19とを備えている。この実施の形態の検索手段15は、リンクオーソリティ候補中の上位のランクにある複数のWebページのそれぞれについて、各Webページにあるリンクの数と、リンク切れのリンクの数またはリンク切れではないリンクの数とを求める。なお各Webページにあるリンクの数については、検索手段15とは別の手段で求めるようにしてもよいのは勿論である。
【0025】
そしてランキング手段17は、検索手段15により求めた数(リンクの数とリンク切れのリンクの数またはリンク切れではないリンクの数)と各Webページにあるリンクの数に基づいてリンク切れの割合が少ない順にランキングを行う。さらに最終決定手段19は、ランキング手段17によるランキングの結果から、上位のランクにある1以上のWebページをリンクオーソリティとして決定する。
【0026】
ランキング手段7及びランキング手段17で行う候補のランキングが、リンクオーソリティ決定装置1の本質的な処理である。図7に示すように、リンクオーソリティ決定装置1が、uのリンクオーソリティ候補v∈VをランキングしV及びVを求める処理(1)及び(2)は、例えば次のように設計することができる。まず収集した複数のWebページvに対して、それぞれ図8の表に示した属性のうち、「値」の欄に「真偽」と記載した属性を有するかを判定し、ランキング手段7によりランキングを行う。これらの属性は、属性記憶手段9に記憶されている。
【0027】
次に図8の表に示した属性のうち、下から二つの属性「#L」と「B」に基づいてランキング手段17がランキングを行い、各vの「リンクオーソリティらしさ」を求める。
【0028】
図8の表に示した属性を決める際に用いるヒューリスティクス(解決法)の選択肢H1~H9について、具体的に説明する。以下の選択肢H1~H8が、直接的に図8の属性として表現されている場合もあるが、間接的に図8の属性として表現されている場合もある。
【0029】
H1:同一ディレクトリにuとvとが存在すれば、vはuへのリンクを確実に更新する可能性が高いと考えられる。
【0030】
H2:vがuに対して論理的に上位の存在である場合であり、この場合には、vはリンクオーソリティの可能性が高い。ここで論理的に上位の存在であるとは、例えばvが学科のページであるのに対して、uが学部のページであるといった場合である。しかし確実に更新される度合いは同一ディレクトリよりはやや劣ると考えられる。
【0031】
H3:vがuと同一サイトの上位ディレクトリに配置されている場合、vはuに対して論理的に上位の存在であることが多い。
【0032】
H4:vがuに対して論理的に上位の存在である場合、Webサイトの設計の方法によっては、vはuと同一ディレクトリ内のindex.htmlとして配置されることがある。
【0033】
H5:H1~H4より、vがuと同一ディレクトリに配置され、且つindex.htmlである場合はリンクオーソリティである可能性が非常に高い。
【0034】
H6:vとuとが直接的、間接的な相互リンクを持つ場合、vはリンクオーソリティである可能性が高い。ここで間接相互リンクとは、vとuとのサイトの間で、異なるページを介し互いにリンクをしているような関係を指す(図9)。
【0035】
H7:同一ディレクトリ内でvからvへリンクがあり、逆方向に存在しない場合、vがvに対して論理的に上位の存在であるとは考えにくい。
【0036】
H8:(H7と比較して)vとvとが同一ディレクトリに配置され、お互いに相互リンクが貼られている場合、これらの間の論理的な上位下位の関係は何ともいえない。なぜなら、「戻る」などのリンクが存在するからである。
【0037】
H9:リンク切れが多いページはリンクオーソリティとは考えにくい。このヒューリスティクスは他のヒューリスティクスH1~H8とは独立していると考えられる。
【0038】
ランキング手段7では、他とは独立していると考えられる上記H9を除いたヒューリスッティクスの選択肢(H1~H8)を考慮して図10のランキング付けパターン表を作成した。このパターン表の各項目はvの属性を現しており、各属性の説明は図8に示してある。図10において、黒丸はその属性が真であることを表し、空白は偽であることを表す。ハイフンはどちらでもよいことを表す。ランキング手段7におけるランキング処理では、収集された複数のWebページから選択されたWebページvが与えられると、まずこのパターン表を用いてvがどのパターンに属するのかを判定してランキング付けする。そして候補決定手段11は、ランキング結果に基づいて上位ランク(例えばランク1~ランク5)に属するWebページをリンクオーソリティ候補として決定する。なお一般に、同じランクを持つvは複数存在する。
【0039】
検索手段15は、上記H9を反映させるために、候補決定手段11が決定した候補となるWebページのそれぞれについて、そのWebページに設けられたリンク数とリンク切れではないリンクの数(またはリンク切れのリンクの数)を検索する。そしてランキング手段17は、リンクの数とリンク切れではないリンクの数の割合を反映した値をキーとしてランキングを行う。
【0040】
キーとして用いる値の演算方法としては、例えば、Webページに設けられたリンク数とリンク切れではないリンクの数との割合の相乗平均
【数1】
JP0004496370B2_000002t.gif

【0041】
を求めることが考えられる。本実施の形態では、この相乗平均をキーとして降順に並べるランキングを実行する。そしてランキングにより並べられた結果をVとする。最終決定手段19は、この結果Vの中か上位に位置する1以上のWebページをリンクオーソリティとして決定する。
【0042】
なおvが与えられたとき、図8に示した相互リンクの属性を求めるためには、uとvとの間に相互リンクがあるか否かを判断しなければならない。直接的な相互リンクを持つことは簡単に調べられるが、図9のような間接的な相互リンクを発見するためには多くのリンクを探索する必要がある。本来、この処理では図9のsiteとsiteとの両サイトの内部を探索しなければならない。しかし予め処理(1)によってvからuへリンクの存在が保証されていることを利用する。具体的にはsiteだけの探索を行い、site中のいずれかのページに対するリンクを発見すると、uとvとの間に間接的な相互リンクが存在するとみなす。これは厳密にいえばsiteのv’とv間のリンクの存在を保証しない近似的な処理であるが、これにより探索処理を半分にすることができる。
【0043】
次に図6に示したフローチャートを参照して本発明のリンクオーソリティの決定方法の実施の形態を、コンピュータを用いて実行する場合について説明する。本発明のリンクオーソリティ決定方法では、収集ステップ(ST1,ST2)と、リンクオーソリティ候補決定ステップ(ST3,ST4)と、リンクオーソリティ決定ステップ(ST5~ST10)とから構成される。収集ステップでは、監視対象とする複数のWebページから1つのWebページを選択し(ST1)、このWebページを監視対象として、このWebページのURLへのリンクを持つ複数のWebページを収集する(ST2)。次にリンクオーソリティ候補決定ステップでは、収集した複数のWebページの中から予め定めた条件を満たす複数のWebページをリンクオーソリティ候補として定める。そのために、まず予めリンクオーソリティとなり得るWebページが有する複数の属性を定める。実際には事前に定めて記憶した属性を用いる。次に複数の属性を基準にして、複数のWebページをリンクオーソリティとして利用可能性が高いと推測される順にランキングする(ST3)。ランキングの手法は任意である。そしてランキングの結果から上位のランクにある複数のWebページをリンクオーソリティ候補として定める(ST4)。ここで上位のランクにある複数のWebページの定め方は任意であり、例えば予め定めた順位(例えば1位及び2位)に属するWebページを候補と定める方法を採用してもよいし、また上位30件以内に入るWebページを候補と定める方法を採用することができる。
【0044】
次に、リンクオーソリティ決定ステップでは、リンクオーソリティ候補に含まれる複数のWebページの中からリンク切れを修正するために利用可能なリンクオーソリティを決定する。まず上位のランクにある複数のWebページのそれぞれについて、リンク切れのリンクの数またはリンク切れではないリンクの数を求める(ST5,ST6)。そしてこの数と各Webページにあるリンクの数とに基づいてリンク切れの割合が少ない順にランキングを行い(ST9)、ランキングの結果から上位のランクにある1以上のWebページをリンクオーソリティとして決定する(ST10)。なお本実施の形態では、各Webページにあるリンクの数は、リンク切れのリンクの数またはリンク切れではないリンクの数を求めるときに一緒に求めている。
【0045】
ランキングのために、具体的には、各Webページにあるリンクの数とリンク切れではないリンクの数の割合を反映した値(本実施の形態では相乗平均の演算値)を演算する(ST7)。すべての候補について、演算を実行し、その後この値(相乗平均の演算値)をキーとしてランキングを行う(ST9)。そしてランキングの上位にある1以上のWebページをリンクオーソリティとして決定する(ST10)。リンクオーソリティとして決定する上位のランクにある1以上のWebページの数は、例えば、リンク数等を参考にして定めればよく、リンク数が少ない場合には、上位の複数のWebページをリンクオーソリティとして用いればよい。一つのWebページにあるリンクが切れているか否かの確認作業は、時間と手間(アクセス作業、確認作業)を要する。そこで本実施の形態では、リンクオーソリティ候補として予め絞られた複数のWebページに関してだけ、この確認作業を行う。そのため、収集したWebページのすべてについて確認作業を行う場合と比べて、本発明によれば、リンクオーソリティの決定までの時間と労力を少ないものとすることができる。特に、リンク切れの割合が少ないことを基準にしてランキングすると、より適正なリンクオーソリティ(更新率の高いリンクオーソリティ)を決定できる。図6のアルゴリズムからなるプログラムにおいて、ステップST2によってWebページ収集機能が実現され、ステップST3によりランキング機能が実現され、ステップST4によってリンクオーソリティ候補を定める機能が実現され、ステップST5及びST6によってリンクの数を求める機能が実現され、ステップST7からステップ法ST9によってランキング機能が実現され、ステップST10でリンクオーソリティを決定する機能が実現されている。
【0046】
次に、本発明の実施の形態を用いて実験を行った結果について説明する。リンクオーソリティ決定装置によって発見されたリンクオーソリティを利用することにより、リンク切れ自動修正システムの移動先発見精度はどのように変わるか検証を行った。
この実験ではまず、筑波大学、芝浦工業大学、北海道大学、東北大学、東京大学、名古屋大学、京都大学、大阪大学、九州大学の計9大学のドメインに属するサイトの中に含まれるリンクを収集した。本実験で監視対象とするリンクは、これらの収集したリンクのうち、リンク元とリンク先が異なるサイトであるようなリンク(合計49750個)である。したがって、リンクが指している先は学内のサイトとは限らない。監視対象をこれらのリンクに絞った理由は、リンク先とリンク元とが異なるサイトであればリンク切れが発生する確率が高いと考えたためである。
【0047】
これらのリンクを対象に2005年1月9日より実験を行った。2005年2月4日時点で、LIMサーバは監視対象のうち146個のリンク切れを発見した(図11)。このうちWebページ移動によって生じたと考えられるリンク切れは47個存在した。ここで、ページ移動によるリンク切れとの判断は次のように行った。つまり、LIMサーバ探索ログなどを基に、様々な方法で移動先の探索を行い、移動先と考えられるページが発見できたものを移動ページとした。ここで移動先発見が成功した場合とは、LIMサーバが出力した結果の上位3位以内に正しい移動先が含まれている場合とした。
【0048】
まず、移動先の探索結果を図12に示す。図における「LAサーバなし」の行はLAサーバを利用せず、「LAサーバあり」の行はLAサーバを利用して探索を行った結果である。LAサーバを利用せずに移動先の発見に成功したものは28個、失敗したものは19個、成功率は59.6%であった。それに対してLAサーバを利用した場合は、移動先の発見に成功したものは34個、失敗したものは13個、成功率は72.3%となった。この結果から見て分かるとおり、LAサーバを利用することにより、ページの移動先発見数が21%増加した。
【0049】
一方で、LAサーバを利用しても移動先の発見ができなかったものが13個存在した。そこで、実験において発見されたWebページ移動に伴うリンク切れ47個についてLAサーバが出力するログなどからLAサーバの探索結果についての分析を行った(図13)。
【0050】
その結果、LAサーバがリンクオーソリティと考えられるページを発見でき、正しく更新されているページは47個中12個(図13e)であった。残る35個については図13a~dのように分析した。以下に分類毎の原因の検証を行う。
【0051】
分類a:この分類に当てはまるものは18個存在した。これは今回の実験で利用したリンクオーソリティ候補収集の手法が原因であると考えられる。本来、リンクオーソリティ候補群Vとしては、uに対してリンクを貼っている全てのページが収集されるべきである。しかし、今回実験で用いたリンクオーソリティ候補の収集手法ではすべてのページを収集していないためである。
【0052】
分類b:この分類に当てはまるものは14個存在した。これは上述のaと同様の理由も考えられる。しかし、全てのWebページにリンクオーソリティが存在するわけではないとも考えられる。つまり、リンクオーソリティ候補の収集手法の追加や改良を行ってもこのパターンに該当するものを限りなく減少させることは不可能であると考えられる。
【0053】
分類c:実験ではこのパターンは存在していない。本実験の結果より、前述のリンクオーソリティ候補ランキングのヒューリスティクスが適切だったと考えることができる。この分類に当てはまるものが増加するようであれば、リンクオーソリティ候補のランキングヒューリスチクスの見直しが必要である。
【0054】
分類d:この分類に当てはまるものは3個存在した。これは、Webページの移動が発生してから、リンクオーソリティが持つリンクを参照するまでの時間が短かったためと考えられる。正しいリンクオーソリティは、Webページの移動に伴いリンクを正しく修正すると考えられるが、それがページ移動が起こった直後に行われるとは限らない。この分類に当てはまるものは、ページ移動後、ある程度時間が経過した後にリンクオーソリティが有効に機能するのではないかと考えられる。
【0055】
本実験では、特に分類aと分類bとに該当するものが多く存在した。この原因は、本実験で利用したLAサーバのリンクオーソリティ候補Vの収集手法に偏りがあったものと考えられる。リンクオーソリティ候補vを効率的に収集するために、候補収集の手法を次に示す手順で行うことが好ましい。
【0056】
手順1:全ての監視対象のURLに対してAlexa Web information Seveice API(商標)を用いて、uへのリンクを持つページを収集。
【0057】
手順2:全ての監視対象のURLに対してGoogle Web Service API(商標)を用いて、uへのリンクを持つページを収集。
【0058】
手順3:全ての監視対象のURLに対してクローラを用いてuへのリンクを持つページがある可能性が高いと考えられる場所からの収集。
【0059】
上記実験結果では、手順1を用いた収集しか行っていない。そのため、候補の収集が必ずしも十分なものとならなかったものと考えられる。
【0060】
また、LAサーバによってリンクオーソリティと考えられるページが発見されていた12個については、ページ移動先の発見に及ぼした影響について検討した(図14)。その結果、「リンクオーソリティが発見されていなければ、正しい移動先を上位3位以内にランキングできなかった」というものが2個存在した。つまり、LAサーバを利用することで、これまでのLIMサーバだけでは発見できない移動先を発見することができた。その一方で、「リンクオーソリティは発見できたが、正しい移動先を上位3位以内評価できなかった」というものが1個存在した。しかし、これは、LIMサーバによる移動先候補の評価手法の問題であり、LAサーバの問題ではなかった。
【0061】
上記の実験結果と検討から分かるように本発明の方法及び装置の実施の形態によれば、従来と比べて、短時間の内に高い精度でリンクオーソリティを決定できることが分かる。
【図面の簡単な説明】
【0062】
【図1】リンクオーソリティの考え方を説明するための図である。
【図2】リンクオーソリティ決定装置の概要を説明するために用いる図である。
【図3】自動修正システムの構成(アーキテクチャ)を示す図である。
【図4】LIMサーバの基本動作を説明するためのアルゴリズムを示す図である。
【図5】主として前述のLAサーバーによって構成される本発明のリンクオーソリティ決定装置の実施の形態の構成の一例を示すブロック図である。
【図6】リンクオーソリティ決定装置をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。
【図7】リンクオーソリティ決定装置の処理を説明するために用いる図である。
【図8】属性の内容を示す図である。
【図9】間接相互リンクを説明するための図である。
【図10】ランキング付けパターンの表を示す図である。
【図11】実験期間内に発生したリンク切れの数を示す図である。
【図12】移動先の探索結果を示す図である。
【図13】リンクオーソリティの探索結果の分類を示す図である。
【図14】移送先探索におけるリンクオーソリティを利用した影響を示す図である。
【符号の説明】
【0063】
1 リンクオーソリティ決定装置
3 Webページ収集手段
5 リンクオーソリティ候補決定手段
7 ランキング手段
9 属性記憶手段
11 候補決定手段
13 リンクオーソリティ決定手段
15 検索手段
17 ランキング手段
19 最終決定手段
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13