2003年11月13日

Webはどのくらい更新されているのか?このエントリーを含むはてなブックマークこのエントリーをはてなブックマークに追加


スポンサード リンク

「ホームページってどれくらいの頻度で更新したらいいんでしょう?みなさんどの程度の頻度で更新されていますか?」。96年頃、Webコンサルティングの仕事を始めた私は、企業Webサイトやオンラインショップ制作の相談の最終段階で、担当者から、こんな質問をよく受けた。答えは「更新の必要のあるときに」「競合サイトのペースを考慮して」「できるだけ頻繁に」。

この答え方は間違ってはいなかったと思うが、一般的にWebページがどのくらいの頻度で更新されているものなのか、最近まで、私は知らなかった。世の中には何十億ものWebページがあって、それぞれが異なるペースで必要に応じて更新されていく。その世界レベルでの平均値は?何か法則はあるのか?答えられる人はいるのか?

米国マイクロソフトリサーチが、この難問に答えを出す興味深い調査報告を出しているので今日はその話。意外な発見続出である。

・A Large-Scale Study of the Evolution of Web Pages(全文)
http://research.microsoft.com/aboutmsr/labs/siliconvalley/pubs/p97-fetterly/p97-fetterly.html

研究グループは、150,836,209(1億5千万)ページのHTMLの更新状況を調べるために更新監視のロボットを作り、11週間の間に、週一回間隔で更新をチェックした。またランダムに選んだ0.1%のURLについてはテキスト全文を保存して詳細に分析を行った。彼らは、更新頻度だけでなく、更新された場合のページのテキストの変わり具合、変化の大きさにも着眼している。

・大半のWebページは更新されたとしても変化の大きさは小さなものである

更新されるページがまるで別物になるわけではなく、小さな記述の変更や追加が多い。

・Web全体の4分の1が毎日更新、.comドメインは6割が毎週更新する

全体の4分の1のページは毎日更新されている。.comドメインの6割が毎週更新される。ドメインとページサイズと更新頻度には、ある種の相関があることも判明する。

・Webページのサイズの平均値は4〜32キロバイトであった

この数値はWeb制作にも参考になるデータである。教育機関(.edu)のドメインでは、少し小さくて、2〜16キロバイトが平均となった。

・ダウンロード不能な状態になる確率が判明した

最初の週では存在していたのに、11週間の間にサーバがなくなったり、リンクが切れたりしてダウンロードできなくなるページの確率は12%。次にページを見に行ったときに確実に存在しているという意味での信頼性としては.org>.de>.edu>.jp>全体平均>.com>.netの順。.jpドメインの方が.comドメインよりもなくなる可能性が低く信頼性が高いが.de(ドイツ)には両者とも負けていることも分かった。ドイツ人管理者はやはりまじめなのだろうか?。

・文書サイズから更新頻度と変化の大きさをかなりの精度で予測できることが分かった

大きなサイズのページほど更新頻度が高く、大きく内容が変化する。本来は小さなサイズのページはそこに含まれる総単語数が少ないので、内容に少しでも変更が加えられると相対的に変化の大きさは、大きくなるはずだが、それにも関わらず、大きなサイズのページの方が大きく変化している。

・更新頻度を予測するには、前回の更新間隔が有効な判断材料となる

これは当たり前だが、前回に3日間隔で更新されたページは次回も3日後に更新される可能性が高いということ。Googleの巡回ロボットもこの予測アルゴリズムでWebを巡回している。毎日更新されるニュースサイトには頻繁に訪れ、固定的な企業の案内ページは一カ月おきに訪問するなど。

さて、この実験はまだ先があり、こうしてダウンロードしたWebのテキストのパターンの類似性を研究したのがこちら。

・On the Evolution of Clusters of Near-Duplicate Web Pages(全文)
http://research.microsoft.com/research/sv/PageTurner/laweb.pdf

こちらでもスゴイことが分かる。ソックリなページというのがたくさんあるのだ。

URLホスト名数マシン数説明代表となるURL
92137462863ポルノサイトhttp://fr.gncix.cc/page1.html
315788335199 (+ 2)著名なダウンロードサイトhttp://games.fastnet.it/news.html
2018691515ヘルスフードストアhttp://www.usrma.com/vitamins/jodahl/jodahl.htm
11853042車のディレクトリhttp://www.100topauto.com/SiteMap
1004281197714ポルノhttp://hot.fuckjpg.com/
926294390631422 (+ 1306)「Untitled document」というタイトルhttp://gc.dk/
出典:上記のURLの論文のTable1から上位6位を引用、訳。

トップのポルノサイトはほぼ同じコンテンツを92万のURL、6286台のホスト名でアクセス可能にしている(実際には3台のサーバマシンで稼動している)ことが分かる。2位はダウンロードサイトで、付加分散のために同一のコンテンツを複数サーバにおいている例だから別としても、大半は宣伝目的で検索エンジンにひっかかりやすくするための工夫だ。

しかもこれは特殊な例ではない。なんと実にWeb全体の28%が他のサイトのこうした複製だというのだ。ここまでWebスパムは進んでいるのか、としみじみ分かる。

この二つの論文は、Webの現状を大規模な量から見るという、いつもとは違った側面を教えてくれる。成果は、Webを巡回するロボットの効率化などに使われているらしい。

Webの更新の研究は、業界ごとの企業サイトの更新頻度だとか、ページのサービス内容(企業案内、社長の挨拶、サポートページ、商品カタログ、著作権表示など)ごとに調べるとさらに面白いことが分かりそうだ。最も、そんな数字が公開されてしまうと、業界平均を下回るサイトのウェブマスターは涙モノであるが...。


スポンサード リンク

Posted by daiya at 2003年11月13日 23:59 | TrackBack このエントリーを含むはてなブックマークこのエントリーをはてなブックマークに追加
Daiya Hashimoto. Get yours at bighugelabs.com/flickr
Comments