Googlebotはリンクをだとって色々なページにクロールすると言われています。しかしながらこのBlogに関しては、クロールがあったページはトップページにリンクがあったページのみです。他のページもインデックスには登録されているのですが、そのページのリンクからはGooglebotは一度もクロールに行っておりません。
おそらく効率的にクロールするために、そのクロールの元となるページはインデックスに登録されたページのうちの一部だけになっているのだろうと思います。それがこのBlogではBlogのトップページしか無いということなのでしょう。これが他にもクロールの元となるページとして登録されていれば、10/12の投稿のような一回の変なクロールの結果でインデックスから削除というのも起こりにくいように思います。
では、クロールの元となるページと、ならないページの違いは何なのでしょうか。色々ググってみて調べてみたのですが、このあたりについて記述しているサイトは見つかりませんでした。分からない、だけでは先に進まないので、とりあえず仮説を立てて実験したいと思います。
● 仮説
クロールの元となるページは一つの階層(ディレクトリ)に1ページである。そのページはページ名を省略したときのウェルカムページである。
すなわち、このBlogでは静的URLにする際に全てnucleusディレクトリ内の同じ階層になってしまっているので、クロールの元となるページはトップページだけになってしまっているという訳です。
まあこの仮説は全くのあてずっぽうという訳ではありません。何度か述べていますように、このBlogにはフレッシュクロールが来ず(一度来たと投稿しましたが、結局その一度きりだった)Googleからはサブディレクトリ扱いされております。しかしながら、そのサブディレクトリ扱いでもBlogトップページからはクロールが発生しているところを見ますと、ディレクトリが変わればそのディレクトリ内で新たにクロール用にリンクを取得している可能性が高いように思えます。
しかしこれはあくまで仮説ですので、その仮説が正しいかどうかを実験したいと思います。現在ほとんどインデックスに登録されていない2004年7月分の投稿だけ、別のディレクトリからアクセスできるようにします。'nucleus'ディレクトリの下に'2004-07'というディレクトリを作成し、そのウェルカムページに2004年7月分の投稿一覧のページを作成しました。そしてこの投稿一覧ページにある各投稿のリンクは、'/nucleus/item-nnn.html'ではなく、'/nucleus/2004-07/item-nnn.html'として、見かけ上、各投稿が'2004ー07'ディレクトリの下にあるようにしています。
2004年7月分の投稿は元々livedoorで運用していたときに投稿したものを再登録しただけですので、このURLに対する外部からのリンクはほとんどありません。したがってGoogleのインデックスに登録されれば仮説が正しいことになり、登録されなければ正しくないことになります。
ただし登録されるまでは、
・'/nucleus/2004-07/'へのリンクがあるトップページがクロールされる。
・トップページのリンクをたどって、投稿一覧ページがクロールされる。
・投稿一覧ページのリンクたどって、各投稿ページがクロールされる。
と3ステップもありますので、結果が分かるまではしばらくかかるかと思います。そのためしばらくはこのままで様子見をしたいと思います。
※追記
nucleusディレクトリの直下にitemsディレクトリを作成し、その下にyyyy-mmディレクトリを作成することに変更しました。
おそらく効率的にクロールするために、そのクロールの元となるページはインデックスに登録されたページのうちの一部だけになっているのだろうと思います。それがこのBlogではBlogのトップページしか無いということなのでしょう。これが他にもクロールの元となるページとして登録されていれば、10/12の投稿のような一回の変なクロールの結果でインデックスから削除というのも起こりにくいように思います。
では、クロールの元となるページと、ならないページの違いは何なのでしょうか。色々ググってみて調べてみたのですが、このあたりについて記述しているサイトは見つかりませんでした。分からない、だけでは先に進まないので、とりあえず仮説を立てて実験したいと思います。
● 仮説
クロールの元となるページは一つの階層(ディレクトリ)に1ページである。そのページはページ名を省略したときのウェルカムページである。
すなわち、このBlogでは静的URLにする際に全てnucleusディレクトリ内の同じ階層になってしまっているので、クロールの元となるページはトップページだけになってしまっているという訳です。
まあこの仮説は全くのあてずっぽうという訳ではありません。何度か述べていますように、このBlogにはフレッシュクロールが来ず(一度来たと投稿しましたが、結局その一度きりだった)Googleからはサブディレクトリ扱いされております。しかしながら、そのサブディレクトリ扱いでもBlogトップページからはクロールが発生しているところを見ますと、ディレクトリが変わればそのディレクトリ内で新たにクロール用にリンクを取得している可能性が高いように思えます。
しかしこれはあくまで仮説ですので、その仮説が正しいかどうかを実験したいと思います。現在ほとんどインデックスに登録されていない2004年7月分の投稿だけ、別のディレクトリからアクセスできるようにします。'nucleus'ディレクトリの下に'2004-07'というディレクトリを作成し、そのウェルカムページに2004年7月分の投稿一覧のページを作成しました。そしてこの投稿一覧ページにある各投稿のリンクは、'/nucleus/item-nnn.html'ではなく、'/nucleus/2004-07/item-nnn.html'として、見かけ上、各投稿が'2004ー07'ディレクトリの下にあるようにしています。
2004年7月分の投稿は元々livedoorで運用していたときに投稿したものを再登録しただけですので、このURLに対する外部からのリンクはほとんどありません。したがってGoogleのインデックスに登録されれば仮説が正しいことになり、登録されなければ正しくないことになります。
ただし登録されるまでは、
・'/nucleus/2004-07/'へのリンクがあるトップページがクロールされる。
・トップページのリンクをたどって、投稿一覧ページがクロールされる。
・投稿一覧ページのリンクたどって、各投稿ページがクロールされる。
と3ステップもありますので、結果が分かるまではしばらくかかるかと思います。そのためしばらくはこのままで様子見をしたいと思います。
※追記
nucleusディレクトリの直下にitemsディレクトリを作成し、その下にyyyy-mmディレクトリを作成することに変更しました。
No comments yet
Add Comments
Trackbacks
Trackback URL
|
最高気温33℃