めも:公開されていない URL の取り扱い

AboutWorks.com には、どこからもリンクされていないリソースがある。今のところ、 GoogleYahoo! からもリンクされていないっぽい。(というか、リンクされてるのを発見したら連絡ください。お願いします。)完成したら、目次からリンクしようかなと思って、何年か前に作成したんですけど、未完成のまま、放置してあるものです。それは、「CSS でイケてるデザインサイト網羅」というタイトルのリソースで、2ちゃんねるWeb制作板【CSS でイケてるデザインサイト】に記載された URL のうち、明らかな宣伝を除いたものを一覧にしたものなんですけど、当然、当該サイト内で他のリソースからのリンクはされていません。

ウェブ サーバーへのリンクを公開しなくても、そのサーバーの存在を隠しておくことはほぼ不可能です。 ユーザーが "非公開" のサーバーから他のウェブ サーバーへリンクをたどると、"非公開" の URL が参照タグ内に含められ、別のサーバーによって参照ログの形で保存、公開される可能性があります。 非公開のサーバーやページでもウェブ上の他のサイトなどからリンクが張られていれば、Googlebot や他のウェブ クローラにクロールされる可能性があります。

扨、Google には、上記のようなコトが書かれているわけです。で、 非公開のサーバーやページでもウェブ上の他のサイトなどからリンクが張られていれば クロールされるワケですが、ということは、リンクが一切無ければクロールされないんぢゃないかと。

Google が辿るリンクは、【ウェブマスター向けヘルプ センター - Googlebot がたどるリンクとはどのようなものですか。】にあるように、src と href であり、それ以外の方法でリンク(或いは参照)された URL についてはクロールしないという解釈かなーと思う。

ということは、どこからもリンクされていないリソースの URL って、公開されていない URL だと思う。

まあ、検索エンジンGoogle だけぢゃないので、ランダムな文字列で生成される URL の全てを絨毯クロールするモノがあったら、いずれ発見されるんぢゃないかとは思うわけだけど、今のトコロその気配はない。現状、公開されたリソースからのリンクがあれば、Google も拾うはずなので、それがないというコトは、まだドコにも拾われていないんぢゃないかと思うんですけど、どうなんでしょう。ただ、中身はリンクだらけなので、アンカーをクリックしていくと、そのうち何処かのシステムにリファラを拾われてリンクされるかもしれないので、完全というわけでもないんだけど。

で、この公開されていない URL の取り扱いなんですけど、【不正アクセス行為の禁止等に関する法律】で保護されるかなあ?そんなわけないとは、思うんだけど。もっとも、件のリソースの中身には、「秘密」とか、「公開禁止」とか「リンク禁止」とか書いてないし、ロボット除けの meta タグもないので、公開されても文句が言えないんですけどね。

ブラウザのアドレスバーに適当に打った URL は、DNS サーバによって、IP アドレスに変換されて、当該コンピュータに接続されて、ディレクトリやファイルを参照して、それが無ければ「無いよ」と返事して、有ればそのファイルなりを処理して、有るけれどアクセス制限があれば「合言葉は?」とか聞いてくる。んーと、このアクセス制限がかかっていない場所、ソコは即ち公開されている場所という認識。

いずれにしても URL を叩けば、なにがしかの反応があるわけで、『公開されていない URL 』というモノは有り得ないでイイのかな。

とりあえずココまで。というか、特にナニも考えてない、ただの羅列文章。

ていうか、ものすごく簡単に発見できるような気がする……。ついでに、件のリソースを発見した人は、コメント欄に連絡ください。