Google などの検索サービスは,自動的に世界中のWebページを巡回してデータベースに登録しています。このような自動巡回ソフトのことをクローラまたはロボットといいます。
このような検索サービスはたいへん便利ですが,自分のページを検索サービスに登録したくない場合もあります。たとえば私的な予定表のページなどは,データベースに登録してもらっても,他の人の役に立つとは思えません。こういうページは,頭のところにロボット除けの護符を置いておきます。
具体的には,<head>
と </head>
で囲まれたところのどこかに
<meta name="robots" content="noindex,nofollow">
と書いておきます。noindex
は「このページをデータベースに登録するな」という意味,nofollow
は「このページから先はリンクをたどるな」という意味です。
すべてのロボットがこの仕組みで退散してくれるわけではありませんが,少なくとも Google は大丈夫のようです。
Google ではさらに noarchive
という指定をするとキャッシュされなくなります。
サイト全体をロボット禁止にするなら,サイトのドキュメントルートディレクトリに robots.txt
というファイルを置き,それに次のように書いておきます。
User-agent: *
Disallow: /
←空行
特定の(いくつかの)ディレクトリ(フォルダ)だけ禁止するには次のようにします。
User-Agent: *
Disallow: /docs/
Disallow: /mirror/
Disallow: /photo/
←空行
最後に空行を置くというルールは最近あまり見ないので,今は必要ないかもしれません。
robots.txt
がないとWebサーバのエラーログにたくさん「robots.txt
が見つからない」というエラーが入ることがあります。これが嫌なら,空の robots.txt
を作っておけばいいでしょう。
Last modified: