クローラロボットの挙動の制御 robots.txt
■「robots.txt」を使ったクローラロボットの制御
「robots.txt(ロボットテキスト)」を使う事によってクローラロボットの巡回の許否をディレクトリ単位・ファイル単位で制御する事が「期待」出来ます。
巡回の許否を期待するための「robots.txt」は以下のような書式で書かれます。
User-Agent: ロボット名 A
Disallow: 禁止ディレクトリ・ファイルのパス B
Aは対象とするクローラロボットを指定している行です。クローラロボットの名前は通常は検索サイト内において公開されいます。全てのロボットを指定する場合は「*(アスタリスク)」を記述します。
Bは巡回を禁止するディレクトリ・ファイルを指定している行です。ルートディレクトリからの相対パスを記述します。全てのディレクトリを指定する場合は「/」を記述します。
以下は「robots.txt」の記述の一例です。
// 全ての検索エンジンのクローラロボットに対して
// 全てのディレクトリの巡回禁止を期待。
User-Agent: *
Disallow: /
// Googleのクローラロボット(Googlebot)に対して
// 「cgi」ディレクトリの巡回禁止を期待。
User-Agent: Googlebot
Disallow: /cgi/
// YST(Yahoo!)のクローラロボット(Slurp)に対して
// 「links/index.html」ファイルの巡回禁止を期待。
User-Agent: Slurp
Disallow: /links/index.html
■複数の禁止ディレクトリ・ファイルを指定する
複数の禁止ディレクトリ・ファイルを指定する場合は以下のように記述します。
User-Agent: ロボット名
Disallow: 禁止ディレクトリ・ファイルのパス 1
Disallow: 禁止ディレクトリ・ファイルのパス 2
Disallow: 禁止ディレクトリ・ファイルのパス 3
......
以下は複数の禁止ディレクトリ・ファイルを指定する記述の一例です。
// 全ての検索エンジンのクローラロボットに対して
// 「cgi」、「javascript」ディレクトリの巡回禁止を期待。
User-Agent: *
Disallow: /cgi/
Disallow: /javascript/
// Googleのクローラロボット(Googlebot)に対して
// 「css」、「material」、「error」ディレクトリの巡回禁止を期待。
User-Agent: Googlebot
Disallow: /css/
Disallow: /material/
Disallow: /error/
「Allow(許可)」を使う事で次のような指定も出来ます
// Googleのクローラロボット(Googlebot)に対して
// 「links」ディレクトリの巡回禁止を期待。
// 但し、「links/index.html」ファイルの巡回は禁止しない。
User-Agent: Googlebot
Disallow: /links/
Allow: /links/index.html
■複数のロボットを指定する
複数のロボットを指定する場合は以下のように記述します。
User-Agent: ロボット名 1
Disallow: 禁止ディレクトリ・ファイルのパス 1
Disallow: 禁止ディレクトリ・ファイルのパス 2
Disallow: 禁止ディレクトリ・ファイルのパス 3
(空行)
User-Agent: ロボット名 2
Disallow: 禁止ディレクトリ・ファイルのパス 1
Disallow: 禁止ディレクトリ・ファイルのパス 2
Disallow: 禁止ディレクトリ・ファイルのパス 3
......
以下は複数のクローラロボットを対象にした記述の一例です。
// 全ての検索エンジンのクローラロボットに対して
// 全ディレクトリの巡回禁止を期待。
// 但し、Googleのクローラロボット(Googlebot)に対しては
// 「cgi」、「css」ディレクトリのみ巡回禁止を期待し、
// YST(Yahoo!)のクローラロボット(Slurp)に対しては
// 「material」、「css」ディレクトリのみ巡回禁止を期待。
User-Agent: *
Disallow: /
(空行)
User-Agent: Googlebot
Disallow: /cgi/
Disallow: /css/
(空行)
User-Agent: Slurp
Disallow: /material/
Disallow: /css/
■ロボットテキストの利用方法
書式に従って記述したドキュメントに「robots.txt」と言う名前を付けて保存し、ルートディレクトリにアップロードします。