如何使用 robots.txt
- WordPress
- Joomla
- Magento
robots.txt 文件的目的是什么?
当搜索引擎爬取(索引)您的网站时,大多数都会查找您的 robots.txt 文件。不过也有一些例外。该文件告诉搜索引擎哪些内容应该被索引(保存并作为搜索结果向公众展示),哪些内容不应该被索引。它还可能指示您的 XML 网站地图的位置。然后,搜索引擎会派出它的“机器人”或“爬虫”按照 robots.txt 文件中的指示爬取您的网站(如果您禁止爬取,则不会派出机器人)。
Google 的机器人叫做 Googlebot,微软的机器人叫做 Bingbot。许多搜索引擎,如 Excite、Lycos、Alexa 和 Ask Jeeves,也有自己的机器人。大多数机器人来自搜索引擎,但有时其他网站也会派出机器人执行各种任务。例如,有些网站可能要求您在网站上放置代码以验证您拥有该网站,然后它们会派出机器人检查您是否放置了该代码。
robots.txt 文件放在哪里?
robots.txt 文件应放置在您的文档根目录下。您可以简单地创建一个空白文件并命名为 robots.txt。这样可以避免网站错误,并允许所有搜索引擎对您的内容进行排名。
如何阻止机器人和搜索引擎爬取
如果您想阻止机器人访问您的网站,阻止搜索引擎对您的网站进行排名,请使用以下代码:
# 不允许任何搜索引擎访问的代码!
User-agent: *
Disallow: /
您也可以阻止机器人爬取网站的部分区域,同时允许它们爬取其他部分。下面的示例请求搜索引擎和机器人不要爬取网站中的 cgi-bin 文件夹、tmp 文件夹、junk 文件夹及这些文件夹中的所有内容。
# 阻止机器人访问特定文件夹/目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
在上述示例中,http://www.yoursitesdomain.com/junk/index.html 将被阻止爬取;但 http://www.yoursitesdomain.com/index.html 和 http://www.yoursitesdomain.com/someotherfolder/ 则可以被爬取。
请记住,robots.txt 就像一个“禁止入内”的标志。它告诉机器人您是否允许它们爬取您的网站,但并不真正阻止访问。守规矩且合法的机器人会遵守您的指令,而恶意机器人可能会无视 robots.txt。
Google 和微软
Google 和微软不遵守 robots.txt 标准。您可以创建 Google 和微软账户,并配置您的域名以降低爬取延迟。请阅读 Google 关于 robots.txt 文件的官方立场。您必须使用 Google 的站长工具来设置大多数 Googlebot 的参数。
我们仍然建议配置 robots.txt 文件。这将减少爬虫发起请求的频率,降低系统资源消耗,从而为更多合法流量提供服务。
如果您想减少 Yandex 或百度等爬虫的访问量,通常需要通过类似 .htaccess 的方法进行阻止。
有关这些主题的更多详细信息,请参考以下链接:
- 告诉 Google 多久爬取一次您的网站
- 告诉微软多久爬取一次您的网站
- 更改 Google 的爬取频率
- 关于 /robots.txt