如何使用 robots.txt

WordPress
Joomla
Magento

robots.txt 文件的目的是什么？

当搜索引擎爬取（索引）您的网站时，大多数都会查找您的 robots.txt 文件。不过也有一些例外。该文件告诉搜索引擎哪些内容应该被索引（保存并作为搜索结果向公众展示），哪些内容不应该被索引。它还可能指示您的 XML 网站地图的位置。然后，搜索引擎会派出它的“机器人”或“爬虫”按照 robots.txt 文件中的指示爬取您的网站（如果您禁止爬取，则不会派出机器人）。

Google 的机器人叫做 Googlebot，微软的机器人叫做 Bingbot。许多搜索引擎，如 Excite、Lycos、Alexa 和 Ask Jeeves，也有自己的机器人。大多数机器人来自搜索引擎，但有时其他网站也会派出机器人执行各种任务。例如，有些网站可能要求您在网站上放置代码以验证您拥有该网站，然后它们会派出机器人检查您是否放置了该代码。

robots.txt 文件放在哪里？

robots.txt 文件应放置在您的文档根目录下。您可以简单地创建一个空白文件并命名为 robots.txt。这样可以避免网站错误，并允许所有搜索引擎对您的内容进行排名。

如何阻止机器人和搜索引擎爬取

如果您想阻止机器人访问您的网站，阻止搜索引擎对您的网站进行排名，请使用以下代码：

# 不允许任何搜索引擎访问的代码！
User-agent: *
Disallow: / 

您也可以阻止机器人爬取网站的部分区域，同时允许它们爬取其他部分。下面的示例请求搜索引擎和机器人不要爬取网站中的 cgi-bin 文件夹、tmp 文件夹、junk 文件夹及这些文件夹中的所有内容。

# 阻止机器人访问特定文件夹/目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

在上述示例中，http://www.yoursitesdomain.com/junk/index.html 将被阻止爬取；但 http://www.yoursitesdomain.com/index.html 和 http://www.yoursitesdomain.com/someotherfolder/ 则可以被爬取。
请记住，robots.txt 就像一个“禁止入内”的标志。它告诉机器人您是否允许它们爬取您的网站，但并不真正阻止访问。守规矩且合法的机器人会遵守您的指令，而恶意机器人可能会无视 robots.txt。

Google 和微软

Google 和微软不遵守 robots.txt 标准。您可以创建 Google 和微软账户，并配置您的域名以降低爬取延迟。请阅读 Google 关于 robots.txt 文件的官方立场。您必须使用 Google 的站长工具来设置大多数 Googlebot 的参数。

我们仍然建议配置 robots.txt 文件。这将减少爬虫发起请求的频率，降低系统资源消耗，从而为更多合法流量提供服务。
如果您想减少 Yandex 或百度等爬虫的访问量，通常需要通过类似 .htaccess 的方法进行阻止。

有关这些主题的更多详细信息，请参考以下链接：

告诉 Google 多久爬取一次您的网站
告诉微软多久爬取一次您的网站
更改 Google 的爬取频率
关于 /robots.txt

robots.txt 文件的目的是什么？​

robots.txt 文件放在哪里？​

如何阻止机器人和搜索引擎爬取​

Google 和微软​

robots.txt 文件的目的是什么？

robots.txt 文件放在哪里？

如何阻止机器人和搜索引擎爬取

Google 和微软