规范 URL:告诉搜索引擎使用哪个链接
访问任何指定网站页面时,可以通过多个 URL 访问该页面。虽然在某些情况下这非常有用,比如在域名传播之前查看您的页面,但有时也会导致负面影响。幸运的是,大多数搜索引擎,如 Google 和 Bing,能够理解每个页面有多个可用的 URL;因此,它们通常能够正确确定哪个 URL 最可能是规范 URL。简单来说,规范 URL 是页面的首选 URL。
单个页面的 URL 示例
根据特定网站的设置,可能可以通过以下示例 URL 访问同一页面:
- primarydomain.com
- www.primarydomain.com
- 10.0.0.2/~username/
- primarydomain.com/index.php
- www.primarydomain.com/index.php
- 10.0.0.2/~username/index.php
如果该域名是附加域,可能可以通过以下假设的 URL 查看同一页面:
- addondomain.com
- www.addondomain.com
- primarydomain.com/addondomain.com
- addondomain.primarydomain.com
- 10.0.0.2/~username/addondomain.com
- addondomain.com/index.php
- www.addondomain.com/index.php
- primarydomain.com/addondomain.com/index.php
- addondomain.primarydomain.com/index.php
- 10.0.0.2/~username/addondomain.com/index.php
搜索引擎如何判断规范(首选)URL
需要注意的是,尽管同一文件存在多个 URL,大多数搜索引擎(以及您的访问者)通常不会遇到它们,甚至不知道它们的存在。搜索引擎只能通过以下几种方式发现 URL:
- 在它们已知存在的网页上找到了指向您的页面的链接。
- 在网站地图和/或 RSS 源中找到了链接或 URL。
- 通常通过其网站直接提交链接或 URL。
- 有人在使用该搜索引擎的浏览器工具栏时访问了您的页面。
一旦搜索引擎发现了该页面,它们会将其与其他看似相同或几乎完全相同的页面进行比较,以识别重复内容。如果发现重复页面,它们会尝试确定哪个 URL 应该是规范 URL。虽然具体算法保密,但已知搜索引擎会检查以下内容:
- 用于链接到该站点的最常见 URL
- 网站地图和 RSS 源中使用的 URL
- 是否在网站页面的元标签中指定了规范 URL
- URL 是否重定向到另一个 URL
- 针对 Google,是否在 Google 搜索控制台中指定了规范 URL
资源
以下是 Google 关于规范 URL 的一些有用资源:
- Google:Canonicalization
- Google:Specify Your Canonical