公众号二维码

0755-82126668

Robots.txt

什么是Robots.txt?

Robots.txt是一个文件,告诉搜索引擎蜘蛛不要抓取网站的某些页面或部分。大多数主要的搜索引擎(包括Google,Bing和Yahoo)都能识别并兑现Robots.txt的请求。

为什么Robots.txt很重要?

大多数网站不需要robots.txt文件。

这是因为Google通常可以在您的网站上找到所有重要页面对其进行编入索引。

并且它们将自动不索引不重要的页面或其他页面的重复版本。

也就是说,您要使用robots.txt文件的先有3个。

阻止非公开页面:。有时您的网站上有一些页面不想被索引例如,您可能具有页面的暂存版本或登录页面这些页面必须存在但是,您不希望随机的人落在他们身上。在这种情况下,您将使用robots.txt阻止这些页面进入搜索引擎抓取工具和漫游器。

完善地提高抓取预算:如果您很难在所有页面都建立索引的情况下,则可能会遇到抓取预算问题。通过使用robots.txt屏蔽不重要的页面,Googlebot可以将更多的抓取预算花费在实际重要的页面上。

防止对资源建立索引:使用元指令与Robots.txt一样可以防止页面被建立索引。但是,元指令不能用作多媒体资源,例如PDF和图像。这就是robots.txt发挥作用的地方。

底线?Robots.txt告诉搜索引擎蜘蛛不要抓取您网站上的特定页面。

您可以检查您在Google Search Console中已建立索引的页面数。

Google Search Console-编入索引

如果数量与您要索引的页面数量相匹配,则无需担心Robots.txt文件。

但是,如果该数量比您预期的要高(并且您注意到不应编制索引的索引URL),那么该是为您的网站创建robots.txt文件的时候了。

最佳实践

创建一个Robots.txt文件

第一步是实际创建robots.txt文件。

作为文本文件,您实际上可以使用Windows记事本创建一个文件。

无论最终如何制作robots.txt文件,其格式都完全相同:

用户代理:X
不允许:Y

用户代理是您正在与之交谈的特定漫游器。

“禁止”之后的所有内容都是您要阻止的页面或部分。

这是一个例子:

用户代理:googlebot
不允许:/ images

该规则将告诉Googlebot不要索引您网站的图片文件夹。

您还可以使用星号(*)与您网站停靠的所有漫游器进行对话。

这是一个例子:

用户代理:*
禁止:/ images

“ *”告诉所有蜘蛛不要爬行您的图像文件夹。

这只是使用robots.txt文件的多种方式之一。这本来自Google的有用指南详细介绍了可用于阻止或允许漫游器抓取您网站的不同页面的不同规则。

有用的规则

使您的Robots.txt文件易于查找

有了robots.txt文件后,就可以开始使用它了。

从技术上讲,您可以将robots.txt文件放置在网站的任何主目录中。

但是,为了增加找到r​​obots.txt文件的几率,建议将其放置在:

https://example.com/robots.txt

(请注意,您的robots.txt文件区分大小写。因此请确保在文件名中使用小写的“ r”)

检查错误和错误

正确设置robots.txt文件非常重要。一个错误,您的整个网站都可能被降索引。

幸运的是,您不必希望代码设置正确。Google有一个漂亮的机器人测试工具,您可以使用:

Robots.txt –测试结果

它显示了您的robots.txt文件…以及发现的任何错误和警告:

Robots.txt –错误

如您所见,我们阻止了Spider爬行我们的WP管理页面。

我们还使用robots.txt阻止WordPress自动生成的标记页的抓取(以限制重复内容)。

Robots.txt与元指令

当您可以使用“  noindex  ”元标记在页面等级停止页面时,为什么还要使用robots.txt?

就像我之前提到的,noindex很难在视频和PDF等多媒体资源上实现。

另外,如果您要阻止数千个页面,有时使用robots.txt阻止该站点的整个部分会比手动将noindex标记手动添加到每个页面要容易得多。

在某些极端情况下,您也不想在带有noindex标记的网页上Google着陆时浪费任何抓取预算。

说:

除了这三种情况之外,我建议使用meta指令而不是robots.txt。它们更容易实现。而且发生灾难的可能性也较小(例如阻止您的整个网站)。