了解ROBOTS.TXT:为什么重要以及如何使用它

通过在搜索引擎结果页面(SERP)上排名很好来获得您网站的可见性是值得追求的目标。但是,您的网站上可能有一些页面,您宁愿指向流量,例如您的暂存区域或重复的帖子。

幸运的是,在WordPress网站上有一种简单的方法可以做到这一点。使用robots.txt文件将引导搜索引擎(以及访问者)远离您想要隐藏的任何内容,甚至可以帮助支持您的搜索引擎优化(SEO)工作。

在这篇文章中,我们将帮助您了解robots.txt 文件是什么  以及它与您网站的SEO有何关联。然后我们将向您展示如何使用Yoast SEO插件快速轻松地在WordPress中创建和编辑此文件。我们潜入吧!

robots.txt简介

简而言之,robots.txt是一个纯文本文件,存储在网站的主目录中。它的功能是在搜索引擎爬虫和浏览网站页面之前为其提供说明。

要了解  robots.txt,您需要了解一下搜索引擎抓取工具。这些是访问网站以了解其内容的程序(或“机器人”)。爬虫如何索引您网站的网页,以确定他们是否最终使用SERP(以及他们的排名有多高)。

当搜索引擎抓取工具到达网站时,它首先要检查网站主目录中的robots.txt文件。如果找到一个,它将记录其中列出的说明,并在浏览网站时遵循它们。

如果没有robots.txt文件,僵尸程序将只是抓取并索引整个网站(或尽可能多的网站索引)。这并不总是一个问题,但都是在它能够证明损害您的网站和它的搜索引擎优化的几种情况。

为什么robots.txt对SEO很重要

robots.txt最常见的用途之一  是隐藏搜索引擎中的网站内容。这也被称为“不允许”机器人抓取某些页面。您可能希望这样做的原因有几个。

第一个原因是保护您的SERP排名。重复内容往往会混淆搜索引擎抓取工具,因为它们无法列出SERP上的所有副本,因此必须选择要优先考虑的版本。这可能会导致您的内容与自己竞争最高排名,这会适得其反。

您可能希望隐藏搜索引擎内容的另一个原因是阻止他们显示您想要保密的网站部分 – 例如您的暂存区域或仅限私人会员的论坛。遇到这些页面可能会让用户感到困惑,并且可能会使流量远离您网站的其他部分。

除了禁止机器人浏览您网站的某些区域外,您还可以在robots.txt文件中指定“抓取延迟” 。这样可以防止因机器人一次加载和抓取您网站上的多个网页而导致服务器超载。它还可以减少连接超时错误,这对您的用户来说非常令人沮丧。

如何在WordPress中创建和编辑  robots.txt(分3步)

幸运的是,Yoast SEO插件可以轻松创建和编辑您的WordPress网站的robots.txt文件。以下步骤将假设您已经在您的网站上安装并激活了Yoast SEO。

第1步:访问Yoast SEO文件编辑器

创建或编辑robots.txt文件的一种方法  是使用Yoast的文件编辑器工具。要访问它,请访问您的WordPress管理仪表板并导航到侧栏中的Yoast SEO>工具

在WordPress管理侧栏中选择Yoast Tools选项。

在结果屏幕上,从工具列表中选择“  文件编辑器 ”:

Yoast文件编辑器工具。

如果您已有  robots.txt文件,则会打开一个文本编辑器,您可以在其中对其进行更改。如果您没有robots.txt文件,则会看到此按钮:

在Yoast文件编辑器中创建robots.txt文件。

单击它以自动生成robots.txt文件并将其保存到您网站的主目录中。以这种方式设置robots.txt文件有两个好处。

首先,您可以确保将文件保存在正确的位置,这对于确保搜索引擎抓取工具可以找到它至关重要。该文件也将以小写的方式正确命名。这很重要,因为搜索引擎抓取工具区分大小写,并且无法识别名称为Robots.txt的文件。

第2步:格式化您的robots.txt文件

为了与搜索引擎抓取工具进行有效沟通,您需要确保  正确格式化robots.txt文件。所有  robots.txt文件都会列出’user-agent’,然后列出要跟随的代理的’指令’。

用户代理是您要为其提供指示的特定搜索引擎爬网程序。一些常见的包括:bingbot,googlebot,slurp(Yahoo)和yandex。指令是您希望搜索引擎抓取工具遵循的说明。我们已经在这篇文章中讨论了两种指令:禁止和  爬行延迟

将这两个元素放在一起时,您将获得完整的robots.txt文件。它可以只有两行。这是我们自己的  robots.txt文件作为示例:

Torque的robots.txt文件。

您只需键入站点的URL,然后输入/robots.txt (例如example.com/robots.txt)即可找到更多示例。

另一个重要的格式元素是’ 外卡 ‘。这是一个用于一次指示多个搜索引擎抓取工具的符号。在我们上面的robots.txt文件中,星号(*)代表所有用户代理,因此它后面的指令将适用于任何读取它们的机器人。

另一种常用的外卡是美元($)符号。它可以代表URL的末尾,并用于给出应该应用于具有特定URL结尾的所有页面的指令。以下是BuzzFeed的robots.txt文件示例:

Buzzfeed的robots.txt文件。

在这里,该网站使用$ wild卡来阻止所有.xml文件中的搜索引擎抓取工具。在您自己的robots.txt文件中,您可以根据需要包含任意数量的指令,用户代理和外卡,以及最适合您需求的组合。

第3步:使用robots.txt命令来引导搜索引擎抓取工具

既然您知道如何创建和格式化robots.txt文件,您实际上可以开始向搜索引擎机器人发出指令。您可以在robots.txt文件中包含四个常用指令:

  • 不允许告知搜索引擎抓取工具不要浏览和索引指定的页面。
  • 允许启用对先前指令不允许的子文件夹的爬网和索引。此命令仅适用于Googlebot。
  • 抓取延迟指示搜索引擎抓取工具在加载相关页面之前等待指定的时间段。
  • 网站地图为搜索引擎抓取工具提供提供其他信息的站点地图的位置,这将有助于漫游者更有效地抓取您的网站。如果您选择使用此指令,则应将其放在文件的最末尾。

robots.txt文件中没有严格要求这些指令  。实际上,您可以使用任何参数找到支持或反对的参数。

至少,禁止机器人抓取你绝对不想要的SERP页面并指出你的站点地图是没有害处的。即使您打算使用其他工具来处理其中一些任务,您的robots.txt文件也可以提供备份以确保执行指令。

结论

您可能希望向搜索引擎抓取工具提供说明的原因有很多。无论您是需要从SERP隐藏网站的某些区域,设置抓取延迟,还是指出站点地图的位置,您的robots.txt文件都可以完成工作。

要使用Yoast SEO创建和编辑您的  robots.txt文件,您需要:

  1. 访问Yoast SEO文件编辑器。
  2. 格式化  robots.txt文件。
  3. 使用  robots.txt命令来引导搜索引擎抓取工具。

说点什么

500