什么是Robots.txt文件以及如何正确使用它

数百个个体因素影响搜索引擎排名性能。其中技术优化占有重要地位。如果项目存在加载速度或重复页面问题,则可能无法充分发挥其潜力。
什么是

文件以及如何正确使用它

内容
通常,网站管理员在启动网站后立即创建地图,关闭索引服务页面,并添加元标记。但有时他们会忘记最好先完成的重要任务。

 

即使是初学者也知道 是什么

但并非所有网站所有者都重视使用它。在某些情况下,文件是使用 SEO 插件生成的,并且它的存在被遗忘。这可能会导致将来的索引和排名出现问题,因此最好密切关注文件的状态。

文件是什么?
Robots.txt 是包含搜索机器人规则的官方文档。搜索引擎爬虫在需要爬行页面并决定是否对 URL 建立索引时会考虑这一点。

Indonesia Data 是您了解充满活力  印度尼西亚数   的印度尼西亚市场的首选中心。凭借丰富的增强型购买短信营销电话号码 SEO 工作,Indonesia Data 可提供您所需的见解。通过利用本地化数据,可以提高转化率。借助数据集和分析工具,企业可以量身定制方法,有效地与受众互动,最终企业可以发现推动成功数字营销活动的关键趋势和消费者偏好。无论您是想优化社交媒体策略还是希望保持竞争力,让 Indonesia Data 将您的营销工作推向新的高度

该文件应被视为减少项目服务器负载的工具,而不是快速阻止对服务页面访问的方法。它的工作原理与链接的 nofollow 标签类似 – 搜索机器人可能会遵守规则,但不能保证。

 

通常,搜索引擎遵循给定的指令

但在每种情况下,决策都是基于多种因素的组合做出的。例如,当文件中存在冲突行时,会激活其他分析算法。

精心设计的 robots.txt 在 SERP 中可能很有用,但它只是排名良好所需的数千块砖中的一块。因此,您不应该太沉迷于不断更新文件。

1.1.它是如何运作的?
要了解机器人的工作原理,您需要深入研究技术细微差别。这不会花费太多时间 – 您可以在几个小时内从 Google 的网站管理员帮助部分获得基本知识。

搜索引擎机器人执行两个主要操作:扫描页面内容并为其建立索引。 Robots.txt 是一个索引。它向蜘蛛显示扫描资源的路线。但不可能提前知道机器人是否考虑了这些提示。

 

通常,在抓取资源之前,搜索蜘蛛会分析 robots.txt 文件的内容,以了解项目所有者不希望将哪些页面添加到索引中。他们可能会也可能不会听取线索。

机器人通常被认为是防止索引的有效工具,但事实并非如此。如果搜索引擎算法认为该页面对用户有有用的内容,则可能会将其包含在索引中。

还必须了解来自不同服务的扫描仪根据独特的场景使用技术文件语法。因此,如果您不为特定用户代理创建自己的规则,则搜索结果中可能会出现不必要的地址。

要 100% 防止将页面添加到搜索结果,您需要使用 .htaccess 或其他服务器工具阻止对其的访问。这样就不需要在 Google 的 robots txt 中指定 URL。

有观点认为

2023年就不需要创建robots文件了。这实际上是一个错误的陈述,因为该文件被搜索蜘蛛使用。这是花时间创建文档的激励。

Robots.txt并不是阻止页面被索引的灵丹妙药,但它通常会巧妙地显示搜索引擎不应该抓取的地址。这节省了蜘蛛时间和服务器资源。

此外,如果该文档不在根目录中,则会向 Google Search Console 发送通知。这个问题并不重要,但最好不要给算法额外的理由来增加对项目的关注。

无需为搜索引擎之外的推广资源创建服务文件。这适用于 SaaS 和其他拥有永久受众的服务。每个网站站长都会独立决定是否需要执行 SEO 任务,但无论如何,额外的点击都不会是多余的。

2.1.优化您的抓取预算
抓取预算是抓取资源页面的限制。 Google 机器人以不同的方式抓取每个项目网址,因此无法提前知道它们抓取所有网址的速度。

优化抓取页面的预算涉及关闭 robots.txt 中 Googlebot 的服务部分。如果这样做,搜索引擎蜘蛛就不会浪费资源来爬行不必要的 URL,并且可以加快对重要 URL 的索引速度。

抓取预算是一个非常难以预测的事情,但是机器人优化可以对蜘蛛抓取页面的速度产生积极的影响。因此,这项任务不容忽视。

 

2.2.阻止重复页面和非公开页面

重复会导致链接汁流失并恶化页面排名。例如,如果您的网站有 50 个重复的 URL 正在获得搜索引擎的点击,则最好将其删除。

此外,每个站点都有用户不可见的页面:管理面板、包含私人统计信息的地址等。最好在服务器级别阻止对它们的访问,并在 robots.txt 中另外指定它们。

 

2.3.防止资源索引
除了页面之外,您还可以使用服务文件中的指令来拒绝扫描媒体内容。这可以是图像、PDF 文件、Word 文档和其他内容。

阻止机器人通常足以防止包含媒体内容的文件出现在搜索结果中。但在某些情况下可能会出现问题。如果谷歌或其他服务的算法做出不同的决定,那么只能通过服务器级别的完全禁止来规避。

限制对服务文件中的图像或脚本的访问需要最短的时间。您需要找到 robots.txt 并使用特殊通配符,以便所有文档都符合创建的规则。

无差错的高质量机器人是该项目的额外收获。如果竞争对手在技术优化方面存在问题,这可能是在流量争夺中击败他们的机会之一。

3.如何找到Robots.txt?
您可以在几秒钟内在站点的根目录(domain.com/robots.txt)中找到该服务文件。如果我们讨论的是子域,则只需更改地址的第一部分。

有时覆盖文件会出现问题,因此最好通过 FTP 管理器禁用该操作。如果您手动禁用内容配置选项,用于 SEO 的 robots.txt 将满负荷工作。

 

在流行的 CMS 中,SEO 插件通常会影响机器人。在这种情况下,网站管理员创建的模板不会受到保护而不会消失。如果文件被覆盖,站点所有者可能很长一段时间都不会注意到。

您还需要确保机器人可以访问机器人。为此,您应该使用专门的分析工具。如果服务器响应为200,则访问不会出现问题。

 

4. 语法和支持的指令

对于 SEO 新手来说,创建机器人似乎是一项艰巨的任务,但实际上使用文件并不困难。一旦知道#符号或正则表达式的作用,就可以毫无问题地使用它们。

有一个特定的语法:

斜杠 (/) 向机器人显示确切需要阻止扫描的内容。这可能是一个页面或一个包含数千个地址的大部分。
星号 (*) 有助于总结规则中的 URL。例如,要阻止扫描该地址中 PDF 的所有页面,您需要添加星号。
美元符号 ($) 附加在 URL 的末尾。它通常用于防止扫描具有特定扩展名的文件或页面。
井号 (#) 有助于文件导航。它用于指示搜索工作忽略的评论。
对于初学者来说,在清楚 robots.txt 文件是什么之后,最好立即理解语法。您可以从指令开始学习,但语法也很重要。

只需要学习 4 个基本指令。您可以为所有用户代理创建相同的规则,而不必分别在每个用户代理上浪费额外的时间。但应该考虑到,每个蜘蛛抓取页面的过程都是不同的。

4.1.用户代理
搜索引擎和在线爬虫有自己的用户代理。通过它们,服务器可以了解哪个机器人访问了该站点。然后您可以简单地监视日志文件中特定蜘蛛的行为。

用户代理在机器人中用于指示哪些规则适用于特定的蜘蛛。当每个人的模式都相同时,行中会使用星号。

文件中至少可以有 50 个与用户有关的指令,但最好制作 3-5 个单独的列表。请务必添加注释以便于导航。那么就有机会在大量的数据中不被迷惑。

 

4.2.不允许当禁用地址列表中

的页面或部分进行扫描时,使用该指令。它通常用于重复项、服务 URL 和分页。

Disallow 必须与斜杠字符组合。如果地址的路径不固定,搜索蜘蛛将忽略该规则。因此,最好确保语法正确。

应谨慎处理该指令,因为存在重要地址可能不包含在搜索结果中的风险。在保存对文件的更改之前,最好执行附加分析。

 

4.3.允许
robots.txt 的最佳实践之一是使用Allow 指令。它允许您扫描页面或整个部分。它与 Disallow 结合使用以创建最佳文件结构。

您还需要仔细使用“允许”,以便搜索结果不包含服务页面和其他模糊项目内链接注意力的 URL。在地址中正确使用斜杠可确保覆盖所需的页面。

当文件的抓取页面规则发生冲突时,字符数由 Google 决定。将执行最长的规则。

 

4.4.网站地图
该指令被认为是可选的,但经验丰富的 SEO 专家建议使用它。它用站点地图指示地址的位置。必须在文件的开头或结尾注明。

如果地图是通过 Google Search Console 添加的,则不必在 robots 中指定 URL,但这不会造成任何损害。 99% 的公共 robots.txt 模板必须包含站点地图。

在文件中保存正确的语法可确保搜索引擎机器人正确抓取内容。这对技术优化产生了积极的影响,为项目的整体评分加分。

 

5. Googlebot 不支持的 Robots.txt 指令
您可以在互联网上看到过时的机器人说明,初学者会犯依赖它们的错误。这不会干扰正常的索引,也不会导致页面排名问题,但最好使文件适应正确的格式。

在查看历史悠久的项目的技术文件时,您经常会发现过时的指令。它们本身不会造成伤害,因此搜索工作会忽略它们。但为了理想的网站优化,最好摆脱它们。

5.1.爬行延迟
此前,该指令完全符合正确的 robots.txt 格式。目前谷歌不支持它,因此限制文件的扫描速度是没有意义的 – 机器人不会关注这些行。

Bing 仍然可以识别抓取延迟指令,因此您可以为适当的用户代理指定它。如果没有来自 Bing 的流量,就很难找到使用该指令的理由。

 

5.2.无索引
Google 的帮助中心从未提及您可以使用 Noindex 指令阻止内容被编入索引。但到了2023年,一些站长仍然在这样做。

或者,您可以使用“禁止”来禁止扫描,并使用技术工具来限制服务器级别的访问。这些方法的组合将达到预期的结果。

5.3.不关注
该指令也不起作用,限制链接汁传输的类似标签也不起作用。目前还没有有效的方法来阻止链接传播权重。

 

创建 文件不会阻止链接被索引

即使是源代码中不可见的加密链接,Google 机器人也能轻松应对。

在过时的指令中,您可以找到 Host。该命令用于指定站点的主镜像。多年来,301 重定向一直是其替代品。

6. 如何创建Robots.txt文件?
Robots 是一个常规文本文件,应位于站点的根目录中。它可以使用 Windows 记事本或服务器上的标准文件管理器工具创建。

确保文件具有正确的扩展名。否则,搜索引擎机器人将无法分析内容,并且 Search Console 中将出现访问错误通知。

如有必要,您可以使用开源的标准模板,但要确保不存在冲突。只有在此之后才能持续使用默认结构。

 

6.1.创建一个名为 Robots.txt 的文件
当 SEO 新手询问如何创建 robots.txt 文件时,答案是显而易见的。为此,您不需要在计算机上安装专门的软件;记事本就足够了。

请务必在每次文档更新后保存更改。标准程序没有自动保存功能,因此在编辑过程中可能会丢失一些数据,您将不得不重新开始工作。

6.2.将规则添加到文件
在机器人中设计规则的最佳方法是结合用户代理并使用注释。在文件的不同部分为一个机器人指定规则是没有意义的。

添加规则时,请确保不存在冲突。它们导致搜索引擎自行决定行事。尽管即使所有内容都指定正确,也不能保证指令会被遵循。

6.3.检查语法
用于 SEO 的正确 robots.txt 是一个没有语法错误的文件。大多数情况下,初学者在编写指令时会犯错误。例如,他们写为 Disalow,而不是 Disallow。

您还需要仔细监控斜线、星号和散列的使用。这些符号很容易让人困惑,并关闭或打开不必要的页面进行扫描。您可以使用各种在线服务检查语法。

6.4.上传文件
创建文件结构并将最终版本保存在计算机上后,剩下的就是将其下载到服务器。只有根目录适合此操作。

我们建议限制覆盖文件的能力,因为更新 CMS 和插件后,语法可能会受到影响。这种情况并不经常发生,但只有这样才能消除问题。

6.5.如有必要,进行测试并修复错误
robots.txt 文件的创建并不会结束它的工作。您还需要确保它不包含错误。您可以手动或使用在线扫描仪关闭任务。

例如,您可以使用一个可以很好地进行语法分析的工具。该报告显示有关检测到的错误和可用性状态的信息。

 

您可以在 Google Search Console 中找到抓取和索引问题。但最好是防止它们出现,并从技术优化中获得最大利益。

 

7. 使用  的最佳实践

使用服务文件通  为什么 FintechZoom Goog 股票可能是您的下一个投资赢家  常并不困难,但在推广大型项目时,创建理想的规则集可能很困难。

优化 需要时间和相关经验。在线扫描仪可以让您节省资源,但不能满足您的所有需求,因此不能放弃手动分析。

有效使用 的技巧对于任何经验水平的网站站长都非常有用。有时,即使是一个小错误也会毁掉大量已完成的工作,需要迅速注意到。

7.1.每个指令使用一个新行
初学者在开始理解.的语法时,经常会犯一个错误,即把规则写在一行里。这给搜索引擎机器人带来了问题。

为了保护自己免受负面后果的影响,您需要将每条规则另起一行。这对于蜘蛛程序和更新文件的专家的导航都很有用。

糟糕的是:

用户代理:* 禁止:/admin-panel
美好的:

用户代理:*
禁止:/admin-panel
7.2.每个用户代理仅使用一次
当新的 SEO 专家开始想知道 中应该包含什么内容时,很少有人记得正确使用用户代理的必要性。找到流行蜘蛛的列表不是问题,但这还不是全部。

如果为一项作业创建了 50 条规则,则应将它们合并。机器人自我合并不会有任何问题,但从文件易用性的角度来看,这样做也更好。

糟糕的是:

用户代理:Googlebot
禁止:/admins-panel
…。

用户代理:Googlebot
允许:/blog
美好的:

用户代理:Googlebot
不允许:/admins-panel
允许:/blog
7.3.为不同的子域创建单独的 文件
当推广上千个页面、几十个子域名的大型项目时,需要对每个目录分别进行优化。事实上,对于搜索引擎来说,子域就是一个新站点。

可以是模板,但必须放置在搜索中推广的所有子域的根目录中。此规则不适用于对用户关闭的技术子域。

 

7.4.具体以尽量减少可能的错误

很多时候,互联网项目的所有者会遇到阻止访问页面和部分的问题。这通常是由于错误使用斜杠和其他通配符造成的。

几乎每个网站管理员都知道 robots txt 是什么,但在创建规则时,许多人都会犯严重错误。这会影响索引和排名。

例如,有必要限制对带有 /es 前缀的页面的访问,因为该目录正在开发中。在这种情况下,斜杠的正确使用会影响结果。

糟糕的是:

用户代理:*
禁止:/es
美好的:

用户代理:*
禁止:/es/
在第二种情况下,属于相应目录的所有页面都受到限制。在第一种情况下,所有存在 es 结构的地址都可能出现问题。

7.5。使用注释向人们解释您的文件
搜索引擎蜘蛛会忽略任何使用哈希符号的行。注释允许网站管理员浏览文档结构。因此,在学习 SEO 中的  时,绝对应该使用并注意它们。

当文档有 10-20 行时,缺少注释不能被视为不好的做法。但如果有数百个,最好为自己和将来从事该项目的 SEO 专家编写技巧。

 

用于机器人优化的 Lifehacks 也可以在没有搜索流量问题的信誉良好的项目中看到。其中大部分都在 PRPosting 目录中。要对其进行分析,只需收集 5-10 个资源的列表并查看它们的文件版本即可。

此外,在您的服务个人帐户中,您可以在达成放置链接的交易时与优化器进行沟通。这样您就可以和谐地结合内部和外部优化。

 

八、结论
许多人知道如何查找 ,但并不是每个人都知道如何正确使用该文件。掌握文件优化的基本原理并不需要太多时间,所以你应该花时间不断提高你的知识。

常问问题
什么是 文件?

这是一个包含扫描网站页面规则的技术文件。搜索机器人使用它来了解哪些部分不是索引的优先级。

如何创建  文件?

这可以使用记事本、FTP 管  美国电话号码  理器或使用专门的服务来完成。在每种情况下,结果都是相同的。

如何找到?

与站点地图不同,该文件必须位于根目录中。如果它位于其他地方,则意义为零。

文件的最大大小是多少?

大约限制为 500 KB。权重取决于行数,如果采取优化措施很难超过这个限制。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部