robots.txt怎么写？

告别繁琐规则，在线评测，一秒生效！🚀

将您的 robots.txt 代码粘贴下方，即刻获取专业诊断与优化建议！

🤔 什么是 Robots.txt？它放在哪？

Robots.txt 是一个存放在你网站根目录下的纯文本文件，它的作用就像是网站的“访客守则”。📜 它会告诉搜索引擎的蜘蛛（爬虫）哪些页面可以抓取，哪些目录禁止入内。

例如，你的网站地址是 https://example.com，那么 robots.txt 文件就必须能通过 https://example.com/robots.txt 访问到。放错地方，搜索引擎可就找不到它了哦！

掌握下面几个核心指令，你就能轻松编写 99% 的 robots.txt 文件。

User-agent: 指定规则适用于哪个搜索引擎蜘蛛。用 * 表示对所有蜘蛛生效。例如: User-agent: Baiduspider (只对百度蜘蛛)。
Disallow: 告诉蜘蛛不要抓取的路径。例如: Disallow: /admin/ (禁止访问admin目录下所有内容)。
Allow: 告诉蜘蛛可以抓取的路径。通常用于在 Disallow 规则下做例外处理。例如: Allow: /admin/public.html。
* (通配符): 匹配任意字符。例如: Disallow: /*.jpg$ (禁止所有.jpg结尾的文件)。
$ (结尾匹配): 匹配URL的结尾。上面例子已经用到啦！

User-agent: *
Disallow:

User-agent: *
Disallow: /

User-agent: *
Disallow: /private/
Disallow: /tmp/

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

robots.txt 修改后多久生效？

这取决于搜索引擎的抓取频率。通常情况下，百度可能需要几小时到几天不等，Google 可能会更快一些。你可以在百度站长平台或 Google Search Console 中提交站点地图或使用“抓取”工具来加速这个过程。

为什么我设置了 Disallow，页面还被收录了？

有两个可能：1. 搜索引擎还没来得及更新它的记录。2. 其他页面通过外部链接指向了这个被禁止的页面，搜索引擎仍然可能发现并将其索引（但通常不会显示摘要）。要彻底防止收录，请使用页面 meta 标签中的 noindex 指令。

Robots.txt 和 Noindex 有什么区别？

Robots.txt 是“门口的保安”，它阻止蜘蛛进入（抓取），但并不阻止蜘蛛把从别处看到的“门牌号”（URL）记录下来（索引）。Noindex 是“房间里的请勿打扰”标签，它允许蜘蛛进入，但明确告诉它“请不要把这个房间记录在你的小本本上”。对于敏感内容，建议两者结合使用。