robots.txt怎么写?

告别繁琐规则,在线评测,一秒生效!🚀

🧪 Robots.txt 语法评测器

将您的 robots.txt 代码粘贴下方,即刻获取专业诊断与优化建议!

🤔 什么是 Robots.txt?它放在哪?

Robots.txt 是一个存放在你网站根目录下的纯文本文件,它的作用就像是网站的“访客守则”。📜 它会告诉搜索引擎的蜘蛛(爬虫)哪些页面可以抓取,哪些目录禁止入内。

例如,你的网站地址是 https://example.com,那么 robots.txt 文件就必须能通过 https://example.com/robots.txt 访问到。放错地方,搜索引擎可就找不到它了哦!

网站根目录结构示意图

⚙️ 核心语法规则全解析

掌握下面几个核心指令,你就能轻松编写 99% 的 robots.txt 文件。

  • User-agent: 指定规则适用于哪个搜索引擎蜘蛛。用 * 表示对所有蜘蛛生效。例如: User-agent: Baiduspider (只对百度蜘蛛)。
  • Disallow: 告诉蜘蛛不要抓取的路径。例如: Disallow: /admin/ (禁止访问admin目录下所有内容)。
  • Allow: 告诉蜘蛛可以抓取的路径。通常用于在 Disallow 规则下做例外处理。例如: Allow: /admin/public.html
  • * (通配符): 匹配任意字符。例如: Disallow: /*.jpg$ (禁止所有.jpg结尾的文件)。
  • $ (结尾匹配): 匹配URL的结尾。上面例子已经用到啦!

📋 常见场景代码示例 (复制即用)

✅ 允许所有访问

User-agent: *
Disallow:

🚫 禁止所有访问

User-agent: *
Disallow: /

📁 禁止抓取特定目录

User-agent: *
Disallow: /private/
Disallow: /tmp/

🤖 只允许百度蜘蛛

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

❓ 常见问题 (FAQ)

robots.txt 修改后多久生效?

这取决于搜索引擎的抓取频率。通常情况下,百度可能需要几小时到几天不等,Google 可能会更快一些。你可以在百度站长平台或 Google Search Console 中提交站点地图或使用“抓取”工具来加速这个过程。

为什么我设置了 Disallow,页面还被收录了?

有两个可能:1. 搜索引擎还没来得及更新它的记录。2. 其他页面通过外部链接指向了这个被禁止的页面,搜索引擎仍然可能发现并将其索引(但通常不会显示摘要)。要彻底防止收录,请使用页面 meta 标签中的 noindex 指令。

Robots.txt 和 Noindex 有什么区别?

Robots.txt 是“门口的保安”,它阻止蜘蛛进入(抓取),但并不阻止蜘蛛把从别处看到的“门牌号”(URL)记录下来(索引)。Noindex 是“房间里的请勿打扰”标签,它允许蜘蛛进入,但明确告诉它“请不要把这个房间记录在你的小本本上”。对于敏感内容,建议两者结合使用。

网站地图