轻松搞定 robot.txt 🤖

告别繁琐代码,一键生成符合规范的 robot.txt 文件,让搜索引擎蜘蛛更懂你的网站!

🚀 在线生成器

允许所有蜘蛛

对所有搜索引擎开放

禁止所有蜘蛛

完全禁止搜索引擎抓取

禁止某个目录

如 /private/ 或 /admin/

提交 Sitemap

告知蜘蛛网站地图位置

# 在上方选择你的需求,robot.txt 文件将在此生成...

robot.txt 是什么?放在哪里?📍

它是什么?

robot.txt 是一个存放于网站根目录的纯文本文件,它是搜索引擎蜘蛛(Robot)访问网站时第一个查看的“访客协议”。😉 它告诉蜘蛛哪些页面可以抓取,哪些不可以。

放在哪里?

必须放在网站的根目录下!例如,你的网站是 https://www.example.com,那么 robot.txt 文件的访问地址就应该是 https://www.example.com/robot.txt。放错地方可就无效啦!🤷‍♂️

核心语法速成 📖

掌握几个关键指令,你就能成为 robot.txt 大师!

1. User-agent

指定规则适用于哪个搜索引擎蜘蛛。* 代表所有蜘蛛。

User-agent: *   # 适用于所有蜘蛛
User-agent: Baiduspider # 仅适用于百度蜘蛛

2. Disallow

告诉蜘蛛不要抓取某个URL或目录。

Disallow: /private/  # 禁止抓取 /private/ 目录
Disallow: /secret.html # 禁止抓取 secret.html 文件

3. Allow

与 Disallow 相反,允许抓取某个URL或目录(通常用于在禁止的目录中放行某个文件)。

Disallow: /admin/
Allow: /admin/public.html # 允许抓取 /admin/public.html

4. Sitemap

指向你网站 Sitemap 文件的完整URL,帮助蜘蛛发现所有重要页面。

Sitemap: https://www.example.com/sitemap.xml

常见问题解答 (FAQ) ❓

robot.txt 不生效怎么办?

1. 检查位置:确保文件在网站根目录。
2. 检查文件名:必须是 "robot.txt"(全小写)。
3. 检查缓存:搜索引擎可能需要时间更新,可以用百度站长平台的工具进行检测。
4. 检查语法:确保没有拼写错误,如 "Disallow" 写成 "Disalow"。

robot.txt 和 Sitemap 有什么区别?

robot.txt 是“禁止协议”,告诉蜘蛛不能去哪里,是被动防御。
Sitemap 是“邀请函”,主动告诉蜘蛛网站有哪些重要页面,希望它们务必来抓取,是主动引导。两者相辅相成,共同优化网站的抓取效率。✨

设置了 Disallow,页面还会被收录吗?

有可能!robot.txt 只是“君子协定”,它不能强制阻止蜘蛛抓取。如果其他页面有指向被禁止页面的链接,搜索引擎仍然可能发现并收录其URL(虽然通常不会显示内容摘要)。要绝对禁止,应使用 meta robots 标签或HTTP头。🔒