轻松搞定 robot.txt 🤖
告别繁琐代码,一键生成符合规范的 robot.txt 文件,让搜索引擎蜘蛛更懂你的网站!
🚀 在线生成器
# 在上方选择你的需求,robot.txt 文件将在此生成...
robot.txt 是什么?放在哪里?📍
它是什么?
robot.txt 是一个存放于网站根目录的纯文本文件,它是搜索引擎蜘蛛(Robot)访问网站时第一个查看的“访客协议”。😉 它告诉蜘蛛哪些页面可以抓取,哪些不可以。
放在哪里?
必须放在网站的根目录下!例如,你的网站是 https://www.example.com,那么 robot.txt 文件的访问地址就应该是 https://www.example.com/robot.txt。放错地方可就无效啦!🤷♂️
核心语法速成 📖
掌握几个关键指令,你就能成为 robot.txt 大师!
1. User-agent
指定规则适用于哪个搜索引擎蜘蛛。* 代表所有蜘蛛。
User-agent: * # 适用于所有蜘蛛
User-agent: Baiduspider # 仅适用于百度蜘蛛
2. Disallow
告诉蜘蛛不要抓取某个URL或目录。
Disallow: /private/ # 禁止抓取 /private/ 目录
Disallow: /secret.html # 禁止抓取 secret.html 文件
3. Allow
与 Disallow 相反,允许抓取某个URL或目录(通常用于在禁止的目录中放行某个文件)。
Disallow: /admin/
Allow: /admin/public.html # 允许抓取 /admin/public.html
4. Sitemap
指向你网站 Sitemap 文件的完整URL,帮助蜘蛛发现所有重要页面。
Sitemap: https://www.example.com/sitemap.xml
常见问题解答 (FAQ) ❓
1. 检查位置:确保文件在网站根目录。
2. 检查文件名:必须是 "robot.txt"(全小写)。
3. 检查缓存:搜索引擎可能需要时间更新,可以用百度站长平台的工具进行检测。
4. 检查语法:确保没有拼写错误,如 "Disallow" 写成 "Disalow"。
robot.txt 是“禁止协议”,告诉蜘蛛不能去哪里,是被动防御。
Sitemap 是“邀请函”,主动告诉蜘蛛网站有哪些重要页面,希望它们务必来抓取,是主动引导。两者相辅相成,共同优化网站的抓取效率。✨
有可能!robot.txt 只是“君子协定”,它不能强制阻止蜘蛛抓取。如果其他页面有指向被禁止页面的链接,搜索引擎仍然可能发现并收录其URL(虽然通常不会显示内容摘要)。要绝对禁止,应使用 meta robots 标签或HTTP头。🔒