通过robots协议屏蔽搜索引擎抓取网站内容

白天 • 2020年1月14日 19:19:00 • SEO优化 • 阅读 676

有时候有些页面访问消耗性能比较高不想让搜索引擎抓取，可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

Robots协议写法说明

User-agent: 这里的代表的所有的搜索引擎种类，*是一个通配符；

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录；

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录；

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录；

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)；

Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址；

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片；

Disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件；

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录；

Allow: /tmp 这里定义是允许爬寻tmp的整个目录；

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL；

Allow: .gif$ 允许抓取网页和gif格式图片；

Sitemap: 网站地图地址告诉爬虫这个页面是网站地图；

例1. 禁止所有搜索引擎访问网站的任何部分：

User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)：

User-agent: *
Allow: /

例3. 禁止某个搜索引擎的访问:

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问:

User-agent: Baiduspider
Allow:/

更多写法请参考：

[neilian ids=690]

原创文章，作者：白天，如若转载请注明出处：通过robots协议屏蔽搜索引擎抓取网站内容

白天 2025年7月10日

嗯嗯，难得现在还有用户能看到这个网站😅，这个网站我其实很用心的运营了几年，大多数博客都是自己学习得到的经验。只是百度越来越不行了，加上工作的原因慢慢的放弃了运营。

评论于关于白天
1797 2025年7月10日

从前年开始不断遇到问题，思考问题，解决问题，再不断结实人脉资源，现在我也开始创业，钱只是成长带来的鲜花，难能可贵的是那种不屈坚韧的倔强，都是时间的堆砌

评论于优化师成长的5个阶段，你在哪一个阶段？
1797 2025年7月10日

通过检索某个词，发现了博主的网站，并且内容深得我心，我比你大一届，但走了不少弯路才到网站这一块，向你学习，多分享

评论于关于白天
jimmy 2024年7月25日

真的有效果，可以打开了

评论于 Google Analytics 页面打不开(显示空白）的解决方法
白天 2024年5月10日

验证失败可以尝试关闭注册器重新打开可以刷新授权号

评论于尖叫青蛙(Screaming Frog SEO Spider)：一款功能强大的SEO工具
angela 2024年4月29日

账号注册验证一直失败怎么办呀

评论于尖叫青蛙(Screaming Frog SEO Spider)：一款功能强大的SEO工具