禁止搜索引擎抓取网站的解决办法
网站获得搜索引擎抓取是很多企业期待的,当然,某些特殊的情况是我们不愿意让网站抓取全部或部分内容。如果我们不想要搜索引擎索引网站的某些内容或全部内容,**的办法就是借助rebots.txt文件。南营门高端网站圣辉友联现在给大家说明一下如何禁止搜索引擎抓取网站的解决办法。
rebots.txt文件是搜索引擎抓取协议,这个协议是目前大部分搜索引擎都需要遵守的,相当于搜索引擎的抓取引导。大部分搜索引擎都会按照这个文件的要求进行抓取网站内容,所以编写这个内容,就相当于给搜索引擎编写了一套引导大纲。不过要明确一点,rebots.txt文件是一份协议,也就是搜索引擎可以遵守,也可以不遵守。
Robots.txt在书写的时候有特定的命令和语法。
三个命令,两个通配符
User-agent:
代理用户。
用于描述搜索引擎蜘蛛的名字。在robots里面至少要有一条User-agent:记录。此值可以使用*符号,其代表的意思是对所有搜索引擎蜘蛛都**。例如:User-agent:*就是所有的搜索引擎蜘蛛都会受到后面Disallow和allow的限制。
如果只是为了限制某一个搜索引擎蜘蛛的抓取可以使用User-agent:蜘蛛名称
例如:User-agent:sosospider 就是限制搜索引擎的蜘蛛来抓取
Disallow:
禁止,不希望被搜索引擎抓取
使用disallow命令可以禁止不希望蜘蛛进行抓取的url
如果使用了这条规则Disallow:/news 那么作用就是不允许抓取/news.html和/newsabc.htm只要路径中出现news都不会被抓取。
Allow:
允许,可以抓取
使用allow命令可以允许蜘蛛来抓取某个路径或者目录
如:Allow:/seonews可以抓取/seonews.html使用Allow命令一般是配合Disallow一起使用的。当要限制抓取某个目录但又想让抓取目录里面的指定路径时就可以使用相应的命令。
这里要说下,不写robots或者robots是空的时候,默认情况下都是允许抓取的;建议如果你是一个新手且对robots不了解的话不要盲目去添加robots链接,不然会对网站收录错误的屏蔽造成不良的影响。经常有遇到这种情况错误屏蔽的案例,导致网站不能被收录出现流量异常。
下面是两个通配符
*(匹配0或者多个任意字符)
$(匹配行结束符)
例如:
禁止所有的搜索引擎访问网站全部内容
User-agent: *
Disallow:/
禁止百度搜索引擎访问网站全部内容
User-agent: Baiduspider
Disallow:/
允许所有搜索引擎访问全部内容;也可以为空
User-agent: *
Allow:/
允许/禁止百度搜索引擎抓指定格式的图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
允许/禁止百度搜索引擎抓取网站的动态页面
User-agent: Baiduspider
Allow: /*.php$
Disallow: /*.jsp$
温馨提示:编写rebots.txt需要严谨的写法,如果是对网站有部分禁止抓取的要求,建议找专业人士编写,否则会造成网站快照不被收录索引的问题。 |