BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流, 并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守 robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.
WMW的Boston Pubcon 2006大会上:Amanda deliberately typed “Disalow” in the robots.txt tool to show that 1) Google will still treat that correctly and 2) the checker tool will warn you about the typo.
人家的一个测试,把robots.txt里的禁止蜘蛛抓取内容命令:Disallow,故意拼写成 "disalow",看看Googlebot对Robots.txt里出现拼写错误是如何处理的,显然GoogleBot正确地分析到这仅仅是一个拼写错误,并按此执行了.
回过头来看看自家人baiduspider+,Feedsky的家伙很是怕它的"袭击",和国外的一些站长一样,因为蜘蛛的抓取行为,会造成服务器变得缓慢,甚至无法响应普通用户的浏览,实际效应有如DDOS攻击. 因而有人用robots.txt去禁止BaiduSpider+的抓取行为,然而令人失望的是:"Baiduspider - not checking robots.txt & how to block?".
在国内,很少有站长敢忽视百度的搜索流量,因为百度更懂中文,而老外的站,只要不提供中文的,想从百度获得流量,就有点不现实了,谁会用百度搜索英文内容呐? 因此他们敢禁止baidu的spider. 最终一部分人采用了服务器端的技术把Baiduspider+挡在外边.
写与百度有关的东西之前,俺一般都会去Search一下,防止自己说得太离谱,开罪BaiduSpider+,人家不来了,俺岂不是得不尝失.
BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流,并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.看过的BaiduSpider+老家的帮助页面,同样我也知道,的确有人冒充百度的蜘蛛去做referral spam ,或者偷站,但是这些人造成的服务器问题,绝不可能和百度这个庞然大物相提并论.
注:
搜索引擎使用的蜘蛛(Spider),被俺的几个朋友私下里称为:"猪",因为和蜘蛛谐音,还有猪好象比spider更宠物化一点. 小吴在开发BT种子搜索时,时不时地在蜘蛛方面碰到小故障,三天二头说:要重放猪出去拱东西了,后来他成功了,俺们都为他挺高兴的.

