闲谈二头猪:Googlebot和BaiduSpider
Posted by
ctblogger
28 April,2006
(15)Comment
BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流, 并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守 robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.WMW的Boston Pubcon 2006大会上:Amanda deliberately typed “Disalow” in the robots.txt tool to show that 1) Google will still treat that correctly and 2) the checker tool will warn you about the typo.
人家的一个测试,把robots.txt里的禁止蜘蛛抓取内容命令:Disallow,故意拼写成 "disalow",看看Googlebot对Robots.txt里出现拼写错误是如何处理的,显然GoogleBot正确地分析到这仅仅是一个拼写错误,并按此执行了.
回过头来看看自家人baiduspider+,Feedsky的家伙很是怕它的"袭击",和国外的一些站长一样,因为蜘蛛的抓取行为,会造成服务器变得缓慢,甚至无法响应普通用户的浏览,实际效应有如DDOS攻击. 因而有人用robots.txt去禁止BaiduSpider+的抓取行为,然而令人失望的是:"Baiduspider - not checking robots.txt & how to block?".
在国内,很少有站长敢忽视百度的搜索流量,因为百度更懂中文,而老外的站,只要不提供中文的,想从百度获得流量,就有点不现实了,谁会用百度搜索英文内容呐? 因此他们敢禁止baidu的spider. 最终一部分人采用了服务器端的技术把Baiduspider+挡在外边.
写与百度有关的东西之前,俺一般都会去Search一下,防止自己说得太离谱,开罪BaiduSpider+,人家不来了,俺岂不是得不尝失.
BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人[URL=http://www.google.com/search?sourceid=navclient&ie=UTF-8&rls=ggLG,ggLG:2005-48,ggLG:en&q=chenjk+BAIDU]ChenJK[/URL],关于BaiduSpider,在WMW和受害者进行过交流,并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.看过的BaiduSpider+老家的帮助页面,同样我也知道,的确有人冒充百度的蜘蛛去做referral spam ,或者偷站,但是这些人造成的服务器问题,绝不可能和百度这个庞然大物相提并论.
注:
搜索引擎使用的蜘蛛(Spider),被俺的几个朋友私下里称为:"猪",因为和蜘蛛谐音,还有猪好象比spider更宠物化一点. 小吴在开发BT种子搜索时,时不时地在蜘蛛方面碰到小故障,三天二头说:要重放猪出去拱东西了,后来他成功了,俺们都为他挺高兴的.
|
|
Related Items
Categories :
SEO观察与观点
Comments
以前曾经分析过,baidu对待robots.txt似乎是用来决定“收录”那些页面,而不是“索引”那些页面。换句话说你在robots.txt屏蔽baidu只能保证网站不被收录,但不能保证他不爬你。
那怎么办呢???
我好怕的蜘蛛啊~~
有没有可能BaiduSpider还担负着国家信息安全的责任呢?
楼上workingbird讲的有点幽默,
据说baidu和Mr.Li都是US身份,
结论:是不会吧.
用你家小吴的BTMIX搜索新片《黑白道》,一个结果都没有,本来都已经加它到收藏夹了,现在只有删掉
呵呵。 没注意,是不是小吴放“猪”不勤劳啊。
套用《武林外传》佟掌柜的必杀技:“关门,放‘猪’!”
在网站策划运营社区也看到过相关的探讨
我那个引用通告似乎编码有点问题,变成乱码了
2008-4-12 14:28:59
看看分享下
不错 分享一下,www.shaiwang.com
www.shaiwang.com 不错 分享
哈哈 BOT是什么
是猪?
Leave a comment
Or, take a look at Archives and Categories
百度Spider对Robots.txt的理解能力还在其次
关键是他来访时的频度不对,如潮水般,小站的话是承受不了的~~