Seo Vista

原创中文SEO观察与观点,搜索引擎优化与网站推广博客。Chinese Search Engine Optimization Blog.

北京SEO培训中心
« Babel Fish 英文YAHOO在线多语种网页翻译服务Alexa采用MS Windows Live搜索引擎,弃用Google »

闲谈二头猪:Googlebot和BaiduSpider

BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流, 并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守 robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.

WMW的Boston Pubcon 2006大会上:Amanda deliberately typed “Disalow” in the robots.txt tool to show that 1) Google will still treat that correctly and 2) the checker tool will warn you about the typo.

人家的一个测试,把robots.txt里的禁止蜘蛛抓取内容命令:Disallow,故意拼写成 "disalow",看看Googlebot对Robots.txt里出现拼写错误是如何处理的,显然GoogleBot正确地分析到这仅仅是一个拼写错误,并按此执行了.

回过头来看看自家人baiduspider+,Feedsky的家伙很是怕它的"袭击",和国外的一些站长一样,因为蜘蛛的抓取行为,会造成服务器变得缓慢,甚至无法响应普通用户的浏览,实际效应有如DDOS攻击. 因而有人用robots.txt去禁止BaiduSpider+的抓取行为,然而令人失望的是:"Baiduspider - not checking robots.txt & how to block?".

在国内,很少有站长敢忽视百度的搜索流量,因为百度更懂中文,而老外的站,只要不提供中文的,想从百度获得流量,就有点不现实了,谁会用百度搜索英文内容呐? 因此他们敢禁止baidu的spider. 最终一部分人采用了服务器端的技术把Baiduspider+挡在外边.

写与百度有关的东西之前,俺一般都会去Search一下,防止自己说得太离谱,开罪BaiduSpider+,人家不来了,俺岂不是得不尝失.

BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流,并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.看过的BaiduSpider+老家的帮助页面,同样我也知道,的确有人冒充百度的蜘蛛去做referral spam ,或者偷站,但是这些人造成的服务器问题,绝不可能和百度这个庞然大物相提并论.

注:
搜索引擎使用的蜘蛛(Spider),被俺的几个朋友私下里称为:"猪",因为和蜘蛛谐音,还有猪好象比spider更宠物化一点. 小吴在开发BT种子搜索时,时不时地在蜘蛛方面碰到小故障,三天二头说:要重放猪出去拱东西了,后来他成功了,俺们都为他挺高兴的.
  • 茁壮成长的弱智Baiduspider(引用)
  • E-space
  • 以前因为流量问题不得不更换服务器,从hhalloyy.de迁徙成了voiov.de。现在的空间是免费的,而且也不用像dreamhost一样考虑cpu占用问题。所以好长一段时间我仅是用普通的统计工具查看下来访人...
  • 2006-5-9 8:57:32
  • quote 2.CT
  • 优质的Spider应该是有节奏的.
    这是养猪秘诀之一.
    有意思 于 2007-10-10 15:51:10 回复
    哈哈,有点意思!www.126bar.cn
  • 2007-10-10 15:51:10 回复该留言
  • quote 3.concorde
  • http://blog.donews.com/concorde/
  • 以前曾经分析过,baidu对待robots.txt似乎是用来决定“收录”那些页面,而不是“索引”那些页面。换句话说你在robots.txt屏蔽baidu只能保证网站不被收录,但不能保证他不爬你。
  • 2006-5-2 19:21:27 回复该留言
  • quote 6.CT
  • 楼上workingbird讲的有点幽默,
    据说baidu和Mr.Li都是US身份,
    结论:是不会吧.
  • 2006-5-5 8:10:08 回复该留言
  • quote 8.ct
  • 呵呵。 没注意,是不是小吴放“猪”不勤劳啊。

    套用《武林外传》佟掌柜的必杀技:“关门,放‘猪’!”
  • 2006-9-8 21:25:55 回复该留言
  • quote 10.小雨
  • 我那个引用通告似乎编码有点问题,变成乱码了
    2008-4-12 14:28:59
  • 2008-4-12 14:31:58 回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

支持火狐

图标汇集

  • QQ绝大部分不在线,最好用MAIL与我联系,或者直接留言。
    Seo Vista 联系用电邮
    订阅由FeedBurner烧制的本站RSS
    通过FEEDBURNER订阅量,手工不定期更新,数字可能有出入。
    用Google Reader订阅FeedBurner烧制的本站RSS
    用抓虾订阅FeedBurner烧制的本站RSS
    用鲜果订阅FeedBurner烧制的本站RSS
    用Bloglines订阅FeedBurner烧制的本站RSS
    用Live订阅FeedBurner烧制的本站RSS
    用My Yahoo订阅FeedBurner烧制的本站RSS
    用飞鸽订阅FeedBurner烧制的本站RSS
    用Netvibes订阅FeedBurner烧制的本站RSS
    用Rojo订阅FeedBurner烧制的本站RSS
    订阅由FeedBurner烧制的本站RSS
    用Google Reader订阅FeedSky烧制的本站RSS
    用抓虾订阅FeedSky烧制的本站RSS
    用鲜果订阅FeedSky烧制的本站RSS
    用Bloglines订阅FeedSky烧制的本站RSS
    用和迅订阅FeedSky烧制的本站RSS
    用LIVE订阅FeedSky烧制的本站RSS
    用My Yahoo订阅FeedSky烧制的本站RSS
    用飞鸽订阅FeedSky烧制的本站RSS
    用Netvibes订阅FeedSky烧制的本站RSS
    用Rojo订阅FeedSky烧制的本站RSS
    从本地订阅本博客RSS
    ATOM RSS 2.0
  • More blogs about seovista

最近发表

Powered By Z-Blog 1.7 Laputa Build 70216

Copyright Seo Vista All Rights Reserved.