Seo Vista

原创中文SEO观察与观点,搜索引擎优化与网站推广博客。Chinese Search Engine Optimization Blog.

北京SEO培训中心
« 百度shifen.com正解?我的博客我做主 »

百度蜘蛛 vs 网页HEAD错误链接 - baiduspider的小九九

  还是接着昨天那个问题网站讲,当一个博客提供RSS源时,一般都会在网页HTML源代码的文件头部,即HEAD部分里用LINK引出本站或者栏目的RSS源,这样在用户浏览器访问该网页,会显示出一个黄色的RSS图标,提示用户有RSS源可订阅,在IE7.0上显示于工具栏,而在FIREFOX上显示于地址栏后边。

  根据W3C的规范,正确的源应该如:

 <link rel="alternate" type="application/rss+xml" title="RSS" href="/updates.rdf" />


  百度在2006年底开始测试其BLOG搜索功能,在其蜘蛛BaiduSpider加入了RSS爬取的功能,就是这个RSS Crawl功能给我朋友的网站带来了一些麻烦,该BLOG在HEAD部分源码如下:  

<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss/" />

(从异常表现的BLOG页其百度CACHE中调出来源码)

  BaiduSpider在处理该网站时,似乎陷入了一个死循环,就是平常所说的把蜘蛛套在网站里,出不来了。结果如何呢?百度是这样干的,“就是当前目录下的/rss,打开这个目录后,因为没有404,紧接着就是xxx/rss/rss/再这个页面,又是个Rss,就变成xxx/rss/rss/rss/”,这句话是朋友说的。

请看截图:

图:百度因为BaiduSpider抓取错误,把一张网页当三张网页收录

  果不其然,百度索引该网站中的一个网页,由于判断那个位于HEAD里“RSS/”源的LINK出了问题,打起了小九九,在里面拱啊拱地拱九次,然后变戏法样地,把一张网页收录成3张网页了。然后出现巨多的相似页面,后果自然是降低BaiduRank了。

  这个网站出问题的地方还有没有设404错误默认页面,而是转向。对于在乎百度流量的网站,如果在HTML源码HEAD部分设置RSS源,请尽量使用绝对地址,而不要使用相对地址,或者出错。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

支持火狐

图标汇集

  • QQ绝大部分不在线,最好用MAIL与我联系,或者直接留言。
    Seo Vista 联系用电邮
    订阅由FeedBurner烧制的本站RSS
    通过FEEDBURNER订阅量,手工不定期更新,数字可能有出入。
    用Google Reader订阅FeedBurner烧制的本站RSS
    用抓虾订阅FeedBurner烧制的本站RSS
    用鲜果订阅FeedBurner烧制的本站RSS
    用Bloglines订阅FeedBurner烧制的本站RSS
    用Live订阅FeedBurner烧制的本站RSS
    用My Yahoo订阅FeedBurner烧制的本站RSS
    用飞鸽订阅FeedBurner烧制的本站RSS
    用Netvibes订阅FeedBurner烧制的本站RSS
    用Rojo订阅FeedBurner烧制的本站RSS
    订阅由FeedBurner烧制的本站RSS
    用Google Reader订阅FeedSky烧制的本站RSS
    用抓虾订阅FeedSky烧制的本站RSS
    用鲜果订阅FeedSky烧制的本站RSS
    用Bloglines订阅FeedSky烧制的本站RSS
    用和迅订阅FeedSky烧制的本站RSS
    用LIVE订阅FeedSky烧制的本站RSS
    用My Yahoo订阅FeedSky烧制的本站RSS
    用飞鸽订阅FeedSky烧制的本站RSS
    用Netvibes订阅FeedSky烧制的本站RSS
    用Rojo订阅FeedSky烧制的本站RSS
    从本地订阅本博客RSS
    ATOM RSS 2.0
  • More blogs about seovista

最近发表

Powered By Z-Blog 1.7 Laputa Build 70216

Copyright Seo Vista All Rights Reserved.