根据W3C的规范,正确的源应该如:
<link rel="alternate" type="application/rss+xml" title="RSS" href="/updates.rdf" />
百度在2006年底开始测试其BLOG搜索功能,在其蜘蛛BaiduSpider加入了RSS爬取的功能,就是这个RSS Crawl功能给我朋友的网站带来了一些麻烦,该BLOG在HEAD部分源码如下:
<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss/" />
(从异常表现的BLOG页其百度CACHE中调出来源码)BaiduSpider在处理该网站时,似乎陷入了一个死循环,就是平常所说的把蜘蛛套在网站里,出不来了。结果如何呢?百度是这样干的,“就是当前目录下的/rss,打开这个目录后,因为没有404,紧接着就是xxx/rss/rss/再这个页面,又是个Rss,就变成xxx/rss/rss/rss/”,这句话是朋友说的。
请看截图:

图:百度因为BaiduSpider抓取错误,把一张网页当三张网页收录
果不其然,百度索引该网站中的一个网页,由于判断那个位于HEAD里“RSS/”源的LINK出了问题,打起了小九九,在里面拱啊拱地拱九次,然后变戏法样地,把一张网页收录成3张网页了。然后出现巨多的相似页面,后果自然是降低BaiduRank了。
这个网站出问题的地方还有没有设404错误默认页面,而是转向。对于在乎百度流量的网站,如果在HTML源码HEAD部分设置RSS源,请尽量使用绝对地址,而不要使用相对地址,或者出错。

