Seo Vista

原创中文SEO观察与观点,搜索引擎优化与网站推广博客。Chinese Search Engine Optimization Blog.

北京SEO培训中心
« Vista的“安全”问题。雅虎单挑百度-挣不挣钱与眼光无关 »

英文Yahoo!的蜘蛛Slurp增加对Robots.txt中的通配符支持

  英文Yahoo!博客宣布其蜘蛛Slurp,增加对Robots.txt中的通配符支持,主要是此入了对通配符'*'和'$'增加支持。在YSearchBlog中,给出了几个例子。英文是引用,中文是俺的理解。

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid


效果:
# allow all directories that begin with 'public', such as '/public_html/' or '/public_graphs/' to be crawled
# 允许以'public'开头的目录被蜘蛛索引;如'/public_html/' 或 '/public_graphs/'将被抓取

# disallow any files or directories which contain '_print', such as '/card_print.html' or '/store_print/product.html' to be crawled
# 禁止任何文件或者目录名中含有"_print"的,如'/card_print.html'或者'/store_print/product.html' t被雅虎搜索引擎的robot(spider)Slurp去抓取。
# disallow any files with '?sessionid' in their URL string, such as '/cart.php?sessionid=342bca31’ to be crawled
# 禁止在URL中包含有'?sessionid'字符的任何文件文件被爬取。

User-Agent: Yahoo! Slurp
Disallow: /private*
Disallow: /private


# 以上的二行命令在Slurp看来,是等效的。

'$' – anchors at the end of the URL string

User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$


# Disallow all files ending in '.gif' in your entire site. Note that without the '$', this would disallow all files containing '.gif' in their file path
# 禁止文件以gif为结尾的被抓取,如果没有用$,则所有包含有.gif字符的文件都被禁止索引。

# Allow all files ending in '?' to be included. This would not automatically allow files that just contain '?' somewhere in the URL string
# 允许文件结尾为?,而不是允许slurp自动抓取URL中其它地方出现”?”者。

  注: 如有疑问请以YSearchBlog和Yahoo帮助为准。

  英文雅虎的蜘蛛叫 Slurp, 中文雅虎的蜘蛛以前叫 Spiderman其基地在国内,以前二者的抓取好象没有什么联系,虽然我猜测英文雅虎和中文雅虎在索引的网页库中有协同。后来车东在Yahoo中国搜索Blog中提到,slurp支持Delay间隔参数。 查了一下,现在spiderman很少出动了,应该是中英文真正的协同工作了,似乎spiderman最后的疯狂出现在2006年2月左右,现在打着spiderman旗号出动的机器人,也有可能不是真的机器人,有的人把主机头改一下,伪装成某个蜘蛛,成去偷别人服务器上的网页内容。2006年5月仍然有零星的spiderman出动(IP:202.165.102.178),但更多的2006年2月之后派出spiderman的IP地址有点可疑。

  如:
2006-10-30 09:41 PM 220.181.32.93 SpiderMan Mozilla/4.0( compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; Alexa Toolbar)

2006-05-13 03:21 PM 211.100.25.191 SpiderMan

2006-09-18 01:33 AM 220.181.32.95 SpiderMan Mozilla/4.0( compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; Alexa Toolbar)

  通过这个抓图可以看到

雅国蜘蛛slurp

  雅国中国和雅虎英文派出的蜘蛛有不同的名称: Yahoo! Slurp 和 Yahoo! Slurp China

  雅虎中国搜索主页的标题已经改为:“雅虎搜索_全球领先的中英文搜索引擎”,希望雅虎英文和中文的协同能让中文雅虎中国的自我标榜更加的名符其实。

关于搜索引擎蜘蛛的文章,您还可以参考:
闲谈二头猪:Googlebot和BaiduSpider
Google优化蜘蛛抓取网页流程,节约带宽和流量

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

支持火狐

图标汇集

  • QQ绝大部分不在线,最好用MAIL与我联系,或者直接留言。
    Seo Vista 联系用电邮
    订阅由FeedBurner烧制的本站RSS
    通过FEEDBURNER订阅量,手工不定期更新,数字可能有出入。
    用Google Reader订阅FeedBurner烧制的本站RSS
    用抓虾订阅FeedBurner烧制的本站RSS
    用鲜果订阅FeedBurner烧制的本站RSS
    用Bloglines订阅FeedBurner烧制的本站RSS
    用Live订阅FeedBurner烧制的本站RSS
    用My Yahoo订阅FeedBurner烧制的本站RSS
    用飞鸽订阅FeedBurner烧制的本站RSS
    用Netvibes订阅FeedBurner烧制的本站RSS
    用Rojo订阅FeedBurner烧制的本站RSS
    订阅由FeedBurner烧制的本站RSS
    用Google Reader订阅FeedSky烧制的本站RSS
    用抓虾订阅FeedSky烧制的本站RSS
    用鲜果订阅FeedSky烧制的本站RSS
    用Bloglines订阅FeedSky烧制的本站RSS
    用和迅订阅FeedSky烧制的本站RSS
    用LIVE订阅FeedSky烧制的本站RSS
    用My Yahoo订阅FeedSky烧制的本站RSS
    用飞鸽订阅FeedSky烧制的本站RSS
    用Netvibes订阅FeedSky烧制的本站RSS
    用Rojo订阅FeedSky烧制的本站RSS
    从本地订阅本博客RSS
    ATOM RSS 2.0
  • More blogs about seovista

最近发表

Powered By Z-Blog 1.7 Laputa Build 70216

Copyright Seo Vista All Rights Reserved.