User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid
效果:
# allow all directories that begin with 'public', such as '/public_html/' or '/public_graphs/' to be crawled
# 允许以'public'开头的目录被蜘蛛索引;如'/public_html/' 或 '/public_graphs/'将被抓取
# disallow any files or directories which contain '_print', such as '/card_print.html' or '/store_print/product.html' to be crawled
# 禁止任何文件或者目录名中含有"_print"的,如'/card_print.html'或者'/store_print/product.html' t被雅虎搜索引擎的robot(spider)Slurp去抓取。
# disallow any files with '?sessionid' in their URL string, such as '/cart.php?sessionid=342bca31’ to be crawled
# 禁止在URL中包含有'?sessionid'字符的任何文件文件被爬取。
User-Agent: Yahoo! Slurp
Disallow: /private*
Disallow: /private
# 以上的二行命令在Slurp看来,是等效的。
'$' – anchors at the end of the URL string
User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$
# Disallow all files ending in '.gif' in your entire site. Note that without the '$', this would disallow all files containing '.gif' in their file path
# 禁止文件以gif为结尾的被抓取,如果没有用$,则所有包含有.gif字符的文件都被禁止索引。
# Allow all files ending in '?' to be included. This would not automatically allow files that just contain '?' somewhere in the URL string
# 允许文件结尾为?,而不是允许slurp自动抓取URL中其它地方出现”?”者。
注: 如有疑问请以YSearchBlog和Yahoo帮助为准。
英文雅虎的蜘蛛叫 Slurp, 中文雅虎的蜘蛛以前叫 Spiderman其基地在国内,以前二者的抓取好象没有什么联系,虽然我猜测英文雅虎和中文雅虎在索引的网页库中有协同。后来车东在Yahoo中国搜索Blog中提到,slurp支持Delay间隔参数。 查了一下,现在spiderman很少出动了,应该是中英文真正的协同工作了,似乎spiderman最后的疯狂出现在2006年2月左右,现在打着spiderman旗号出动的机器人,也有可能不是真的机器人,有的人把主机头改一下,伪装成某个蜘蛛,成去偷别人服务器上的网页内容。2006年5月仍然有零星的spiderman出动(IP:202.165.102.178),但更多的2006年2月之后派出spiderman的IP地址有点可疑。
如:
2006-10-30 09:41 PM 220.181.32.93 SpiderMan Mozilla/4.0( compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; Alexa Toolbar)
2006-05-13 03:21 PM 211.100.25.191 SpiderMan
2006-09-18 01:33 AM 220.181.32.95 SpiderMan Mozilla/4.0( compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; Alexa Toolbar)
通过这个抓图可以看到

雅国中国和雅虎英文派出的蜘蛛有不同的名称: Yahoo! Slurp 和 Yahoo! Slurp China
雅虎中国搜索主页的标题已经改为:“雅虎搜索_全球领先的中英文搜索引擎”,希望雅虎英文和中文的协同能让中文雅虎中国的自我标榜更加的名符其实。
关于搜索引擎蜘蛛的文章,您还可以参考:
《闲谈二头猪:Googlebot和BaiduSpider》
《Google优化蜘蛛抓取网页流程,节约带宽和流量》

