MySpace.cn有一个比较值关注的地方,就是myspace.cn.xls]MySpace有中文[/URL]和英文二个版本,同时启用了 .cn 和 .com的域名,在二个域名下的东西(结构与内容)是相同的,效果有如镜像,除了界面语言一个是中文,一个是英语。这种多语种站点,对于Google Seo来说,如果不能很好的处理,会损害排名。MySpace估计不会太在意搜索引擎来的流量,反而是Google热情的拥抱了Myspace,为Myspace提供PPC服务,MySpace成为了Google Adwords(AdSense)的最大发布站之一,Google为了这个拥抱花了9亿美元。
店大欺客,客大同样也可欺店,MySpace除了启用.com+.cn,使自己的内容DOUBLE了一次。比多语种网站造成的复制内容网页更为“恶劣”的是,.com和.cn的核心内容是相同的(同一语种),仅仅是网页主要框架内容或中文或英文而已。这种复制内容对搜索者来说可能是毫无用处,只能多浪费Google宝贵的服务器空间,说得不好听点,就是搜索垃圾。小型网站如此这般,有可能会被Google踢了。
闲话不多说了。看结果吧:

图: MYSPACE.cn上线近一个月的搜索引擎收录情况统计图(注:图中Y轴坐标经过对数刻度处理,否则绘出来的的图,Google就把其它的搜索引擎甩得太开了。)
谷歌的收录数量,可以说是遥遥领先于百度和雅虎,仅凭这一点,做出Google的蜘蛛更勤快的结论,并不算过份。
从以上收集的不算太完整的资料,结合以前的一些分析,推测:
1, Google、百度、雅虎三家搜索引擎基本上能做到即时更新(一日一次);
2, Live战略在搜索领域中虽曾强势出击,虎头蛇尾,原先3日一更新也做不到了(至少中文这边的情况是这样)。
3, 搜狗、IASK、中搜、有道的更新频率就更低了,初步估计是一月一次;同样是搜索引擎,差别怎么就这么大咛。
着手写这东东,是5月中旬的事,6月初又动了一次手,其间懒散成性,就一直让这篇BLOG做草稿。从资料收集完成,到最终完成,过去了这么久,其间中文搜索引擎业界也发生了几件好玩的事。
1, 此次收集到的IASK的网页搜索数据,成为了一个历史,新浪把谷歌搜索引进来之后,IASK的网页搜索从此谢幕;
2, 有道(yodao)正式发布了,网易的这相产品是2005年研发,2006年底测试,今年7月1日正式商用。
3, 新浪向左,网易向右,谷歌搜索成了新浪的入幕之宾,网易的昨日恋歌
关于有道,他们有自己的博客,提供了相当详细的背景信息。
说到博客,谷歌开了个《谷歌中文网站管理员官方博客》博客,博主朱健飞,Google的Anti-Spam的成员之一,在他最新的一篇博文提到了二年前的Google中文搜索大清洗。我不太喜欢商业公司使用官方这个字眼,英文offical翻译成官方,一点问题都没有,只是在我的意识里,官方只是用于政府机关,布衣总是对此敬畏三分,祈愿一下,互联网上少一些官样文章,多一些真诚的交流。
附:补充材料小游戏
猜猜看,谁是替身。
文中说到,中文Myspace(.cn)和英文Myspace(.com)互通有无,一个核心内容,二个玉米,二种界面,二倍收录效果;这种情况下谁会是谁的补充材料呢。
大家先猜一下,
下边再看一下,用一英文MySpace老用户的用户进行搜索用inurl:harukaluvya inurl:myspace,在谷歌和英文Google搜索出的结果截图:

图:这是用inurl:harukaluvya inurl:myspace
Google出科意料地判定英文“原创”网页是“补充材料”,而.cn的复制内容则某种程度上被认为是“原创”的。偶又用了inurl:thomasamason inurl:myspace去查,这一回,cn的结果被准确地判为“补充材料”,并淹没在正常结果里。二个搜索组配,都经过直接和经代理去访问.com(英文),貌似这种认定与访问者的IP所在地区无关,只与网页“质量”特征有关。
附件:
本文的原始数据
myspace.cn.xls

