2016年6月百度蜘蛛3.0上线,百度蜘蛛爬虫进入新时代,相比2010年的2.0,已结整整过去了5年,这5年产生了数以亿计的网页数据量,原来的数据处理根本满足不了广大站长的需求,让我们来看看3.0有什么新的科技突破!

1、链接发现页面
相比2.0时代,3.0借助于越来越完善的百度站长平台,每天发现的新链接有500亿左右,其中用百度站长工具中的自动推送、主动推送、搜索引擎提交、sitemap功能可以让优质内容,尤其是中小型网站的页面,快速高效的被百度蜘蛛发现。
2、时效性方面
在2.0时代,好多站长朋友们都有这样一种感觉,百度蜘蛛青睐一些大的网站平台,一篇很好的优质文章自己的网站发布之后没有被收录,相反被其它人复制转载到一些大的平台,反而获得收录,并且有了很好的排名,这对于小站长们而言就没有继续创作高质量网站的动力了!
而在Baidu Spider3.0上线后,上面这些情况将得到大大的改善,3.0的抓取效率和能力大大加强,嗅觉更加的敏锐,站长的优质内容将会大大的呈现在用户面前,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。这样,更多的高质量内容展示给搜索用户,建立一个更加健康的互联网生态。
3、死链方面
新的死链模型库,对各种协议死链,内容死链,跳转死链短时间内识别,并进行快照的删除,这对于站群,shell挂马,蜘蛛池等偏门行业几乎不在可行。
4、建库索引方面
原先的2.0时代,百度获得的排名快照基本都是10天左右,从抓取-收录-索引-排名,将是一个漫长的过程,新的3.0蜘蛛大大减少这个时间,提升40%-80%不等!搜索引擎从用户搜索到最终搜索结果展现的步骤是:抓取、建库、排序、展现,抓取和建库速度大幅提升意味着站点的内容可以比原来更快的展现给最终搜索用户。
5、链接提交方面
站点提交链接会更易收录,主动推送工具获取16个英文数字组合的字符串,制作数据推送接口,实现最快速度的数据推送。该功能自开放日提交数据5000W,提交数据平均被抓取时间早于爬虫发现时间4个小时;提交数据当天收录量60%--100%,这说明,大多数站点使用此功能收效都是不错的。
百度蜘蛛3.0 把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!
|