商铺优化
>> 更多
商铺优化
您的位置:商铺优化
搜索引擎蜘蛛是什么?他是怎么收录商铺的内容? 发布于2017-4-13 15:42:03

网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者)是一种按照一定的规则,自动地抓取万维网(环球​信息网/www)信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

 

     

 

互联网是个繁忙的地方。据不完全统计,截至2016年3月中旬,在线网页至少有46.6亿个。客户端、服务器端脚本语言的应用使得指向相同Web信息的URL数量呈指数级增长。为提高爬行效率,爬虫需要在单位时间内尽可能多的获取高质量页面,是它面临的难题之一。当前有五种表示页面质量高低的方式。

 

1.页面与爬行主题之间的相似度

2.页面在Web图中的入度大小

3.指向它的所有页面平均权值之和

4.页面在Web图中的出度大小

5.页面的信息位置

6.并行性问题

 

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:

 

1、通用网络爬虫(General Purpose Web Crawler)

通用网络爬虫又称全网爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据 常用的爬行策略有:深度优先策略、广度优先策略:

 

a、深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。

b、广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。

 

2、聚焦网络爬虫(Focused Web Crawler)

聚焦网络爬虫,又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。

 

A、 基于内容评价的爬行策略:Herseovic对Fish Search算 法 进 行 了 改 进 ,提 出 了Sharksearch算法,利用空间向量模型计算页面与主题的相关度大小。

B、基于链接结构评价的爬行策略: Web页面作为一种半结构化文档,包含很多结构信息,可用来评价链接重要性。 

C、基于增强学习的爬行策略:利用贝叶斯分类器,根据整个网页文本和链接文本对超链接进行分类,为每个链接计算出重要性,从而决定链接的访问顺序。

D、 基于语境图的爬行策略:Diligenti等人提出了一种通过建立语境图学习网页之间的相关度,训练一个机器学习系统,通过该系统可计算当前页面到相关Web页面的距离,距离越近的页面中的链接优先访问。

 

3、增量式网络爬虫(Incremental Web Crawler)

增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。

 

4、深层网络爬虫(Deep Web Crawler)

Deep Web中可访问信息容量是Surface Web的几百倍,是互联网上最大、发展最快的新型信息资源。

 

实际的网络爬虫系统通常是几种爬虫技术相结合实现的,由此可见,想要爬虫快速高效的抓取我们发布的内容,必须对爬虫投其所好,方能实现更好的收录。

相关问题:
营业执照注册号: 440301103091708 中华人民共和国电信增值业务经营许可证号:粤B2-20100261
总部地址:深圳市宝安区金海路汇潮科技大厦 2604、2605 邮编:518101
电话:0755-88849616 传真:0755-27838114