网站优化
>> 更多
网站优化
您的位置:网站优化 > 站内优化
站内文件优化——Robots.txt 发布于2017-4-24 16:48:22

  

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”。Robots.txt对于任何一个从事SEO研究工作的人都是至关重要的,因为透过 Robots.txt 我们可以直接与搜索引擎蜘蛛进行对话,告诉他们哪些可以抓取,哪些不可以抓取。

 

 

  一、为什么设置Robots.txt?

 

  在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。

 

  二、一些常见的问题和知识点

 

  1、蜘蛛在发现一个网站的时候,第一步是抓取网站的Robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);

 

  2、建议所有的网站都要设置Robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;

 

  三、在robots.txt文件中设置网站地图

 

  可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。(不会的朋友可以让技术帮忙)

 

  四、Robots.txt的顺序

 

  在蜘蛛协议中,Disallow 与 Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。

 

  引擎蜘蛛程序会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL,一个例子可以让你更清楚明白:

 

  1.User-agent: * 2.Allow: /zk71/bbs 3.Disallow: /zk71jc/  这个情况下,蜘蛛/zk71/bbs目录可以正常抓取,但/zk71jc/目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分url。

 

  五、Robots.txt路径问题

 

  在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的URL形式,而相对链接只针对根目录。

 

  六、斜杠问题

 

  Disallow: /zk71jc表示禁止抓取zk71jc这个目录下的所有文件,如:zk71jc.1.html、zk71jc/rmjc.php都不允许抓取;

 

  Disallow: /zk71jc/ 表示禁止抓取zk71jc这个目录下的文件,即允许抓取zk71jc.1.html,但是不允许抓取zk71jc/rmjc.php。

 

相关问题:
营业执照注册号: 440301103091708 中华人民共和国电信增值业务经营许可证号:粤B2-20100261
总部地址:深圳市宝安区金海路汇潮科技大厦 2604、2605 邮编:518101
电话:0755-88849616 传真:0755-27838114