当前位置:东莞SEO > 百度SEO > 正文

百度蜘蛛的深度优先与广度优先抓取策略

发布时间:2019-03-22 作者:admin
简介 百度蜘蛛对页面的优先抓取策略有两种: 深度优先抓取策略 : 个概念的话,学计算机的应该很好理解,这里简单介绍一下,比如说我去你家提亲,进门肯定要先打招呼,是不是?就是...

百度蜘蛛对页面的优先抓取策略有两种:
 
深度优先抓取策略
深度优先这个概念的话,学计算机的应该很好理解,这里简单介绍一下,比如说我去你家提亲,进门肯定要先打招呼,是不是?就是我先跟你爷爷打招呼,再跟你爸打招呼,再跟你打招呼,然后再跟你兄弟姐妹打招呼,然后再跟你妈打招呼,再跟你奶奶打招呼,这就是深度优先。简单来说就是一句话,就是沿着一条线一直往下走,走到没有路了再返回去,这就是深度优先。
百度蜘蛛深度优先抓取策略
 
广度优先抓取策略
广度优先就比较简单了,是不是?我先跟你爷爷奶奶打招呼,再跟你爸爸妈妈打招呼,我再跟你兄弟姐妹打招呼,就我每一层我都全部抓完了,我再往下面打招呼这样的。这就是广度优先。这里不深究,大家感兴趣的可以去搜相关的一些概念,这个也比较容易理解,我们没有必要去纠结它怎么弄的,蜘蛛也是一样的,它针对不同的网站,根据网站的大小复杂程度,会采用一种或几种方式结合的,然后方法进行全网的抓取。
百度蜘蛛广度优先抓取策略
 
理论上这两种方式都可以抓取的,然后就像我们刚才打招呼的例子,我用两种方法,我都可以跟给你们所有的亲人打一次招呼,是不是?这个方式用在搜索引擎蜘蛛上也是一样的,两种方法它都可以抓取全网的内容,但是搜索引擎蜘蛛的资源和效率有限,他只能说两种结合起来,不会只用一种方法。所以一般域名级别的页面使用的是广度优先策略。内页根据网站的权重,采取两种结合的方式抓取,网站的权重越高,抓取量也越大,刚上线的网站权重很低的,只能用只是用广度优先抓起来一个首页,其他的根本就没有抓取。
 
所以我们很多新上线的网站,会发现在很长的一段时间内,只有首页被收录了,其它没有被收录,这是为什么?很简单,就是因为蜘蛛采用了域名的级别页面,它采用的是广度优先,很快就把你的首页抓起来。然后深度优先的话,因为消耗的资源消耗的资源比较大,然后效率比较低,所以等他来抓起你的内页,估计要等很长的时间。你的页面不是很重要,他不会派蜘蛛来进行深度优先的方式来抓取。
 
因为你刚上线的网站权重比较低,就是重要性比较低,要轮到你的网站,估计要等好久。这就是为什么说我们现在很长一段时间只有首页被抓去。然后我们讲一下网页排名,网页排名是根据我们用户的一个搜索词和搜索需要,对索引库中的网页进行相关性重要性和用户体验的高低,分析得出来的。简单来讲,就是说你的用户体验和和权重越高,你的网页排名就越高,是不是?根据刚才的定义也可以得出来。只要是蜘蛛抓取到的网址都有可能会参与排名,但是参与排名的网页不一定被蜘蛛抓取到了内容,甚至你屏蔽了百度蜘蛛,但百度指数通过其他途径可以抓取到你的网址,但是没有抓取到内容,可能也会成这样的网址也会参与排名,我举个例子就很容易理解。
 
比如说你发表的一篇出去之后,然后你还在其他的网站发了几个链接,就这个文章的链接,然后后面你发现这个文章不太适合放在我的网站上,老板说不要放这里把它删掉,你删了之后,然后蜘蛛还是可以通过其他的,你之前在其他平台发的链接,还是可以通过它来抓取到你的链接地址。但是因为你把他屏蔽了,或者是把它删掉,蜘蛛可能就没有抓取到内容,但是这个网址一样也会参与排名。
 
这个很好理解,然后我们讲一下重要页面优先抓取策略,刚才我们也讲了,因为深度优先和广度优先,抓取策略消耗的资源是不一样,效率也不一样。所以说人家是要根据你的页面的重要性,来决定要不要去抓取。采用什么方式抓取。我们都说了,首页是最重要的,在所有网站,不管是新网站还是老网站,首页都是最重要的,都是百度最看重的一个页面,所以首页它是采用广度优先,它消耗的资源是非常大的,但是效率非常高。
 
它采用的是广度优先,所以网站一上线就被抓取到了首页。然后后面的话因为内页权重比较低,不是很重要,就不会被抓取到了。这个我们也可以看出来,页面越重要越容易被抓取。就同一个网站而言,首页和目录页是最重要的支柱,蜘蛛会经常来,文章页可能蜘蛛来了一次就不会再来了。
 

本文由 东莞SEO发布,转载请保留链接: https://www.dongguanseo.net/127.html