企业SEO优化

百度搜索引擎原理一,抓取建库,Spider抓取系统的基本框架!

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种百度支持的返回码:

1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。

3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。

4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

浏览过本文章的用户还浏览过
  • 杭州SEO中的23条纪律

    杭州SEO中的23条纪律

    SEO的23个学科 1根据尼尔森公式,网站的头部和底部放置在我们的网站上最重要的关键词。 2网页标题是关键,不要让他走,让你失败了一半。 3。Tiele、描述、关键词里面不要写太多写太多 [详细]

  • ETag使用效果对比经验分享

    ETag使用效果对比经验分享

    提起向腾讯提交统计数据,大家基本上会想到sitemap,近期又推出的etag是什么东东?知道能有视觉效果吗?只不过在etag推出之初,我们的平台的非人员对视觉效果也是没有预想的,于是 [详细]

  • 百度创始人李彦宏:从创业家到企业家(图)

    百度创始人李彦宏:从创业家到企业家(图)

    坐在笔者对面,李彦宏跟去年接受采访时相比瘦了,却越发显得清俊。 2009年,百度先后推出了“有啊”进入电子商务,又推出凤巢计划,并通过阿拉丁进入“暗网”搜索,同时寻找在 [详细]

  • 百度搜索引擎原理一,抓取建库,Spider抓取系统的基本框架!

    百度搜索引擎原理一,抓取建库,Spider抓取系统的基本框架!

    1、抓取友好性 互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站 [详细]

微信扫一扫

关注公众号送茶叶