爬虫和链接生命周期是什么意思?

- 作者:神箭手官网 ——来源:神箭手官网 ——

我们在编写爬虫的时候就给予了爬虫生命周期,生命周琦就是从爬虫启动到爬虫结束的这段时间。爬虫启动之后,根据configs属性初始化,初始化完成之后开始通过回调initCrawl,之后进行beforeCrawl回调,然后在进行onDataReceived回调等。通过回调函数完成一些高级的初始化设置,然后控制权交给链接调度器。链接调度对待爬队列中的url进行调度,每个url进入其生命周期,直至待爬队列中的url为空,调用afterCrawl、beforeExit结束爬虫。爬虫的生命周期具体情况如下图所示:

  

上面讲述了爬虫的生命周期,下面我们接着来说链接的生命周期,链接的生命周期主要是链接调度,链接调度是爬虫生命周期中很重要的部分,下图是一个url被调度后的完整生命周期:

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网

还有什么疑问可以提出来
  • 全部评论(0
    还没有评论,快来抢沙发吧!