神箭手爬虫内置对象之hostFile和options

- 阅11125

前面我们介绍了神箭手爬虫的三个对象,下面我们接着介绍其它的对象,希望可以认真学习,给你带来帮助。本篇文章我们介绍hostFile和options对象。首先我们来说下hostFile对象,这个对象主要是用来存放文件的一个对象。......

内置函数介绍之extract、extractList和exclude

- 阅161

神箭手由于是一个智能化云平台爬虫,由复杂的代码和方便的功能,因此为了方便开发者更个性化的开发爬虫和TDK接口,内置了很多函数在里面。下面的几篇文章我们就开始介绍一下有那么内置函数,这些函数有哪些作用,在什么时候可以使用这些函数。本章我们介绍一下e......

shenjian对象有哪些函数如何使用?

- 阅191

对于爬虫来说比较重要的一个问题就是采集源的读取问题,只有确定了采集源读取问题之后才可以开始运行爬虫。而神箭手智能爬虫中内置的对象shenjian,就是一个全局对象。这个对象主要用来提供一些和神箭手平台相关的函数,而这些函数里面就有readSource对象,可以使用这......

停止爬虫对象system对象如何使用?

- 阅128

爬虫在爬取数据一般情况下我们是不需要做其它操作,但任何事情总会有以外,所以特殊情况时我们需要让爬虫停止。而system对象是一个全局对象,用来让爬虫停止。......

console对象的要如何使用?

- 阅114

我们在编写爬虫时,为了统计采集到的数据和查看采集数据的情况,通常情况下都会对爬取记录做日志,以方便做日志分析,这样也是为了进一步的优化爬虫所遇到的问题,从而可以爬取到大多数的数据。如果没有爬虫日志和日志分析,那我们做的爬虫往往在网站改版之后就......

神箭手内置Page对象的属性和方法

- 阅110

page对象主要是在回调函数中传递使用,表示正在爬取网页。它的生命周期对应的是URL的生命周期。简单的说就就是URL被调度后开始它的生命周期,page对象会随后创建,并一直持续到URL的生命周期结束之前。那么page对象有哪些属性和方法,page对象的属性有:url,raw,contextDa......

爬虫中的回调函数都有哪些?要怎么使用?

- 阅137

爬虫中都有回调函数,那么回调函数是究竟是什么,很多人可能不太清楚。其实回调函数就是爬虫运行中的一些钩子(Hook),我们可以根据需要,来实现这些函数的回调,这样可以节约很多重复代码的编写,爬虫的速度也会更快。我们之前在讲解爬虫生命周期时,其实已经列......

神箭手爬虫的内置对象有哪些?

- 阅167

为了更方便的让用户编写爬虫和更个性化和智能化的编写,内置了一些对象在里面。这些对象有哪些,都有什么用呢!这里就给你介绍一下。包括全局对象和回调函数中传递的对象。首先我们来说下site对象。......

field对象是什么?可以使用那些函数?

- 阅160

我们在配置完爬虫的config配置之后,就要开始配置field对象,这个对象主要是用来结果字段。也就是爬取结果字段,我们一般也叫这个为抽取......

要怎么使用configs属性?

- 阅58

我们在编写神箭手爬虫的时,新建完爬虫之后,就要开始配置爬虫的配置文件。这个配置文件就是config属性。那么config属性要怎么使用和配......

爬虫和链接生命周期是什么意思?

- 阅67

我们在编写爬虫的时候就给予了爬虫生命周期,生命周琦就是从爬虫启动到爬虫结束的这段时间。爬虫启动之后,根据configs属性初始化,初......

链接去重的原因是什么?

- 阅172

我们在编写爬虫的时候会遇到一个常见的问题,就是链接去重。那么为什么会出现链接重复的情况呢!我们又为什么要在爬虫中使用链接去......