神箭手爬虫链接地址类型是什么意思?

- 作者:神箭手官网 ——来源:神箭手官网 ——

 对爬虫或者对采集了解的人应该都知道一个问题,就是链接地址类型,不同的链接地址所承载的内容不一样。比如文章目录页存放的是文章的内容页地址,但是内容页存放的是文章的内容。我们在采集的时候,通常都是从内容页来采集所需要的内容。因此人们一般只关注最后代管数据信息的web网页页面。

为了提高神箭手爬虫的爬取速度,当然也对链接地址进行分类。那么神箭手爬虫链接地址类型有哪些呢!主要有以下三种类型:入口页,列表页,内容页。

 入口页

 我们也叫scanUrl,这种网页一般作为爬虫的入口。

列表页

 在神箭手爬虫地址类型中叫做帮助页,但是很多人可能对这个概念不了解。因此这里使用了列表页这个词,实际上这个链接地址类型一般情况下就叫列表页,但是神箭手爬虫中叫helperUrl,这种网页一般包含大量的内容页,主要用途是帮助发现内容页。

 内容页

 我们也叫contentUrl,这种网页承载了我们关心的数据,神箭手爬虫只在这种网页上做数据抽取。对于需要的部分数据在列表页上,我们通过urlContext来解决。对于所需的数据全部在列表页,这种情况我们叫单页面多数据,后面会有专门的章节做介绍。

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网

还有什么疑问可以提出来
  • 全部评论(0
    还没有评论,快来抢沙发吧!