神箭手爬虫链接地址类型是什么意思?
- 作者:神箭手官网 ——来源:神箭手官网 ——对爬虫或者对采集了解的人应该都知道一个问题,就是链接地址类型,不同的链接地址所承载的内容不一样。比如文章目录页存放的是文章的内容页地址,但是内容页存放的是文章的内容。我们在采集的时候,通常都是从内容页来采集所需要的内容。因此人们一般只关注最后代管数据信息的web网页页面。
为了提高神箭手爬虫的爬取速度,当然也对链接地址进行分类。那么神箭手爬虫链接地址类型有哪些呢!主要有以下三种类型:入口页,列表页,内容页。
入口页
我们也叫scanUrl,这种网页一般作为爬虫的入口。
列表页
在神箭手爬虫地址类型中叫做帮助页,但是很多人可能对这个概念不了解。因此这里使用了列表页这个词,实际上这个链接地址类型一般情况下就叫列表页,但是神箭手爬虫中叫helperUrl,这种网页一般包含大量的内容页,主要用途是帮助发现内容页。
内容页
我们也叫contentUrl,这种网页承载了我们关心的数据,神箭手爬虫只在这种网页上做数据抽取。对于需要的部分数据在列表页上,我们通过urlContext来解决。对于所需的数据全部在列表页,这种情况我们叫单页面多数据,后面会有专门的章节做介绍。
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网
你会喜欢下面的文章?
还有什么疑问可以提出来
- 全部评论(0)
还没有评论,快来抢沙发吧!