内置函数介绍之extract、extractList和exclude

- 作者:神箭手官网 ——来源:神箭手官网 ——

神箭手由于是一个智能化云平台爬虫,由复杂的代码和方便的功能,因此为了方便开发者更个性化的开发爬虫和TDK接口,内置了很多函数在里面。下面的几篇文章我们就开始介绍一下有那么内置函数,这些函数有哪些作用,在什么时候可以使用这些函数。本章我们介绍一下extract、extractList和exclude三个内置函数,希望可以给你带来帮助。

extract

function extract(html, xpath, keepTag)

@param String html 网页文本,可以是整个网页,也可以是一个html片段

@param String xpath xpath表达式

@param Boolean keepTag 是否保留最外层的tag,默认值false,即不保留

@return String 返回html中符合xpath的第一个dom元素的字符串形式。当keepTag为false时,默认去除外层的标签,为true时保留。

代码示例在exclude函数之后。

extractList

function extractList(html, xpath, keepTag)

@param String html 网页文本,可以是整个网页,也可以是一个html片段

@param String xpath xpath表达式

@param Boolean keepTag 是否保留最外层的tag,默认值false,即不保留

@return String数组 返回html中符合xpath的所有dom元素的字符串形式组成的数组。当keepTag为false时,默认去除外层的标签,为true时保留。

代码示例在exclude函数之后。

exclude

function exclude(html, xpath)

@param String html 网页文本,可以是整个网页,也可以是一个html片段

@param String xpath xpath表达式

@return String 返回html中去除符合xpath的所有dom元素后剩余的内容。

从html中去除符合xpath的所有元素。

extract extractList exclude代码示例:

var html = '\

\ abc\ def\ 神箭手\

';extract(html, "//span");//返回"abc"

extract(html, "//span", true);//返回"abc"

extract(html, "//a");//返回"神箭手"

extract(html, "//a", true);//返回"神箭手"

extract(html, "//a/@href");//返回https://www.shenjian.io

extractList(html, "//span");//返回["abc","def"]

extractList(html, "//span", true);//返回["abc","def"]

extractList(html, "//span[contains(@class,'c1')]");//返回["def"]exclude(html, "//span");//返回"神箭手"

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网

还有什么疑问可以提出来
  • 全部评论(0
    还没有评论,快来抢沙发吧!