内置函数介绍之extract、extractList和exclude

- 作者：神箭手官网 ——来源：神箭手官网 —— 更新时间：2020年02月24日 17:35:16

神箭手由于是一个智能化云平台爬虫，由复杂的代码和方便的功能，因此为了方便开发者更个性化的开发爬虫和TDK接口，内置了很多函数在里面。下面的几篇文章我们就开始介绍一下有那么内置函数，这些函数有哪些作用，在什么时候可以使用这些函数。本章我们介绍一下extract、extractList和exclude三个内置函数，希望可以给你带来帮助。

extract

function extract(html, xpath, keepTag)

@param String html 网页文本，可以是整个网页，也可以是一个html片段

@param String xpath xpath表达式

@param Boolean keepTag 是否保留最外层的tag，默认值false，即不保留

@return String 返回html中符合xpath的第一个dom元素的字符串形式。当keepTag为false时，默认去除外层的标签，为true时保留。

代码示例在exclude函数之后。

extractList

function extractList(html, xpath, keepTag)

@param String html 网页文本，可以是整个网页，也可以是一个html片段

@param String xpath xpath表达式

@param Boolean keepTag 是否保留最外层的tag，默认值false，即不保留

@return String数组返回html中符合xpath的所有dom元素的字符串形式组成的数组。当keepTag为false时，默认去除外层的标签，为true时保留。

代码示例在exclude函数之后。

exclude

function exclude(html, xpath)

@param String html 网页文本，可以是整个网页，也可以是一个html片段

@param String xpath xpath表达式

@return String 返回html中去除符合xpath的所有dom元素后剩余的内容。

从html中去除符合xpath的所有元素。

extract extractList exclude代码示例：

var html = '\

\ abc\ def\ 神箭手\

';extract(html, "//span");//返回"abc"

extract(html, "//span", true);//返回"abc"

extract(html, "//a");//返回"神箭手"

extract(html, "//a", true);//返回"神箭手"

extract(html, "//a/@href");//返回https://www.shenjian.io

extractList(html, "//span");//返回["abc","def"]

extractList(html, "//span", true);//返回["abc","def"]

extractList(html, "//span[contains(@class,'c1')]");//返回["def"]exclude(html, "//span");//返回"神箭手"

如果你还有其它疑问可以来本站搜索相关问题，这里会有你想要的答案：火车脚本网