内置函数介绍之extract、extractList和exclude
- 作者:神箭手官网 ——来源:神箭手官网 ——神箭手由于是一个智能化云平台爬虫,由复杂的代码和方便的功能,因此为了方便开发者更个性化的开发爬虫和TDK接口,内置了很多函数在里面。下面的几篇文章我们就开始介绍一下有那么内置函数,这些函数有哪些作用,在什么时候可以使用这些函数。本章我们介绍一下extract、extractList和exclude三个内置函数,希望可以给你带来帮助。
extract
function extract(html, xpath, keepTag)
@param String html 网页文本,可以是整个网页,也可以是一个html片段
@param String xpath xpath表达式
@param Boolean keepTag 是否保留最外层的tag,默认值false,即不保留
@return String 返回html中符合xpath的第一个dom元素的字符串形式。当keepTag为false时,默认去除外层的标签,为true时保留。
代码示例在exclude函数之后。
extractList
function extractList(html, xpath, keepTag)
@param String html 网页文本,可以是整个网页,也可以是一个html片段
@param String xpath xpath表达式
@param Boolean keepTag 是否保留最外层的tag,默认值false,即不保留
@return String数组 返回html中符合xpath的所有dom元素的字符串形式组成的数组。当keepTag为false时,默认去除外层的标签,为true时保留。
代码示例在exclude函数之后。
exclude
function exclude(html, xpath)
@param String html 网页文本,可以是整个网页,也可以是一个html片段
@param String xpath xpath表达式
@return String 返回html中去除符合xpath的所有dom元素后剩余的内容。
从html中去除符合xpath的所有元素。
extract extractList exclude代码示例:
var html = '\
\ abc\ def\ 神箭手\
';extract(html, "//span");//返回"abc"
extract(html, "//span", true);//返回"abc"
extract(html, "//a");//返回"神箭手"
extract(html, "//a", true);//返回"神箭手"
extract(html, "//a/@href");//返回https://www.shenjian.io
extractList(html, "//span");//返回["abc","def"]
extractList(html, "//span", true);//返回["abc","def"]
extractList(html, "//span[contains(@class,'c1')]");//返回["def"]exclude(html, "//span");//返回"神箭手"
如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网
- 全部评论(0)