提取标签的方法之正则表达式提取?

- 作者:zhanhy ——来源:原创 ——

火车采集器提取字段的方法有好3种,可以使用字段截取,正则表达式,Xpath提取,Json提取4种方式,不同的方式在不同的时候使用才可以最大的提升采集效率。下面就先讲讲如何使用正则表达式提取字段。以这个网址为例:http://www.haimashop.com/thread-28060-1-1.html 采集 标题、正文。

标题由于格式都一致,为了方便我们可以使用字符截取的方式来提取标题。开头字符串:<span id="thread_subject">结束字符串:</span>,之后添加HTML标签过滤,选择内容过滤规则为内容不重复即可。

下面我们着重说下内容标签如何使用正则表达式提取。由于页面内容格式比较多,因此为了能更让规则更加统配,所以使用正则表达式中的:(?<content>[\s\S]*?)这个方法,这个可以使用纯正的正则,以便可以更加精确的提取到数据。这个内容页的正则表达式可以使用:<div class="t_fsz">(?<content>[\s\S]*?)(?:</span>相关阅读:|</table>)注意提取完成之后,为了发布到网站后格式不错乱,可以正常下载到图片,还需要对提取的内容进一步数据处理。数据处理常用的方式也是正则替换和内容替换,后面会有文章进行更加详细的说明,如果你需要这个规则,可以直接下载。
http://www.huochejiaoben.com/uploads/soft/200208/1_1115279101.zip


 

 

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网

还有什么疑问可以提出来
  • 全部评论(0
    还没有评论,快来抢沙发吧!