提取标签的方法之正则表达式提取？

- 作者：zhanhy ——来源：原创 —— 更新时间：2020年02月09日 11:09:13

火车采集器提取字段的方法有好3种，可以使用字段截取，正则表达式，Xpath提取，Json提取4种方式，不同的方式在不同的时候使用才可以最大的提升采集效率。下面就先讲讲如何使用正则表达式提取字段。以这个网址为例：http://www.haimashop.com/thread-28060-1-1.html 采集标题、正文。

标题由于格式都一致，为了方便我们可以使用字符截取的方式来提取标题。开头字符串：<span id="thread_subject">结束字符串：</span>，之后添加HTML标签过滤，选择内容过滤规则为内容不重复即可。

下面我们着重说下内容标签如何使用正则表达式提取。由于页面内容格式比较多，因此为了能更让规则更加统配，所以使用正则表达式中的：(?<content>[\s\S]*?)这个方法，这个可以使用纯正的正则，以便可以更加精确的提取到数据。这个内容页的正则表达式可以使用：<div class="t_fsz">(?<content>[\s\S]*?)(?:</span>相关阅读：|</table>)注意提取完成之后，为了发布到网站后格式不错乱，可以正常下载到图片，还需要对提取的内容进一步数据处理。数据处理常用的方式也是正则替换和内容替换，后面会有文章进行更加详细的说明，如果你需要这个规则，可以直接下载。
http://www.huochejiaoben.com/uploads/soft/200208/1_1115279101.zip

如果你还有其它疑问可以来本站搜索相关问题，这里会有你想要的答案：火车脚本网