列表页获取内容页网址时有多余的符号如何处理?

- 作者:zhanhy ——来源:原创 ——

如果在列表页采集内容页网址时,采集规则设置的不够精确,就可能会导致内容页地址采集有多余的符号。如果内容页网址比较复杂建议使用手动规则获取网址,如果手动获取仍然不能解决问题,就不好处理了。下面就说下列表页获取内容页网址时有多余的符号如何处理?

1、如果采集器不是最新版本的话,只能更加详细的设置手动获取规则,把多余的符号排除在外面。如果会自己开发插件的话,可以使用插件来处理这些内容页网址。

2、如果是最新版的采集器,可以在列表页高级模式下面选择列表处理,对多余的符号进行替换处理,处理的方法可以使用正则替换或者内容替换。可以根据自己的需要患者最适合的模式。

举例来说:我在采集过程中发现有些文章设定为新窗口打开的,<a href="http://*******/m2018082002.html" target="_blank">,而在测试文章页时因后带" target="_blank",网址变为http://*******/m2018082002.html" target="_blank,而导致采集内容无法获取内容,有什么办法把网址的" target="_blank这个给去除?

可以把href里面的内容作为链接参数来进行匹配,如果自动匹配失败,可以使用手动模式来匹配,如果参数模式匹配的内容较多,可以选择使用正则模式来匹配。如果以上方法都不行而你使用的最新的采集器,可以参考下图来进行处理:

 

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网

还有什么疑问可以提出来
  • 全部评论(0
    还没有评论,快来抢沙发吧!