多页采集是否可以实现unicode转码功能?

- 作者:zhanhy ——来源:原创 ——

今天站长在论坛看到这样一个求助的帖子,想要实现火车采集器多页采集器实现unicode转码,然后通过请求转码后的地址采集到相关的内容。下面先介绍一下问题的需求详情,然后再说一下该功能的实现方法和操作步骤。希望可以帮助到这位求助者。

id= "\u7f8e\u5973\u56fe";

从上面的页面里,采集到url,再拼接成新的地址,做为多页的地址, 拼接出来的地址里能把unicode的编码,转成中文吗?

通过这个地方提取到的多页地址为:http://www.a.com/id=\u7f8e\u5973\u56fe,直接访问这个地址,无法正常访问。转码之前的地址是:http://www.a.com/id=美女图。目前想要采集这个地址,求助实现的办法。

 

想把上面划红线的地方,变成中文, 相当于做一次Form js string的编码转换, 要如何实现呢? 谢谢

目前最新版的采集器9.11以后的版本可以实现列表页地址特殊处理的功能,参看下图。但是多页地址这里目前没有这个功能,因此就不能使用这个方法了。如果会使用插件开发的人呢,可以自己开发一个插件实现这个功能。如果不会,可以换个角度去实现。如果所有的多页这里的字符串都一样,可以直接在多页设置里面将要替换的内容写死,这样就可以实现了。如果这个方法不能满足你的需求,只能使用插件来开发了。如果多页这里可以直接调用标签字段的话,会更方便也更加开放。但是目前官方还没有实现这个功能。

多页.png

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:火车脚本网

还有什么疑问可以提出来
  • 全部评论(0
    还没有评论,快来抢沙发吧!