火车采集器请求过滤插件 pdf转图片插件

- 阅183

近期由于项目需要要对火车采集器的规则编写一个插件,需求1:火车采集器请求列表时过滤部分数据,只采集2021年和2020年的数据,其它时间数据不采集。2:文章中的pdf地址自动下载到本地后转成图片,pdf页数过多只转换前5页,并自动提取第一页部分图片区域作为预览图,数......

C#代码Base64编码转图片和图片转Base64的方法

- 阅79

在使用火车采集器和火车浏览器时如果遇到图片是Base64字符时,可能软件本身就不知道怎么处理了,这个时候就需要用到插件了,如果找官方开发的话500元起步。这个价格对咱们来说,就太不友好了。这里给两个插件代码,有需要的或者不懂的可以直接来用了。......

火车采集器5118伪原创常见问题

- 阅142

5118伪原创插件功能需要火车头采集器的高级版本才支持,这个版本需要付费才可以正常使用,这点希望使用前可以明白。......

火车浏览器问题找不到分词插件怎么回事?

- 阅89

火车浏览器官方在6月22日升级了7.4版本,至于万众期待的火狐浏览器内核升级版8.0仍然没有出来,具体推出的时间估计还需要等待一些时间。这里简单说下7.4版本的新功能和站长在使用时发现的新问题,比如7.4版的分词插件不可用。这个问题就很让人受不不了,为什么这么说......

火车采集器Python插件Http请求插件异常

- 阅76

火车采集器支持插件处理一些采集器本身无法处理的问题,比如只采集某网站当天的文章而文章链接地址当中有时间串,这样我们在列表页采集详情页时,就可以只要当天的文章链接。在今天实现这个步骤的过程中发现火车采集器Python插件Http请求插件异常,但是内容处理插件......

火车浏览器PHP插件对比两个列表变量的相同值

- 阅128

最近要做一个脚本,需要拿标题在百度搜索一下,之后根据搜索结果来判断这个搜索结果是否符合要求。如果结果中全词都包含当然可以直接拿来使用,但是如果搜索结果和搜索标题不能全词匹配,这时就需要其它方法来判断是否可用。因此就想到了先把搜索结果和搜索标题......

火车采集器插件从摘要中自动提取标题

- 阅75

火车采集器作为一款爬虫软件,功能比较强大很多功能都可以完成,一些软件处理不了的问题也可以使用插件来处理。火车采集器可以支持的插件有C#,Python,PHP,会用那种语言就可以自己开发适合自己的插件了。下面介绍一款用python做的插件,实现从摘要中自动提取标题,希......

怎么采集非图片格式的图片文件?

- 阅1663

现在由于图片存储的多样性,有一些网站的图片地址可能已经不是一个标准的图片格式。这种情况采集器可以正常采集到图片吗?答案是可以的,只要把图片地址采集对,配置好图片下载的环境是没有问题。如果页面有cookie一定要记得更新cookie才可以正常采集到图片。那么如......

求解各位大神们帮忙看一下这个网站的如何写采集规则?

- 阅4836

有网友问站长这个网站的招标信息要怎么采集,下面针对这个网站的采集咱们看看其它网友的回答,看过之后站长来给大家说下这个网站要怎么采集到招标的数据。通过测试发现直接对网站进行采集就可以,写了一个只采集列表和内容页只采集标题和正文的规则。感兴趣的可......

火车采集器V9调用5118智能原创插件教程

- 阅54

新版火车采集器可以使用5118智能原创插件,之前做过一个评测,虽然5118伪原创之后,原创度提升不明显。但是有一个好处是基本不会影响到阅读,因此这个功能还是比较好的,下面就介......