火车头采集器 v9.5 实用下载

火车头采集器 v9.5 实用下载

大小:31.44MB类别: 其它行业

更新:2021-06-29系统: WinAll

此软件请到pc下载
软件介绍
  • 火车头采集器 v9.5 实用下载

光行资源网提供火车采集器v9安卓版是一款专业能力很强的数据收集软件,客户能够应用这款软件对网页页面中的数据信息开展收集,收集进行后能够立即储存或是公布。火车采集器精简版内嵌自动式作用,不用人力值班实际操作,每日任务收集进行后回开展自动开关机,在空余时还能实时监控系统,保证网络信息安全,十分便捷。

火车采集器免费完整版有着在线文档编辑作用,并且适用大批量编写与解决,大大的节约了你开启的時间,提升了工作效能。

火车采集器v9破解版

火车采集器功能介绍

1、网址采集

火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息。可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息。

支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式。应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方式。

火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确

2、内容采集

火车采集器可以通过分析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集。

通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集。火车采集器配置了三种内容提取的方式:前后截取、正则提取、正文提取。可选性强,用户可以按照使用需求进行选择。

内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。

3、数据处理

对于采集到的信息数据,火车采集器可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准。主要包括:

1)标签过滤:过滤掉内容中不需要的空格,链接等标签;2)替换:支持近义、同义词替换;

3)数据转换:支持汉译英、简转繁、转换为拼音等;

4)自动摘要、自动分词:支持自动生成摘要和自动分词功能;

5)下载选项:火车采集器支持任意格式的文件探测下载,并能够将相对地址智能补全为绝对地址。

4、数据发布

火车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发。

根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置自动登陆网站,获取栏目列表等;如果入到用户自己的数据库中,用户只需写几个 SQL 语句,程序就会按照用户的 SQL 语句导入数据;保存为本地文件时支持本地 SQL 或文本文件(word、excel、html,txt)格式。

5、多任务多线程运行

火车采集器可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务。单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率。

6、HTTP 二级代理服务器

火车采集器可以通过二级代理服务器的功能实现 IP 的更换,避免因 IP 被限制访问而导致的采集无法运行,用户需先获取一些代理 IP,然后将代理 IP 导入采集器中完成设置即可。

7、计划任务管理器

火车采集器支持计划任务管理,能够定时自动地进行采集发布,实现自动更新的功能,可对加入计划任务内的任务设置其执行的频率和开始运行的时间,执行频率可以选择每周、每天、每间隔,或根据用户需求自定义 corn 表达式执行。

8、任务运行日志管理

火车采集器配置了采集监控系统,任务运行管理器将采集监控模块生成的记录信息组装成日志条目,如果启用了自动运行功能或需要对程序运行状况进行监控,可以查看任务运行日志中某个日期时间段内的运行情况,来做具体的分析。

可以具体了解到任务的成功数量、失败数量,重复数量和用时等数据。

9、插件扩展

火车采集器支持 PHP 和 C#插件扩展,可以帮助用户对采集的数据进行修改处理,完成用户的更多需求,极大的扩展了采集器的功能。用户可以按照插件开发手册自行开发所需插件,也可以使用火车采集器官方开发的一些插件资源。

火车采集器中配置了插件管理器,可对插件列表进行管理和选择插件方法,支持插件测试。

功能介绍

火车采集器使用教程

下载安装火车头采集器,有付费与免费版

安装后,双击打开,进入程序主页面,新建分组。

选中刚才新建的分组,然后右键创建任务。

编辑任务名称,然后添加要采集的目标页面链接。

选择批量/多页采集

网址采集的规则设置:

注意:采集的量根据自己的需求来改

添加采集规则

进入采集的目标页面,点右键查看源代码。找到要采集的文章的标题,然后往上找div,逐个查找,找到页面中唯一的一个div,然后复制下来。

同理再找到最后一个div。

这样做目的是缩小采集目标的范围。

然后以第一个div开始,最后一个div结尾。

把代码复制到对应的选定区,然后可以保存,先测试一次

测试成功。那么采集的大致范围选定了,下面来修改采集规则,让采集的内容达到我们想要的内容。

先找到内容页链接的规律,然后去掉不想要的其他代码。

然后来进行采集的第二部:内容规则的设置

设置标题替换

标题替换设置好后,测试效果

设置内容部分的替换

去页面的后台代码,找到文章内容上面唯一的一个div,和文字结尾后面唯一的一个div,然后复制代码放到对程序对应的设置框里。

再设置html代码的过滤,留下需要的,去掉不需要的。然后点击确定,保存,去测试一下。

以上测试成功后,进行最后一步发布的设置。

在web发布配置管理,里面进行配置

主要是配置网站后台的登陆信息和要发布的栏目,然后保存配置 ,全部保存,就OK了,可以正式批量采集文章了。

使用教程

火车采集器收费与免费的区别

1、免费版的和商业版本的论坛采集器有什么区别?

答:论坛采集器目前有三个版本,免费版,网络授权版,加密狗版。免费版的有功能上的限制,只能在测试的时候进行下载到图片和附件,真正采集发布的时候图片,附件等无法下载。

免费版本和收费版本的主要区别是,免费版本不支持文件下载,不支持自动运行。不支持插件,回复只能采一页,其它功能和收费版是一样的。

2、论坛采集器的详细特性?

答:论坛数据采集专家的特性

1.完美支持楼层类数据的采集.例如论坛,帖吧,知道,点评等网站类型的抓取.

2.支持附件和图片的原名下载和上传,支持上传后保持原有的图文混排格式.

3.独有的普通采集,续采,更新采集三种模式.续采功能可以对旧版中的新回复进行采集,更新采集对已经采集过的数据进行重新采集,有更新再发布.

4.支持标签的随意添加,添加的标签将被采集器保存并发布到网站上去.

5.内容页支持循环采集和不循环采集,不循环采集的内容将被添加到循环采集的结果中去.比如知道中有问答,回复和最佳答案,可以通过此功能获取最佳答案.

6.支持时间标签的模糊识别,只要是有时间二字的标签,其中的时间将被提取出来作为结果,解决了部分时间难以提取的问题.

7.可选的采集帖子类型.用户可以自定义帖子类别,实现有选择的采集.

8.通过插件模块,用户可以针对需求编写程序,实现更多的功能.

9.无人值守,自动运行功能。

一个针对论坛,一个通用区别

火车头采集器规则默认地址修改

1、打开火车头 新建分组规则

拿到规则之后,打开火车头,如果用的火车头开心版的,不要输入账户名和密码,直接点击登录即可,如果是免费版的需要输入账号和密码登录,火车头官方注册即可。

登录上之后,然后打开火车头,即上图所示,新建一个分组规则,名字自己命名。

2、导入任务

点击分组规则,右键--导入任务,选择淘小白发给大家的火车头采集规则,打开即可。

3、编辑规则

点击导入的规则,右键编辑,即可打开编辑界面

4、修改起始地址规则

起始地址,这里双击即可打开,然后编辑搜词的关键词,还有列表页的页数,自己修改,根据需要自行修改,修改完点击确定即可。

5、修改规则采集标签

有些规则我也是在用的,所以,有的采集标签需要我们自己检查一下,把内容字数限制什么的,还有一些数据处理,自己都检查一下,需要修改的,自己修改下,不需要修改,就保持原样即可。

6、发布修改

内容发布修改的地方,可以修改保存的格式,这里是保存为本地的修改方法,如果是在线发布,请根据自己的发布模块进行配置。

7、其他设置

其他设置这个地方,先检查发布间隔,如果很长,自己修改下,还有其他的一些发布内容,不懂的后面自己研究一下。

这样基本就修改完了,修改完成之后,然后点击保存退出即可。

8、正式采集前清空数据

点击任务规则,右键清空采集数据,然后正式开始采集。

9、正式采集请勾选这些

正式采集的时候,请勾选这3个,也可以先采集网址和内容,最后的时候,只发布数据。

火车头采集器规则默认地址修改

常见问题

火车采集器怎么安装

1、打开hccjq.exe软件

2、开始火车采集器安装向导,下一步

3、接受安装协议,我同意

4、安装软件位置放置d磁盘,(修改磁盘选项,点击浏览按钮,并点击安装按钮<

img src="/uppic/170804/201708041352056602.jpg" alt="" />

5、加载软件程序,完成安装,退出程序

火车采集器怎么采集数据

打开软件并注册

新建分组,新建任务

打开界面,按顺序填入您想采集的网址以及采集的选择范围,范围从网页的源代码里选取不重复的代码段,不然会报错。这个网址可以是直接是要采集的内容页也可以是分页,本例以最简单的直接采集页面为例,那么选择级别为;0”

编辑内容采集的规则,也是要求能识别的标志性代码段,能够唯一识别或最早识别所需采集内容的。这样出来结果是一条数据。

如果采集网址内容有规律的重复,且为我们需要的数据,可以点击;循环匹配”这样能采集下来所有相同代码段的内容。这样出来结果是格式相同的n条数据。

选择发布的格式,好多收费的,txt不收费,自己看的话可以选此,有其他需要请自行选择,另外模板标签需要自己编辑。

图例为采集结果,直观显示,如果问题亦会在此报错。

选择任务,右键单击;开始”即可。

常见问题

火车采集器怎么采集优酷电影规则

可以用小猪浏览器,兼容市面上所有的论坛博客网站模式,且自动识别其版本。最重要的是集的时候不需要使用规则,直接选中你想转发的内容即可转发到你指定的网站上。还有更多的功能。另外还有视频教程,看一遍就会了。非常的简单。

火车采集器怎么去掉时间

纯正则替换是可以的,因为这是固定的4位数字,可以使用 \.net/\d{4}/(\d\d)(\d\d)/ ,然后反向引用$1和$2即可。

火车采集器怎么用

1、采集网址规则,点击添加

2、选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成

3、采集内容规则

双击【标题】,弹出标题编辑框

4、提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串

5、添加【html标签排除】【内容添加前后缀】,点击确定就可。

6、发布内容设置。启用方式二来保存采集结果。

文件名格式可以根据自己喜好,任意选择。

文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。

7、设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。

更新日志

火车头采集器v9.5更新

1、调整列表页排重的方式,现在仅会在同级列表页之间进行排重。

2、增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】 。

3、新增支持对于一些请求返回码不为200时,仍然进行采集的配置。

4、新增支持将下载地址保存为html文件的功能。

5、二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。

6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。

7、修复命令行控制,closeapp参数无法自动关闭程序的问题。

8、修复在未选择图片水印时,无法进行图片剪裁的问题。

9、优化开始界面加载方式,解决初始化界面卡顿的问题。

10、修复在配置多行连接符包含;|”导致的无法探测图片下载的问题。

11、修复Excel导出数据时,列的顺序与字段顺序不一致的问题。

12、修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。

13、修复任务批量编辑时,Json采集表达式未能复制的问题。

火车采集器特色

1、任意格式文件下载

照片、压缩包、视頻等任意文件格式的文档都能轻轻松松下载。

2、多识别系统

配置文章正文识别、分词算法识别、任意编号识别等多种多样识别系统,智能化识别实际操作更轻轻松松。

3、可选认证方法

可挑选是不是应用加密狗,随时随地确保网络信息安全。

4、自动式运作

不用人力值班实际操作,任务完成后自动开关机。

5、替换作用

同义词,同义词替换、主要参数替换,原创文章必不可少专业技能。

6、分布式系统快速采集

分配任务至好几个手机客户端,与此同时运作采集,高效率增长。

7、采集视频监控系统

实时监控系统采集,保证数据信息的精确性。
8、适用拓展

适用插口和软件拓展,达到各种各样采发要求。

9、无限级多页采集

支持包含ajax请求数据在内的多个页面信息的无限级采集。
10、支持多数据库

支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。

软件亮点

火车采集器v9是一款专业性极强的数据采集软件!用户可以使用这款软件对网页中的数据信息进行采集,采集完成后可以直接保存或者发布。火车采集器绿色版内置全自动功能,无需人工值守操作,任务采集完成后回进行自动关机,在空闲时还能实时监控,确保数据安全,十分方便。分布式高速采集,多识别系统

H5游戏