如何用火车头采集文章
的有关信息介绍如下:
在做测试站或外推时会用到采集器采集文章,使用火车头采集某个网站的文章非常方便,下面就跟随小编一起来为自己的测试站和外推采集一些文章吧。
双击打开火车头,此处采用LocoySpider_V7.7做示范
为自己要采集的文章建立组别和任务:在菜单栏中点击分组-新建分组—命名组
创建分组后新建任务:在菜单栏中点击分组-新建任务—填写任务名
设置采集规则第一步:点击添加-批量多页(如果是采集单页,则选择单条网址)—输入网址、等差数列—添加完成
等差数列的值根据你要采集的列表页数改变,如要采集5页,则填写5;
添加完成后可点击测试网址采集
设置采集规则第二步:随意打开采集页上的一篇文章做测试,更改标题、内容规则。
更改标题规则:查看文章源代码-ctrl+f 找到文章标题,将标题前后代码填入标题规则中;如图
更改内容规则:查看文章源代码-ctrl+f 找到文章内容的第一句和最后一句,将第一句前面的唯一代码和最后一句后面的唯一代码填入内容规则中。如图
设置规则完毕后,可测试采集效果
设置采集规则第三步:导出采集内容-保存即可
不同的火车头采集版本采集过程可能会略有差异。但原理相同



