您的位置首页百科问答

织梦系统建站:[4]采集规则写法

织梦系统建站:[4]采集规则写法

的有关信息介绍如下:

织梦系统建站:[4]采集规则写法

织梦建站是一套比较完善的系统。今天我来给大家说一下如何进行采集规则的写法。我们用经验的地址来做测试。

首先进入系统点击采集,然后选择采集节点管理,

点击新增节点,进入采集类型选择今天我们选择普通文章采集

点击确定后进入列表页采集,

进入采集页面后我们可以看到各种需要填写的 分别是:节点名称、编码、来源属性、文章网址匹配规则等几项,其中节点名称和编码我们不做介绍。

主要介绍列表网址获取规则,我们这里以百度经验为实例:首先看url:http://jingyan.baidu.com/list/50这个是生活家具页面的url,

然后我们看一下下一页的url:http://jingyan.baidu.com/list/50?pn=26

这就说明了他的第一页应该是http://jingyan.baidu.com/list/50?pn=1 我们可以访问下是否正确正常。这里我们就可以这样写看图3 百度设置分页的模式是25编码分一次。

按照上图写完后点击测试,出现一个网址列表,可以复制到浏览器里看看分页是否正确。

然后开始对列表页进行匹配,这里就需要看经验的分页代码,首先我们看分页的开始代码,首先找到开始代码这个代码必须是唯一的如:唯一的结束代码:

我选择的是分页那里的代码,写完后点击保存并测试

点击测试后我们看到一排测试数据就是采集过来的数据但是很多东西是没必要的比如经验上的id等

这里我们就需要做一些限制来屏蔽id,点击返回上一步来修改。这里我们限制必须带有/article/ 不能包含/list/2 :如图设置

点击测试,文章正常

进入下一页我们先来设置标题也就是title的获取:北海道戚风蛋糕(低糖版)_百度经验 这个是经验的标题代码我们直接获取代码丢在需要改动的地方如: 内容_百度经验

然后我们来获取内容:跟列表一样找到唯一的标识:

[内容]
我这里是这样写的根据经验的格式,然后选择一些规则对js、div、table等屏蔽即可。

然后点击保存可以开始采集试试咯ok看效果。

注意某些网站每个栏目不一样需要注意采集的规则适当调整