首页 >  教程备用栏目 >  系统模块教程 >  采集教程
采集提取时间-来源-作者及入库的方法

采集提取时间-来源-作者及入库的方法

http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187这个页面为例进行说明,目标将时间信息转化为国微的时间格式   2015-03-09 17:55:26

一、采集时间方法

1、打开http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187这个页面,点击右键查看代码,在页面中,时间的特征代码如下:

 

2、在火车头采集器中,使用“正则提取”的方式来编辑标签,如下所示:

 

1

在“发布日期:”后面,将原来的时间信息2015/3/9 17:55:26分成四段来进行提取,将年、月、日和后面的小时分钟秒数分开提取,由于每个页面中来源也是变化的,所以来源后面也需要用一个参数,具体的设置如下所示:

<td height="28" align="center" valign="middle" bgcolor="#E6EEF9" class="font32">     来源:[参数]    发布日期:[参数]/[参数]/[参数 [参数]   点击数:[参数]  【字体:(*)

 

2

对应地在组合结果当中,我们只需要发布日期信息,所以我们只需要使用上图红色[参数]中的第23,4,5几个参数,第一个参数不使用,将参数组合变成国微的时间格式,如下所示:

 

3

注意:[参数4]     [参数5]中间有一个空格

3  如果你想要采集来源的方法采集时间一样,只是右边组合结果参数名字不同如下图所示

 

(采集作者或者其他的方法类似,只要把想要的第几个参数的名字对应的填在右边就行了)

 

4、最后,测试是否能采集到时间,来源   类似如下:

 

 

4

 

二、入库发布时间,作者或者其他参数的方法

要使用发布时间能采集后放入数据库中保留原来的发布时间,必须在发布模块中进行配置时间。

1、点击“第三步:发布内容设置“中的”Web发布配置管理“链接,如下图所示:

 

5

2第一步从国微采集压缩包中找到国微php168发布模块导入,第二步选择下图中的红框中的发布模块“国微PHP168“模块,第三步点击“编辑”按钮。

 

6

3、点击“编辑”按钮后,弹出的编辑对话框如下图所示,选择“内容发布参数”,双击timestamp,进行编辑。

 

7

4、在弹出的框中,表单值中写入[标签:时间],并保存,list_order也类似,如下图所示。

 

8

5   来源跟作者的发布模块配置也是一样(source代表来源,author代表作者),如下图所示

 

 

 

6     最后一步就是保存入库,如下所示

 

 

 

提醒注意:以上图中[标签:时间][标签:来源][标签:作者]并不是随意写的,是与图2中采集内容规则中的标签名“时间,来源,作者”是对应的。如下图所示。

 

9

 

相关内容