采集提取时间-来源-作者及入库的方法
以http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187这个页面为例进行说明,目标将时间信息转化为国微的时间格式 2015-03-09 17:55:26
一、采集时间方法
1、打开http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187这个页面,点击右键查看代码,在页面中,时间的特征代码如下:

2、在火车头采集器中,使用“正则提取”的方式来编辑标签,如下所示:

图1
在“发布日期:”后面,将原来的时间信息2015/3/9 17:55:26分成四段来进行提取,将年、月、日和后面的小时分钟秒数分开提取,由于每个页面中来源也是变化的,所以来源后面也需要用一个参数,具体的设置如下所示:
<td height="28" align="center" valign="middle" bgcolor="#E6EEF9" class="font32"> 来源:[参数] 发布日期:[参数]/[参数]/[参数] [参数] 点击数:[参数] 【字体:(*)
图2
对应地在组合结果当中,我们只需要发布日期信息,所以我们只需要使用上图红色[参数]中的第2、3,4,5几个参数,第一个参数不使用,将参数组合变成国微的时间格式,如下所示:

图3
注意:[参数4] [参数5]中间有一个空格
3 如果你想要采集来源的方法采集时间一样,只是右边组合结果参数名字不同如下图所示

(采集作者或者其他的方法类似,只要把想要的第几个参数的名字对应的填在右边就行了)
4、最后,测试是否能采集到时间,来源 类似如下:

图4
二、入库发布时间,作者或者其他参数的方法
要使用发布时间能采集后放入数据库中保留原来的发布时间,必须在发布模块中进行配置时间。
1、点击“第三步:发布内容设置“中的”Web发布配置管理“链接,如下图所示:

图5
2、第一步从国微采集压缩包中找到国微php168发布模块导入,第二步选择下图中的红框中的发布模块“国微PHP168“模块,第三步点击“编辑”按钮。

图6
3、点击“编辑”按钮后,弹出的编辑对话框如下图所示,选择“内容发布参数”,双击timestamp,进行编辑。

图7
4、在弹出的框中,表单值中写入[标签:时间],并保存,list_order也类似,如下图所示。

图8
5 来源跟作者的发布模块配置也是一样(source代表来源,author代表作者),如下图所示



6 最后一步就是保存入库,如下所示


提醒注意:以上图中[标签:时间][标签:来源][标签:作者]并不是随意写的,是与图2中采集内容规则中的标签名“时间,来源,作者”是对应的。如下图所示。

图9