采集提取時(shí)間-來源-作者及入庫(kù)的方法
以http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187這個(gè)頁(yè)面為例進(jìn)行說明,目標(biāo)將時(shí)間信息轉(zhuǎn)化為國(guó)微的時(shí)間格式 2015-03-09 17:55:26
一、采集時(shí)間方法
1、打開http://www.scbz.hrss.gov.cn:81/disp.asp?ID=3187這個(gè)頁(yè)面,點(diǎn)擊右鍵查看代碼,在頁(yè)面中,時(shí)間的特征代碼如下:
2、在火車頭采集器中,使用“正則提取”的方式來編輯標(biāo)簽,如下所示:
圖1
在“發(fā)布日期:”后面,將原來的時(shí)間信息2015/3/9 17:55:26分成四段來進(jìn)行提取,將年、月、日和后面的小時(shí)分鐘秒數(shù)分開提取,由于每個(gè)頁(yè)面中來源也是變化的,所以來源后面也需要用一個(gè)參數(shù),具體的設(shè)置如下所示:
<td height="28" align="center" valign="middle" bgcolor="#E6EEF9" class="font32"> 來源:[參數(shù)] 發(fā)布日期:[參數(shù)]/[參數(shù)]/[參數(shù)] [參數(shù)] 點(diǎn)擊數(shù):[參數(shù)] 【字體:(*)
圖2
對(duì)應(yīng)地在組合結(jié)果當(dāng)中,我們只需要發(fā)布日期信息,所以我們只需要使用上圖紅色[參數(shù)]中的第2、3,4,5幾個(gè)參數(shù),第一個(gè)參數(shù)不使用,將參數(shù)組合變成國(guó)微的時(shí)間格式,如下所示:
圖3
注意:[參數(shù)4] [參數(shù)5]中間有一個(gè)空格
3 如果你想要采集來源的方法采集時(shí)間一樣,只是右邊組合結(jié)果參數(shù)名字不同如下圖所示
(采集作者或者其他的方法類似,只要把想要的第幾個(gè)參數(shù)的名字對(duì)應(yīng)的填在右邊就行了)
4、最后,測(cè)試是否能采集到時(shí)間,來源 類似如下:
圖4
二、入庫(kù)發(fā)布時(shí)間,作者或者其他參數(shù)的方法
要使用發(fā)布時(shí)間能采集后放入數(shù)據(jù)庫(kù)中保留原來的發(fā)布時(shí)間,必須在發(fā)布模塊中進(jìn)行配置時(shí)間。
1、點(diǎn)擊“第三步:發(fā)布內(nèi)容設(shè)置“中的”Web發(fā)布配置管理“鏈接,如下圖所示:
圖5
2、第一步從國(guó)微采集壓縮包中找到國(guó)微php168發(fā)布模塊導(dǎo)入,第二步選擇下圖中的紅框中的發(fā)布模塊“國(guó)微PHP168“模塊,第三步點(diǎn)擊“編輯”按鈕。
圖6
3、點(diǎn)擊“編輯”按鈕后,彈出的編輯對(duì)話框如下圖所示,選擇“內(nèi)容發(fā)布參數(shù)”,雙擊timestamp,進(jìn)行編輯。
圖7
4、在彈出的框中,表單值中寫入[標(biāo)簽:時(shí)間],并保存,list_order也類似,如下圖所示。
圖8
5 來源跟作者的發(fā)布模塊配置也是一樣(source代表來源,author代表作者),如下圖所示
6 最后一步就是保存入庫(kù),如下所示
提醒注意:以上圖中[標(biāo)簽:時(shí)間][標(biāo)簽:來源][標(biāo)簽:作者]并不是隨意寫的,是與圖2中采集內(nèi)容規(guī)則中的標(biāo)簽名“時(shí)間,來源,作者”是對(duì)應(yīng)的。如下圖所示。
圖9