1樓清空數(shù)據(jù) 2樓查看數(shù)據(jù),3樓網(wǎng)址庫(kù)講解 請(qǐng)你看完
1,清空網(wǎng)址和數(shù)據(jù)
如果你想把規(guī)則里的數(shù)據(jù)清空從新采集請(qǐng)按照下面的操作:
右擊采集規(guī)則====》清空任務(wù)所有采集數(shù)據(jù),清空該任務(wù)網(wǎng)址庫(kù)(備注:這個(gè)2個(gè)都要選擇下)
這樣就會(huì)把任務(wù)采集到數(shù)據(jù)和網(wǎng)址全部清空掉,再次運(yùn)行任務(wù)就從新采集了
2,只清空數(shù)據(jù)
按照上面的操作,會(huì)把采集的地址也會(huì)清空掉,地址就要從新采集了
假如你只是想從新采集內(nèi)容的話可以只要把這條采集信息勾選為未采集狀態(tài)辦法看下面
1,手動(dòng)勾選
如果數(shù)據(jù)不多或者只是針對(duì)部分?jǐn)?shù)據(jù)需要重新采集可以選擇此方法
首先打開(kāi)本地編輯任務(wù)采集數(shù)據(jù)如下圖
然后采集器的右側(cè)可以看到采集到的數(shù)據(jù)
把采集的狀態(tài)設(shè)置為未采集如下圖
這樣運(yùn)行任務(wù) 不需要勾選采集網(wǎng)址 直接勾選采集內(nèi)容就可以了 節(jié)省時(shí)間
2,sql語(yǔ)句
如果數(shù)據(jù)很多 ,我們就使用sql語(yǔ)句來(lái)批量修改采集的狀態(tài)為“未采集”
說(shuō)明下你選擇保存的數(shù)據(jù)庫(kù)是什么 這樣對(duì)應(yīng)的sql語(yǔ)句是有所不一樣的
知道數(shù)據(jù)庫(kù)的童鞋都知道每個(gè)數(shù)據(jù)庫(kù)的Sql語(yǔ)句格式都是不一樣的
我本地是使用sqlite數(shù)據(jù)庫(kù),做為演示
點(diǎn)擊Sql按鈕如下圖:
寫sql語(yǔ)句如下圖,采集器把對(duì)應(yīng)數(shù)據(jù)庫(kù)的sql語(yǔ)句列出了,我們這里選擇“更新”數(shù)據(jù)庫(kù)
sql語(yǔ)句這里就不說(shuō)明了會(huì)的自然會(huì),不會(huì)的在這里也說(shuō)不明白 不明白的大家問(wèn)度娘去。。
這里sql語(yǔ)句寫成“UPDATE Content SET [已采]=1” 下面的執(zhí)行就可以了
執(zhí)行成功了,點(diǎn)擊從新加載數(shù)據(jù) 就看到變化了 再次采集的時(shí)候會(huì)把之前采集的覆蓋掉。
假如你本地保存數(shù)據(jù)庫(kù)選擇的是mysql
使用“更新”sql語(yǔ)句是:“UPDATE `Data_Content_任務(wù)ID` SET `已發(fā)`=1 WHERE `標(biāo)題` is null”
這里說(shuō)下這個(gè)任務(wù)id是什么
看下圖
把“任務(wù)ID” 對(duì)應(yīng)修改成數(shù)字就好
】
大家疑惑會(huì)什么不同的數(shù)據(jù)庫(kù)會(huì)這么大的區(qū)別,不需要去疑惑,本身不同的數(shù)據(jù)庫(kù)就是不一樣的
現(xiàn)在我們來(lái)說(shuō)下如果查看采集到的數(shù)據(jù)
1,本地編輯采集任務(wù)數(shù)據(jù)
采集器有自帶的編輯器,我們可以通過(guò)這個(gè)個(gè)編輯器查看數(shù)據(jù)
按照上圖,右側(cè)就可以打開(kāi)數(shù)據(jù)了
我們可以查看數(shù)據(jù)如果你是商業(yè)版用戶也可以修改數(shù)據(jù)后保存
如上圖選擇要修改的值 在下面編輯器那里修改 然后點(diǎn)擊下面的保存按鈕就可以了
2,從數(shù)據(jù)庫(kù)查看數(shù)據(jù)
大家都知道采集器這個(gè)目錄 \Data\LocoySpider 就是存放規(guī)則采集到的數(shù)據(jù)的地方,打開(kāi)后看到的是
一個(gè)一個(gè)按照數(shù)字命名的文件夾 這個(gè)數(shù)字就是對(duì)應(yīng)的任務(wù)id 數(shù)字 按照任務(wù)ID命名的文件下面的數(shù)據(jù)庫(kù)文件就是存放的
對(duì)應(yīng)規(guī)則的采集數(shù)據(jù)
這里如果知道規(guī)則的任務(wù)ID呢?看下圖
如上圖所示有2種方式打開(kāi) 對(duì)應(yīng)的文件
1,規(guī)則右擊==》打開(kāi)DATA下任務(wù)文件夾 這樣就可以直接打開(kāi)對(duì)應(yīng)的數(shù)據(jù)庫(kù)文件夾
2,選中規(guī)則,有下角 會(huì)顯示任務(wù)對(duì)應(yīng)的ID 然后去DATA文件夾下找到對(duì)應(yīng)的文件
數(shù)據(jù)庫(kù)文件名是SpiderResult。如果后綴是db3說(shuō)明你本地保存的數(shù)據(jù)庫(kù)是sqlite 如果打開(kāi)這個(gè)文件請(qǐng)百度下
如果后綴名是mdb 說(shuō)明你本地保存的數(shù)據(jù)庫(kù)是選擇的access數(shù)據(jù)庫(kù) 這個(gè)可以直接用excel 打開(kāi)
如果你想用更專業(yè)的工具打開(kāi)它 也請(qǐng)你百度下如果打開(kāi)
如果你本地保存數(shù)據(jù)庫(kù)選擇的是mysql sqlserver mongodb 那么你一定不是菜鳥(niǎo) 對(duì)數(shù)據(jù)庫(kù)有一定的了解
那么如果查看我就不要說(shuō)了
網(wǎng)址庫(kù)
大家知道規(guī)則的網(wǎng)址庫(kù)是那個(gè)嗎
就是\Data\LocoySpider\PageUrl 同樣是根據(jù)任務(wù)ID命名的
采集器把任務(wù)采集到的地址都保存到這里面的文件下用來(lái)
檢測(cè)網(wǎng)址重復(fù)呀 都是根據(jù)這里面的數(shù)據(jù)庫(kù)文件
里面內(nèi)容是加密的