以采集: http://ent.163.com/special/00031HA4/morenews_02.html 為例。
填寫要采集的地址到圖1的地方。
如果采集的頁面和網站的不一樣,需要填寫下編碼,你只需要點擊【程序輔助識別】,把識別出來的填寫到圖2的位置。
列表區域識別規則:查看文件源碼。復制你要采集的第一篇文章,查找源碼,圖3。
再向上隨便找一個代碼(中文也可以),但是要獨一無二的,怎么才是獨一無二的呢?同樣查找,把代碼放進去,圖4查找上一個,再查找下一個,如果發現都找不到,這個就是獨一無二的,繼續復制要采集的最后一篇文章的標題查找到后,往下找一個獨一無二的代碼然后填寫到圖5,中間代碼使用 [list] 替換。
文章鏈接 URL 識別規則:復制文章的鏈接圖6,放到圖7位置,按左邊說明進行替換,網址使用 [url] 替換。
文章標題識別規則:復制文章標題進行查找,不要找 這里的,選另一個地方的,復制到圖8的位置,也是按左邊的規則進行替換。標題文章使用 [subject] 替換。
文章內容識別規則:和列表區域識別規則一樣,找文章的第一句話和最后一句話,然后上下找獨一無二的代碼,填寫在圖9的位置。文章內容使用 [message] 替換。
這樣采集規則就寫好了,點擊提交保存。頁面跳轉后,點擊開始采集 圖10。
點擊【采集完成,點擊此處查看采集結果】,全選導入到你想要的板塊 圖11。
還需要更新下緩存,系統管理、更新緩存 圖12。
|
新聞熱點
疑難解答
圖片精選