我用動易這么多年了,以前用過不少程序,覺得還是動易的比較好用,但是動易的采集系統真的很一般,當然凡事有利必有弊,動易的優點非常突出,這里我們也不必多說,相信這里的朋友都非常清楚,下面我就動易采集系統作一下具體的闡述!
我用動易采集真的是費了一番周折,用到現在,也有很多心得體會,下面與大家共享,寫的很倉促比較亂,假如不清楚的可以到我的站點來共同探討,網址是www.xian99.com 講的不對的地方請指出,有更好意見的朋友快跟!
項目治理:
1、選擇添加新項目,找到你需要采集的頁面→復制網址到新聞網址列表框,項目名稱隨便填(主要是給你自己記憶備忘用)→下一步
2、項目編輯列表設置:
這里填寫就要注重點了,找到你要采集的新聞列表的第一個信息標題的地方,一般標題前面這里會有一個table標簽,選擇這個table標簽前面的具有典型特征的一些代碼,代碼具體選多少呢,分2種情況,一是有分頁的列表,簡單說就是列表最下面有下一頁或者有1、2、3、等頁面鏈接的,二是沒有分頁的,簡單說就是列表只有1頁,只有1頁的情況好辦,這里可以隨便選了,只要保證不重復就行了。但是有分頁的列表頁就要麻煩一些,這時候選取代碼的原則是:在保證沒有重復代碼的前提下,盡量選擇少一點的代碼,因為代碼越多越輕易出錯,越不能保證每個列表頁面都有這些代碼了,這是經驗之談,當然也不一定,有些網頁代碼格式非常統一,那么這種網頁就好采集,列表開始代碼也好填一些。什么是具有典型特征的代碼呢?就是基本上每個列表頁都有的代碼,但是這個頁碼在所有的列表頁中又是唯一的,不重復。
設置列表索引分頁:
對于有分頁的列表頁,這時候必須要設置列表分頁代碼了,否則只能采集第一頁的列表內容了。這個時候的訣竅是找到“下一頁”這幾個字,這幾個字前面必然有一個鏈接“a href="”標簽,把這個復制到下頁開始的框框去,然后將這個標簽的最后網頁文件后面的代碼一直到“下一頁”這幾個字全部復制到下頁結束框中去,舉個例子說明一下:比如
<TABLE WIDTH="390" BORDER="0" CELLSPACING="1" CELLPADDING="0" BGCOLOR="#CCCCCC" ALIGN="CENTER"> <TR ALIGN="CENTER" BGCOLOR="#FFFFFF"> <TD HEIGHT="20"><P> <a >【下一頁】</a> <a >【尾頁】</a> 【第1頁 共5頁】 </P></TD> </TR> </TABLE> |
a >【下一頁 |