麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 網站 > 幫助中心 > 正文

采集教程及采集分頁設置問題

2020-10-28 20:20:31
字體:
來源:轉載
供稿:網友
其實采集可以這么理解,定義頭和尾,除了在截取鏈接不需要檢測,在其它地方你定義的頭和尾,在同一個html表里不能有相同的,為什么不能有相同的呢?是因為采集的每一步(除了截取鏈接外)都是根據你所定義的頭和尾來截取頁面內容的。所以你在定義頭和尾不僅不能有相同的,還要盡可能地把不需要的內容排除開。如果你理解了這個定義頭和尾,基本上對于簡單的頁面是能采集的。下面我以一個實例來說明一下:


以下內容為程序代碼:

新聞列表網址:http://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htm
列表開始代碼: <td style="padding-left:6px;"><table  border="0" cellpadding="0" cellspacing="0" class="table_logo">
列表結束代碼:    <td height="5" colspan="2"></td>
鏈接開始代碼:?<a target="_blank" href="
鏈接結束代碼:">
標題開始標記:<title>
標題結束標記:</title>
正文開始標記:<div id="ArticleCnt">
正文結束標記:<div id="ArticleTopic"></div>


上面所采集的頁面是比較標準的?,F在來分析一下:

列表網址:就是你要采集的頁面,這一步很關鍵,以前這一步我是亂搞,現在發現這一步關系到你能否采集完所有內容。一般你進入采集頁面先判斷一下是不是有多頁,如果有多頁你進入第二頁和第一頁是不是有規律變化,比如是:xxxx_1.htm,xxx_2.htm,特別注意數字,如果第一頁開始就有_id的規律,那就把第一頁作為列表網址,如果第一頁與第二頁沒相關規律,而是從第二頁開始才能這樣的規律,那將第二頁作為列表網址,第一頁放到一邊,等所有數據采集完了,再來采集單獨頁面,反正以后也只采集第一頁,為啥?因為一般更新的都在第一頁。

列表開始與結束:這里就是向采集程序說明你要采集的內容大概方向,比如上例里的列表網址,里面有好多內容,我只采集右邊的新聞,這時你可以搜索第一條新聞,向上看,找段在這個HTML文件里唯一的內容,這里定義頭和尾要值得注意的是:空格也算的。比如<a href前有四個空格,這也算個特征,反正不管怎么樣,只要是全文僅有的就行。同樣方法,只是這次搜索最后一條新聞,定位一下,省得全文亂找,浪費時間,往下推找個全文僅有的代碼,

鏈接開始與結束,這里你得看一下采集頁面了,然后再看HTML文件,一般是<a href=   開始,>結束。中間的內容就讓采集程序幫你去放
到這里已經接近成功了,這時為了保險一點,隨機點五個頁面,找五個頁面的共同點,把標題開始與結束,正文開始與結束填一下,
最后測試一下。應該可以了吧。

下面談談分頁,分頁有二種,一種是采集頁的分頁,另一種是文章內容的分頁。

采集頁的分頁:

例:

以下內容為程序代碼:

新聞列表網址:http://www.pconline.com.cn/mobile/news/hgxz/index_1.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_1.html
列表開始代碼:1px solid; ">文章列表 </TD>
列表結束代碼: <DIV ALIGN="CENTER">
列表索引分頁: 批量生成:http://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.html
生成范圍:4to1
鏈接開始代碼:<a href="
鏈接結束代碼:target="_blank"
標題開始標記:<title>
標題結束標記:-太平洋電腦網Pconline-[手機新品速遞]</title>
正文開始標記:廣告:ad_top</IFRAME>
正文結束標記:<br clear=all>


請注意列表網址與列表索引分頁鏈接的不同之處:就是將index_1.html改為了index_{$ID}.html,
生成范圍:這里有多少頁就?to?,有二種選擇,由后到前,前到后,隨便你喜好。

內容頁的分頁:

例:

以下內容為程序代碼:

新聞列表網址:http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146
列表開始代碼:<td class="filter4" width="350"><font color="#FFFFFF">手機資訊
列表結束代碼:  <td height="2"></td>
批量生成: http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146
生成范圍:10to1(這樣的好處最新新聞在前面,不然剛好跟采集頁面相反,最后一頁為最新新聞)
鏈接開始代碼:<td><a href="
鏈接結束代碼:target="_blank"
標題開始標記:<strong class="p24">
標題結束標記:   <td align="center">(這里要把前面的空格一起復制了,不然會出現錯誤)
正文開始標記:<table width="100%" border="0" cellspacing="0" cellpadding="2" align="center">
正文結束標記:<p id="adv_under_cont"></p>
下頁開始標記:           <a href="./(找到下一頁,把<a href="./的空格也復制了)
下頁結束標記:">下一頁</a>

請注意下頁開始與結束:找到分頁代碼,找到下一頁的代碼:定義好下一頁開始與結束就OK。這里多試幾次,因為這里代碼可選擇范圍小。 
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 免费国产人成网站 | 中文字幕观看 | 久久精品一区二区三区四区五区 | 欧美性生活免费视频 | 欧美成人精品不卡视频在线观看 | 国产日本在线 | 亚洲电影在线观看高清免费 | 天天草夜夜骑 | 最近免费观看高清韩国日本大全 | 欧美成人视 | 黄视频网站免费观看 | 一本视频在线观看 | 日韩av在线播放一区 | 久色视频网站 | 成人午夜免费网站 | 亚洲人成中文字幕在线观看 | 男女羞羞在线观看 | 精品国产精品久久 | 黄色一级电影网 | 国产伦久视频免费观看视频 | 曰韩一级片| 九艹在线| 狠狠干天天操 | 国产中出在线观看 | 久久九九热re6这里有精品 | 国产羞羞视频在线免费观看 | 高清视频一区二区 | 色综合久久久久久 | 成人毛片100免费观看 | 中文字幕www | 看一级毛片 | 中文字幕在线观看亚洲 | 三级国产三级在线 | 日本特级a一片免费观看 | 羞羞视频免费观看入口 | 国内精品久久久久久久星辰影视 | 91av99 | 自拍偷拍亚洲图片 | 色交视频| 黄在线免费 | 7777网站|