麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > ASP > 正文

防止網站被采集的理論分析以及十條方法對策第1/2頁

2024-05-04 11:09:42
字體:
來源:轉載
供稿:網友
很多防采集方法在施行的時候需要考慮是否影響搜索引擎對網站的抓取,所以先來分析下一般采集器和搜索引擎爬蟲采集有何不同。

相同點:
a. 兩者都需要直接抓取到網頁源碼才能有效工作,
b. 兩者單位時間內會多次大量抓取被訪問的網站內容;
c. 宏觀上來講兩者IP都會變動;
d. 兩者多沒耐心的去破解你對網頁的一些加密(驗證),比如網頁內容通過js文件加密,比如需要輸入驗證碼才能瀏覽內容,比如需要登錄才能訪問內容等。

不同點:
搜索引擎爬蟲先忽略整個網頁源碼腳本和樣式以及html標簽代碼,然后對剩下的文字部分進行切詞語法句法分析等一系列的復雜處理。而采集器一般是通過 html標簽特點來抓取需要的數據,在制作采集規則時需要填寫目標內容的開始標志何結束標志,這樣就定位了所需要的內容;或者采用對特定網頁制作特定的正則表達式,來篩選出需要的內容。無論是利用開始結束標志還是正則表達式,都會涉及到html標簽(網頁結構分析)。

然后再來提出一些防采集方法
1、限制IP地址單位時間的訪問次數
分析:沒有哪個常人一秒鐘內能訪問相同網站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的采集器了。

弊端:一刀切,這同樣會阻止搜索引擎對網站的收錄

適用網站:不太依靠搜索引擎的網站

采集器會怎么做:減少單位時間的訪問次數,減低采集效率

2、屏蔽ip
分析:通過后臺計數器,記錄來訪者ip和訪問頻率,人為分析來訪記錄,屏蔽可疑Ip。

弊端:似乎沒什么弊端,就是站長忙了點

適用網站:所有網站,且站長能夠知道哪些是google或者百度的機器人

采集器會怎么做:打游擊戰唄!利用ip代理采集一次換一次,不過會降低采集器的效率和網速(用代理嘛)。

3、利用js加密網頁內容
Note:這個方法我沒接觸過,只是從別處看來
分析:不用分析了,搜索引擎爬蟲和采集器通殺

適用網站:極度討厭搜索引擎和采集器的網站

采集器會這么做:你那么牛,都豁出去了,他就不來采你了

4、網頁里隱藏網站版權或者一些隨機垃圾文字,這些文字風格寫在css文件中
分析:雖然不能防止采集,但是會讓采集后的內容充滿了你網站的版權說明或者一些垃圾文字,因為一般采集器不會同時采集你的css文件,那些文字沒了風格,就顯示出來了。

適用網站:所有網站

采集器會怎么做:對于版權文字,好辦,替換掉。對于隨機的垃圾文字,沒辦法,勤快點了。

5、用戶登錄才能訪問網站內容
分析:搜索引擎爬蟲不會對每個這樣類型的網站設計登錄程序。聽說采集器可以針對某個網站設計模擬用戶登錄提交表單行為。

適用網站:極度討厭搜索引擎,且想阻止大部分采集器的網站

采集器會怎么做:制作擬用戶登錄提交表單行為的模塊

6、利用腳本語言做分頁(隱藏分頁)
分析:還是那句,搜索引擎爬蟲不會針對各種網站的隱藏分頁進行分析,這影響搜索引擎對其收錄。但是,采集者在編寫采集規則時,要分析目標網頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。

適用網站:對搜索引擎依賴度不高的網站,還有,采集你的人不懂腳本知識

采集器會怎么做:應該說采集者會怎么做,他反正都要分析你的網頁代碼,順便分析你的分頁腳本,花不了多少額外時間。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 亚洲白嫩在线观看 | h网站在线观看 | 免费一级a毛片在线播放视 日日草夜夜操 | 激情小说激情图片激情电影 | 欧美精品videos| 精品国产一区二区三区在线观看 | 污视频在线免费 | 污黄视频在线观看 | av免费在线网 | 精品久久久一二三区播放播放播放视频 | 日韩毛片一区二区三区 | 一级毛片在线视频 | 国产免费观看一区二区三区 | 国产午夜精品久久久久久免费视 | 激情在线观看视频 | chengrenzaixian| 在线播放亚洲视频 | 午夜人体 | av在线在线 | 中文字幕精品一区久久久久 | 亚洲成人福利在线 | 99亚洲精品| a一级黄色毛片 | 久久人人爽人人爽人人片av高清 | 日产精品久久久一区二区开放时间 | 亚洲第一黄色网 | 日韩精品免费看 | 特级黄色影院 | 亚洲成人在线视频网站 | 久久69精品久久久久久国产越南 | 欧美精品一区二区久久 | 免费看操片 | 亚洲午夜一区二区三区 | 日韩av在线影院 | 日本免费不卡一区二区 | 欧美成人午夜 | 色99久久| 久久91久久久久麻豆精品 | 综合在线一区 | 香蕉黄色网| 久久人人爽人人爽人人片av高清 |