好吧,我知道是大半夜……,但我還是覺得趕緊花上半個(gè)小時(shí),把這最新的想法分享出來(lái)是值得的~直接進(jìn)入正題~
我們來(lái)模擬一個(gè)場(chǎng)景,需要你去抓去一個(gè)頁(yè)面,然后這個(gè)頁(yè)面有好多url也要分別去抓取,而進(jìn)入這些子url后,還有數(shù)據(jù)要抓取。簡(jiǎn)單點(diǎn),我們就按照三層來(lái)看,那我們的代碼就是如下:
代碼如下:
def func_top(url):
data_dict= {}
#在頁(yè)面上獲取到子url
sub_urls = xxxx
data_list = []
for it in sub_urls:
data_list.append(func_sub(it))
data_dict[/'data/'] = data_list
return data_dict
def func_sub(url):
data_dict= {}
#在頁(yè)面上獲取到子url
bottom_urls = xxxx
data_list = []
for it in bottom_urls:
data_list.append(func_bottom(it))
data_dict[/'data/'] = data_list
return data_dict
def func_bottom(url):
#獲取數(shù)據(jù)
data = xxxx
return data
func_top是上層頁(yè)面的處理函數(shù),func_sub是子頁(yè)面的處理函數(shù),func_bottom是最深層頁(yè)面的處理函數(shù),func_top會(huì)在取到子頁(yè)面url后遍歷調(diào)用func_sub,func_sub也是同樣。
如果正常情況下,這樣確實(shí)已經(jīng)滿足需求了,但是偏偏這個(gè)你要抓取的網(wǎng)站可能極不穩(wěn)定,經(jīng)常鏈接不上,導(dǎo)致數(shù)據(jù)拿不到。
于是這個(gè)時(shí)候你有兩個(gè)選擇:
1.遇到錯(cuò)誤就停止,之后重新從斷掉的位置開始重新跑
2.遇到錯(cuò)誤繼續(xù),但是要在之后重新跑一遍,這個(gè)時(shí)候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次,而只去拉沒有取到的數(shù)據(jù)
對(duì)第一種方案基本無(wú)法實(shí)現(xiàn),因?yàn)槿绻麆e人網(wǎng)站的url調(diào)整順序,那么你記錄的位置就無(wú)效了。那么只有第二種方案,說(shuō)白了,就是要把已經(jīng)拿到的數(shù)據(jù)cache下來(lái),等需要的時(shí)候,直接從cache里面取。
OK,目標(biāo)已經(jīng)有了,怎么實(shí)現(xiàn)呢?
如果是在C++中的,這是個(gè)很麻煩的事情,而且寫出來(lái)的代碼必定丑陋無(wú)比,然而慶幸的是,我們用的是python,而python對(duì)函數(shù)有裝飾器。
所以實(shí)現(xiàn)方案也就有了:
定義一個(gè)裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù);如果之前沒有取到,那么就從網(wǎng)站拉取,并且存入cache中.
代碼如下:
代碼如下:
def get_dump_data(dir_name, url):
m = hashlib.md5(url)
filename = m.hexdigest()
新聞熱點(diǎn)
疑難解答
圖片精選