學(xué)習(xí)記錄：python糗百爬蟲

2019-11-14 10:01:39

字體：大中小

供稿：網(wǎng)友

最近想了解下爬蟲是如何運(yùn)作的，就在酷勤網(wǎng)上找了爬蟲的教程學(xué)習(xí)了下，順便學(xué)下下python的基本語(yǔ)法。由于網(wǎng)上的代碼是無(wú)縮進(jìn)版本的，本人對(duì)python產(chǎn)生了奇怪的怨念。花了半天才調(diào)整出能跑的格式。

遇到的問(wèn)題如下： 1.# -- coding:utf-8 -- 這句話很重要，不然連注釋都會(huì)報(bào)錯(cuò)。 2.不能手賤多打空格，不然會(huì)出現(xiàn)縮減不匹配的問(wèn)題 3.網(wǎng)上所給的正則表達(dá)式已經(jīng)不能再匹配當(dāng)前的糗百網(wǎng)頁(yè)，需要重新改寫。 4.沒(méi)縮減的代碼看起來(lái)真的好累，不知道什么地方結(jié)束什么地方開始。有幾個(gè)return不知道該屬于哪一塊，雖然如此，但是代碼能跑起來(lái)0 0

另外，對(duì)python語(yǔ)句以下了解： 1. __ author __好像沒(méi)什么用處，只是聲明作者，用法很有意思 2.return 和return None意思其實(shí)是一樣的 3.雖然有些不是很明白，但是好像用到的很多庫(kù)都是python自帶的 4.對(duì)方法里的self問(wèn)題的理解

http://www.companysz.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會(huì)有，獨(dú)立的函數(shù)或方法是不必帶有self的。self在定義類的方法時(shí)是必須有的，雖然在調(diào)用時(shí)不必傳入相應(yīng)的參數(shù)。self名稱不是必須的，在python中self不是關(guān)鍵詞，你可以定義成a或b或其它名字都可以,但是約定成俗，不要搞另類，大家會(huì)不明白的。self指的是類實(shí)例對(duì)象本身(注意：不是類本身)。

運(yùn)行結(jié)果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續(xù)運(yùn)行的變量 self.stories=[] #傳入某一頁(yè)的索引獲得頁(yè)面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構(gòu)建請(qǐng)求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁(yè)面代碼 response = urllib2.urlopen(request) #講頁(yè)面轉(zhuǎn)化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯(cuò)誤原因",e.reason return None #傳入某一頁(yè)代碼,返回本頁(yè)不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁(yè)面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來(lái)存儲(chǔ)每頁(yè)的段子們 pageStories = [] #便利正則表達(dá)式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個(gè)段子的發(fā)布者,item[1]是內(nèi)容,item[3]是點(diǎn)贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁(yè)面的內(nèi)容,加入到列表中 def loadPage(self): #如果當(dāng)前未看的頁(yè)數(shù)少于2頁(yè),則加載新的一頁(yè) if self.enable == True: if len(self.stories) < 2: #獲取新一頁(yè) pageStories = self.getPageItems(self.pageIndex) #講該頁(yè)的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁(yè)碼所以加一,表示下次讀取下一頁(yè) self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁(yè)的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當(dāng)輸入回車一次,判斷一下是否要加載頁(yè)面 self.loadPage() #如果輸入Q則程序結(jié)束 if input == "Q": self.enable = False return print u"第%d頁(yè)/t發(fā)布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運(yùn)行 self.enable = True #先加載一頁(yè)內(nèi)容 self.loadPage() #局部變量,控制當(dāng)前讀到第幾頁(yè) nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁(yè)的段子 pageStories = self.stories[0] #當(dāng)前讀到的頁(yè)數(shù)加一 nowPage += 1 #將全局list中第一個(gè)元素刪除因?yàn)橐呀?jīng)取出 del self.stories[0] #輸出該頁(yè)段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()

上一篇：【Codeforces 733 C. Epidemic in Monstropolis】+ 模擬

下一篇：使用python的wordcloud包實(shí)現(xiàn)中文標(biāo)簽云制作