實現方式:
基于內存set()基于數據庫(包含關系型如:Oracle、MySQL等,還有非關系型如:redis、pg等)包含屬性:
保存“爬”過的url保存未“爬”過的url包含方法:
add增加一個urlget獲取一個url實現方式:
urllib2response = urllib2.urlopen(url)if response.getcode()!=200 returnreturn response.read()request實現方式:
beautiful soupsoup = BeautifulSoup(html_doc,'html_parser',from_encoding='utf-8')#獲取所有文字內容:soup.get_text()#獲取標簽:soup.find(id="link3")soup.find_all('a',href=re.complie(''))新聞熱點
疑難解答