麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Python > 正文

用python3教你任意Html主內(nèi)容提取功能

2020-02-15 23:31:18
字體:
來源:轉載
供稿:網(wǎng)友

本文將和大家分享一些從互聯(lián)網(wǎng)上爬取語料的經(jīng)驗。

0x1 工具準備

工欲善其事必先利其器,爬取語料的根基便是基于python。

我們基于python3進行開發(fā),主要使用以下幾個模塊:requests、lxml、json。

簡單介紹一個各模塊的功能

01|requests

requests是一個Python第三方庫,處理URL資源特別方便。它的官方文檔上寫著大大口號:HTTP for Humans(為人類使用HTTP而生)。相比python自帶的urllib使用體驗,筆者認為requests的使用體驗比urllib高了一個數(shù)量級。

我們簡單的比較一下:

urllib:

 import urllib2 import urllib URL_GET = "https://api.douban.com/v2/event/list" #構建請求參數(shù) params = urllib.urlencode({'loc':'108288','day_type':'weekend','type':'exhibition'}) #發(fā)送請求 response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)#Response Headersprint(response.info())#Response Codeprint(response.getcode())#Response Bodyprint(response.read())

requests:

import requests URL_GET = "https://api.douban.com/v2/event/list" #構建請求參數(shù) params = {'loc':'108288','day_type':'weekend','type':'exhibition'} #發(fā)送請求 response = requests.get(URL_GET,params=params) #Response Headersprint(response.headers)#Response Codeprint(response.status_code)#Response Bodyprint(response.text)

我們可以發(fā)現(xiàn),這兩種庫還是有一些區(qū)別的:

1. 參數(shù)的構建:urllib需要對參數(shù)進行urlencode編碼處理,比較麻煩;requests無需額外編碼處理,十分簡潔。

2. 請求發(fā)送:urllib需要額外對url參數(shù)進行構造,變?yōu)榉弦蟮男问剑籸equests則簡明很多,直接get對應鏈接與參數(shù)。

3. 連接方式:看一下返回數(shù)據(jù)的頭信息的“connection”,使用urllib庫時,"connection":"close",說明每次請求結束關掉socket通道,而使用requests庫使用了urllib3,多次請求重復使用一個socket,"connection":"keep-alive",說明多次請求使用一個連接,消耗更少的資源

4. 編碼方式:requests庫的編碼方式Accept-Encoding更全,在此不做舉例

綜上所訴,使用requests更為簡明、易懂,極大的方便我們開發(fā)。

02|lxml

BeautifulSoup是一個庫,而XPath是一種技術,python中最常用的XPath庫是lxml。

當我們拿到requests返回的頁面后,我們怎么拿到想要的數(shù)據(jù)呢?這個時候祭出lxml這強大的HTML/XML解析工具。python從不缺解析庫,那么我們?yōu)槭裁匆诒姸鄮炖镞x擇lxml呢?我們選擇另一款出名的HTML解析庫BeautifulSoup來進行對比。

我們簡單的比較一下:

BeautifulSoup:

from bs4 import BeautifulSoup #導入庫# 假設html是需要被解析的html#將html傳入BeautifulSoup 的構造方法,得到一個文檔的對象soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')#查找所有的h4標簽 links = soup.find_all("h4")            
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: wwwcom国产| 日本免费不卡一区二区 | 中文字幕极速在线观看 | 深夜影院一级毛片 | 国产三级a三级三级 | 黄色高清视频网站 | 91精品福利视频 | 91精品国产手机 | 在线天堂中文字幕 | 亚洲国产成人一区 | 日韩黄色免费电影 | 国产成人精品午夜视频' | 91在线色| 色综合久久久久久久久久久 | 免费看一级片 | 国产品久久 | 日本黄色免费片 | 九九热免费在线观看 | 久草在线资源福利站 | 免费a级黄色片 | 国产不卡av在线 | 亚洲成人在线视频网 | 国产91亚洲精品久久久 | 精品一区二区三区免费 | 欧美一级黄色录相 | 色播视频在线播放 | 久久精品成人影院 | 日本在线播放一区二区三区 | 欧美女孩videos| 久久久精品视频在线观看 | 免费永久看羞羞片网站入口 | 免费在线观看成人av | 欧美亚洲国产一区二区三区 | 久久精品日本一区 | 欧美黄色一级生活片 | 久久国产秒 | 亚洲电影在线播放 | 久久艹国产精品 | 成人免费网站在线观看视频 | 欧美日韩电影在线 | 萌白酱福利视频在线网站 |