這幾天正好有需求實現一個爬蟲程序,想到爬蟲程序立馬就想到了python,python相關的爬蟲資料好像也特別多。于是就決定用python來實現爬蟲程序了,正好發現了python有一個開源庫scrapy,正是用來實現爬蟲框架的,于是果斷采用這個實現。下面就先安裝scrapy,決定在windows下面安裝。
Scrapy簡介
Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。
Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。
Scrapy吸引人的地方在于它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。
安裝依賴
Scrapy安裝依賴于以下幾個Python庫 lxml, an efficient XML and HTML parser parsel, an HTML/XML data extraction library written on top of lxml, w3lib, a multi-purpose helper for dealing with URLs and web page encodings twisted, an asynchronous networking framework cryptography and pyOpenSSL, to deal with various network-level security needs我選擇手動安裝這些依賴
pip install lxml pip install parsel pip install w3lib pip install twisted pip install cryptography pip install pyOpenSSL其他的安裝都很順利,就是在安裝twisted
的時候報錯了。
Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
于是下載離線的安裝(下載自己的版本)
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下載到一個目錄,然后用
pip install Twisted-17.9.0-cp36-cp36m-win32.whl
之后再用下面的命令安裝就可以了
pip install Scrapy
在命令行中輸入scrapy
,出現如下界面,則表示安裝成功
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對武林站長站的支持。如果你想了解更多相關內容請查看下面相關鏈接
新聞熱點
疑難解答