網絡爬蟲之基礎

2019-11-15 00:35:31

字體：大中小

來源：轉載

供稿：網友

網絡爬蟲之基礎

　　網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。

　　隨著互聯網的高速發展，以及移動互聯網的高速普及，越來越多的程序員開始接觸網絡爬蟲，那么網絡爬蟲的都有哪些應用呢？隨著騰訊微信公眾平臺的推出，越來越多的程序員進入到了微信時代，相信在一些學校的官方微信平臺上都有這樣的模塊：查詢成績、查詢課表、查詢圖書借閱歷史等等，這些功能的實現就是通過網絡爬蟲的基本原理在現實世界中的一種實現。本篇我將帶領大家簡單學習一下這部分的知識，供新手學習，大牛指點。

　　初次接觸這部分知識，說來還挺那個啥，為了取得一個女孩的芳心，花費一個星期的時間為她專屬打造了一款：LAHnust的Android應用，在這個應用中為了實現一個掌上校園的模塊，我走進了這個圈圈，最終通過各種百度、大牛指點，最終我實現了這個功能模塊，雖然最終難逃被拋棄的命運，不過通過這個應用的設計，我基本掌握了網絡爬蟲的基礎知識，本篇我將帶領大家簡單學習一下這部分的知識，希望對你能起到一定的幫助作用。

　　對于網絡爬蟲的介紹，百度上多的是，這里我就不再贅述，我們的今天的學習借助httpclient相關的JAR包大家可以到網上下載一下，我們使用的開發工具是Myeclipse10，下面我們開始今天這部分知識的實現。畢竟初次接觸，我們就從最基本的抓取網頁信息開始。

　　先看源碼：

/** * 抓取網頁，如：高校主頁 * @author 小破孩 */public class Main {    public static void main(String[] args) throws Exception {        //學校簡介        Document doc = Jsoup.connect(                "http://www.hnust.edu.cn/xxgk/xxjj/index.htm").get();// 獲得Html文檔        Elements elements = doc.select("div[class=MsoNormal]");// html文檔內容的解析        System.out.　　結果：
　　這是最簡單的一種網絡爬蟲抓取信息的方式，為我們開發應用可以提供的豐富的資源，源碼做了很詳細的注釋，相信大家都能看的明白。初次接觸，如有什么不當的地方，還望指點。