麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 開發 > PHP > 正文

PHP實現簡單爬蟲的方法

2024-05-04 23:38:18
字體:
來源:轉載
供稿:網友

這篇文章主要介紹了PHP實現簡單爬蟲的方法,涉及php頁面抓取及分析的相關技巧,具有一定參考借鑒價值,需要的朋友可以參考下

本文實例講述了PHP實現簡單爬蟲的方法。分享給大家供大家參考。具體如下:

 

 
  1. <?php 
  2. /** 
  3. * 爬蟲程序 -- 原型 
  4. * 
  5. * 從給定的url獲取html內容 
  6.  
  7. * @param string $url  
  8. * @return string  
  9. */ 
  10. function _getUrlContent($url) { 
  11. $handle = fopen($url"r"); 
  12. if ($handle) { 
  13. $content = stream_get_contents($handle, 1024 * 1024); 
  14. return $content
  15. else { 
  16. return false; 
  17. }  
  18. }  
  19. /** 
  20. * 從html內容中篩選鏈接 
  21.  
  22. * @param string $web_content  
  23. * @return array  
  24. */ 
  25. function _filterUrl($web_content) { 
  26. $reg_tag_a = '/<[a|A].*?href=[/'/"]{0,1}([^>/'/"/ ]*).*?>/'
  27. $result = preg_match_all($reg_tag_a$web_content$match_result); 
  28. if ($result) { 
  29. return $match_result[1]; 
  30. }  
  31. }  
  32. /** 
  33. * 修正相對路徑 
  34.  
  35. * @param string $base_url  
  36. * @param array $url_list  
  37. * @return array  
  38. */ 
  39. function _reviseUrl($base_url$url_list) { 
  40. $url_info = parse_url($base_url); 
  41. $base_url = $url_info["scheme"] . '://'
  42. if ($url_info["user"] && $url_info["pass"]) { 
  43. $base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@"
  44. }  
  45. $base_url .= $url_info["host"]; 
  46. if ($url_info["port"]) { 
  47. $base_url .= ":" . $url_info["port"]; 
  48. }  
  49. $base_url .= $url_info["path"]; 
  50. print_r($base_url); 
  51. if (is_array($url_list)) { 
  52. foreach ($url_list as $url_item) { 
  53. if (preg_match('/^http/'$url_item)) { 
  54. // 已經是完整的url 
  55. $result[] = $url_item
  56. else { 
  57. // 不完整的url 
  58. $real_url = $base_url . '/' . $url_item
  59. $result[] = $real_url
  60. }  
  61. }  
  62. return $result
  63. else { 
  64. return
  65. }  
  66. }  
  67. /** 
  68. * 爬蟲 
  69.  
  70. * @param string $url  
  71. * @return array  
  72. */ 
  73. function crawler($url) { 
  74. $content = _getUrlContent($url); 
  75. if ($content) { 
  76. $url_list = _reviseUrl($url, _filterUrl($content)); 
  77. if ($url_list) { 
  78. return $url_list
  79. else { 
  80. return ; 
  81. }  
  82. else { 
  83. return ; 
  84. }  
  85. }  
  86. /** 
  87. * 測試用主程序 
  88. */ 
  89. function main() { 
  90. $current_url = "http://hao123.com/"; //初始url 
  91. $fp_puts = fopen("url.txt""ab"); //記錄url列表 
  92. $fp_gets = fopen("url.txt""r"); //保存url列表 
  93. do { 
  94. $result_url_arr = crawler($current_url); 
  95. if ($result_url_arr) { 
  96. foreach ($result_url_arr as $url) { 
  97. fputs($fp_puts$url . "/r/n"); 
  98. }  
  99. }  
  100. while ($current_url = fgets($fp_gets, 1024)); //不斷獲得url 
  101. }  
  102. main(); 
  103. ?> 

希望本文所述對大家的php程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 国产中文av在线 | 免费黄色成人 | 91精品国产九九九久久久亚洲 | 欧美精品一区二区三区在线播放 | 国产精品久久久久久久久久久久久久久 | 91久久久久久 | 黄色影院在线观看视频 | 国产免费观看视频 | 毛片视频大全 | 国产精品二区高清在线 | 黄色视频a级毛片 | 久久精品一级片 | 国产精品麻豆91 | 久久精品一级片 | 丰满年轻岳中文字幕一区二区 | 成人mm视频在线观看 | 欧美18videos性处按摩 | 草久在线 | 久久逼逼 | 91短视频版高清在线观看免费 | av中文在线观看 | 国产亚洲精品久久久久久大师 | 天天草夜夜爽 | 毛片在线播放视频 | 日本黄色大片免费观看 | 一级毛片电影院 | 国产91大片| 国产亚洲欧美日韩在线观看不卡 | 国产va在线观看 | 天堂福利电影 | 福利在线国产 | 国产自91精品一区二区 | 国产亚洲精品久久久久婷婷瑜伽 | 国产精品一区网站 | 午夜视频在线观看免费视频 | 久久精品久久精品国产大片 | 国产jjizz一区二区三区视频 | 蜜桃免费在线 | 久久久久免费精品国产小说色大师 | 国产精品高潮99久久久久久久 | 特黄一级小说 |