使用Scrapy爬取動態數據

2020-02-15 23:18:09

字體：大中小

來源：轉載

供稿：網友

對于動態數據的爬取，可以選擇selenium和PhantomJS兩種方式，本文選擇的是PhantomJS。

網址：

https://s.taobao.com/search?q=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

1.首先第一步，對中間件的設置。

進入pipelines.py文件中：

from selenium import webdriverfrom scrapy.http.response.html import HtmlResponsefrom scrapy.http.response import Responseclass SeleniumSpiderMiddleware(object):  def __init__(self):    self.driver = webdriver.PhantomJS()  def process_request(self ,request ,spider):    # 當引擎從調度器中取出request進行請求發送下載器之前    # 會先執行當前的爬蟲中間件 ，在中間件里面使用selenium    # 請求這個request ，拿到動態網站的數據 然后將請求    # 返回給spider爬蟲對象    if spider.name == 'taobao':      # 使用爬蟲文件的url地址      spider.driver.get(request.url)      for x in range(1 ,12 ,2):        i = float(x) / 11        # scrollTop 從上往下的滑動距離        js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i        spider.driver.execute_script(js)      response = HtmlResponse(url=request.url,                  body=spider.driver.page_source,                  encoding='utf-8',                  request=request)      # 這個地方只能返回response對象，當返回了response對象，那么可以直接跳過下載中間件，將response的值傳遞給引擎，引擎又傳遞給 spider進行解析      return response

在設置中，要將middlewares設置打開。

進入settings.py文件中，將

DOWNLOADER_MIDDLEWARES = {  'taobaoSpider.middlewares.SeleniumSpiderMiddleware': 543,}

打開。

2.第二步，爬取數據

回到spider爬蟲文件中。

引入：

from selenium import webdriver

自定義屬性：

def __init__(self):  self.driver = webdriver.PhantomJS()

查找數據和分析數據：

def parse(self, response):  div_info = response.xpath('//div[@class="info-cont"]')  print(div_info)  for div in div_info:    title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('')    # title = self.driver.find_element_by_class_name("title-row").text    print('名稱：', title)    price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')

3.第三步，傳送數據到item中：

在item.py文件中：

name = scrapy.Field()price = scrapy.Field()

回到spider.py爬蟲文件中：

引入：

from ..items import TaobaospiderItem

上一篇：Django中數據庫的數據關系:一對一,一對多,多對多

下一篇：Python3的介紹、安裝和命令行的認識(推薦)

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

使用Scrapy爬取動態數據