博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy爬取数据的基本流程及url地址拼接
阅读量:5101 次
发布时间:2019-06-13

本文共 2717 字,大约阅读时间需要 9 分钟。

说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢!
 
了解内容:
Scrapy :抓取数据的爬虫框架
 
 
异步与非阻塞的区别
 
异步:指的是整个过程,中间如果是非阻塞的,那就是异步过程;
非阻塞:关注拿到结果之前的状态 (如果拿到结果前在等待,是阻塞,反之,是非阻塞)
 
 
理解:
Scrapy 基本工作流程(简单--->复杂)
                            
            
                 每个模块间不通讯,模块之间通过引擎进行数据传输

 

 
   
 基本使用
 
一、创建spider
 
scrapy项目流程
---创建项目
    ---scrapy startproject  xxxx
---创建爬虫
    ---cd 项目目录下
    ---scrapy genspider   aaa    allowed_domains"”
        scrapy genspider  first_spider  
 
    first_spider   爬虫名字
           限制爬取数据的范围
--完善spider
    ---提取数据,提取url地址构成request对象
        xpath  extract_first()\extract()   response.meta      yield  scrapy.Requeest       
--完善管道 
--运行爬虫
    --- cd  项目目录   
    ---scrapy  crawl   first_spider
 
注意:避免爬虫名和项目名重复 ;
           不管在终端还是pycharm 都要切换到当前目录下 cd myspider
            allowed_domains : 限定爬取的范围
           
二、完善spider 
 
    ----  对数据的提取
 
  1、 Scray 中的parse 做什么用途? 
            ---处理start_urls 中的url地址的响应
 
    2 、yiele 生成器的使用
             好处:遍历函数的返回值的时候,挨个把数据读到内存,不会造成内存的瞬间占用过高
             通过yield传递数据给管道,(类似转发)
             yield能够传递的对象只能是:BaseItem, Request, dict, None
    
 
  3 、使用.extract()把response.xpath()提取的数据转化为字符串列表
            .extract()    返回一个含有字符串的列表,没有返回空列表
            .extract_first()   提取列表中的第一个字符串,如果不存在,返回None
 
----例:
yield的使用:使用多个yield 来传递需要的数据
 

 

  
 
 
 
 
 
 
         
 

上面的代码应该改成:yield item

 
4、 根据Response返回的url地址,对next_url的url地址进行拼接,构造请求,有5种方式
 
        第1种:手动字符串相加
        第2种:urllib.parse.urljoin(baseurl,url)  后面的url会根据baseurl进行url地址的拼接
        第3种:response.follow(url ,callback)   能够根据response的地址把url拼接完整,构造成Request对象,
                                                                      但这个方法在python 1.0后的版本中才有
        第4种(
推荐):response.urljoin(next_url)    
更简洁、好用
        第5种:scrapy.Request(url,callback,meta,dont_filter)
 
---例:
# 第一种:手动拼接下一页url
 
#主站链接 用来拼接    base_site = 'https://www.jpdd.com'def parse(self,response):    book_urls = response.xpath('//table[@class="p-list"]//a/@href').extract()    for book_url in book_urls:         url = self.base_site + book_url         yield scrapy.Request(url, callback=self.getInfo)        #获取下一页    next_page_url = self.base_site + response.xpath(            '//table[@class="p-name"]//a[contains(text(),"下一页")]/@href'            ).extract()[0]    yield scrapy.Request(next_page_url, callback=self.parse)
 
使用urllib实现url地址拼接的原理:
        

 

        
 
 
 
 

 

三、完善管道 
       
  管道的设置也是以键值的形式
 
      

 

 
 
 
 
 
 
 
数据保存:可以是具体的item,也可以保存在文件中,如下2种方式
 
 第一种:
        
     
 
 
 
 
 
 
 
 
 
 
 
第二种:

  ------数字越小,表示离引擎越近,数据越先经过处理,反之 。

  -------使用多个管道时,前面的管道中要记得return  xx  不然后面的管道接收不到前面的数据,会返回none
 
四、item的使用
        
        
为什么要单独定义item?
            定义item即提前规划好哪些字段需要抓取,scrapy.Field()仅仅是提前占坑,通过item.py能够让别人清楚自己的爬虫是在抓取什么数据;
       同时来提示哪些字段是需要抓取的,没有定义的字段不能使用,防止手误;
    item不能直接存入mongodb中,需要转化为字典后再存储。
 
      Item使用之前需要先导入并且实例化,之后的使用方法和使用字典相同
from yanguan.items import YanguanItem    item = YanguanItem() #实例化

  

补充:
构造翻页请求
        meta 自身是个字典
          Scrapy.Request() ===>相当于构造了一个requests对象
 
scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])

参数说明:

括号中的参数为可选参数
callback:表示当前的url的响应交给哪个函数去处理
meta:实现数据在不同的解析函数中传递,meta默认带有部分数据,比如下载延迟,请求深度等
dont_filter:默认会过滤请求的url地址,即请求过的url地址不会继续被请求,对需要重复请求的url地址可以把它设置为Ture,比如贴吧的翻页请求,页面的数据总是在变化;start_urls中的地址会被反复请求,否则程序不会启动

 
        
 
 

 

转载于:https://www.cnblogs.com/littlehappycode/p/10996203.html

你可能感兴趣的文章
MySQL索引背后的数据结构及算法原理
查看>>
#Leetcode# 209. Minimum Size Subarray Sum
查看>>
SDN第四次作业
查看>>
DM8168 DVRRDK软件框架研究
查看>>
django迁移数据库错误
查看>>
yii 跳转页面
查看>>
洛谷 1449——后缀表达式(线性数据结构)
查看>>
[最小割][Kruskal] Luogu P5039 最小生成树
查看>>
Data truncation: Out of range value for column 'Quality' at row 1
查看>>
Dirichlet分布深入理解
查看>>
(转)Android之发送短信的两种方式
查看>>
python第九天课程:遇到了金角大王
查看>>
字符串处理
查看>>
ECharts(Enterprise Charts 商业产品图表库)初识
查看>>
LeetCode Factorial Trailing Zeroes (阶乘后缀零)
查看>>
hdu 5402 Travelling Salesman Problem (技巧,未写完)
查看>>
[AIR] 获取U盘,打开U盘
查看>>
HtmlUnitDriver 网页内容动态抓取
查看>>
ad logon hour
查看>>
获得进程可执行文件的路径: GetModuleFileNameEx, GetProcessImageFileName, QueryFullProcessImageName...
查看>>