Scrapy是一个高效的Python网络爬虫框架,可以快速、灵活地编写爬虫程序。然而,在处理大量数据或复杂网站时,单机爬虫可能会遇到性能和扩展问题,这时候就需要使用分布式爬虫来提高数据抓取效率。本文就介绍Scrapy中的分布式爬虫和提高数据抓取效率的方法。
一、什么是分布式爬虫?
传统的单机爬虫体系结构中,所有爬虫运行在同一台机器上,面对大数据量或高压力爬取任务时,常常会出现机器性能吃紧的情况。分布式爬虫则是将爬虫任务分发到多台机器上进行处理,通过分布式计算和存储,降低了单台机器的负担,从而提高了爬虫的效率和稳定性。
Scrapy中的分布式爬虫通常使用开源的分布式调度框架Distributed Scrapy(简称DSC)来实现。DSC将Scrapy爬虫程序分发到多台机器上进行并行处理,并将结果统一汇总到中心调度节点上。
二、如何实现分布式爬虫?
1、安装Distributed Scrapy
运行以下命令安装DSC:
pip install scrapy_redis
pip install pymongo
2、修改Scrapy配置文件
在Scrapy项目的settings.py文件中添加以下配置:
使用 redis 调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
使用 redis 去重策略
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
不清空 redis 记录,可以暂停/恢复 爬取
SCHEDULER_PERSIST=True
设置redis的连接参数
REDIS_HOST='localhost'
REDIS_PORT=6379
3、编写爬虫代码
在Scrapy的爬虫程序中,需要修改起始请求的方式,使用scrapy-redis的起始方式:
encoding:utf-8
import scrapy,re,json
from ..items import DouyuItem
from scrapy_redis.spiders import RedisSpider
class DouyuSpider(RedisSpider):
# 爬虫名字
name = 'douyu'
# redis-key,从redis中pop数据进行爬取
redis_key = 'douyu:start_urls'
def parse(self, response):
# scrapy爬虫代码
4、启动redis服务
在终端执行以下命令启动redis服务:
redis-server
5、启动Distributed Scrapy
在终端输入以下命令启动DSC的节点:
scrapy crawl douyu -s JOBDIR=job1
其中,job1可以是自定义名称,用于DSC记录爬虫状态。
三、优化Scrapy爬虫
Scrapy提供了许多优化爬虫效率的方法,如果配合分布式爬虫,可以进一步提高数据抓取效率。
1、使用CrawlerRunner
CrawlerRunner是需要利用一个 Twisted 的类来扩展应用程序。与简单的运行一个Python文件相比,它允许您在同一进程中同时运行多个爬虫,而无需使用多个进程或多个机器。这可以使任务管理变得更加轻松。
使用CrawlerRunner的方式如下:
from twisted.internet import reactor,defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from my_spider.spiders.my_spider import MySpider
runner = CrawlerRunner(get_project_settings())
@defer.inlineCallbacks
def crawl():
yield runner.crawl(MySpider)
reactor.stop()
crawl()
reactor.run()
2、降低下载中间件的优先级
如果需要在下载中间件中处理大量或复杂的数据,可以使用CONCURRENT_REQUESTS_PER_DOMAIN降低下载中间件的优先级:
CONCURRENT_REQUESTS_PER_DOMAIN = 2
DOWNLOAD_DELAY = 0.5
DOWN
.........................................................