分布式爬虫分简介_我的学习教程

# 单机爬虫问题：爬取大量数据时效率低
# 多爬虫问题：数据共享，分配困难
'''
分布式爬虫：在setting里设置队列是远程的
共享队列：将所有url放到一个队列里，谁需要爬取就从这里取，而新爬到的url也都放到这个队列里
去重：
Redis：（内存数据库）
同时可以落地保存到硬盘
可以去重
可以对保存的内容进行生命周期控制
内容保存到数据库：
Mongodb非关系型数据库
MySQLg关系型数据库
'''

'''
现成的分布式的爬虫的三方包scrapy_redis
安装scrapy_redis：pip install scrapy_redis
文档网址：scrapy-redis.readthedocs.io
'''