# 单机爬虫问题:爬取大量数据时效率低
# 多爬虫问题:数据共享,分配困难
'''
分布式爬虫:在setting里设置队列是远程的
共享队列:将所有url放到一个队列里,谁需要爬取就从这里取,而新爬到的url也都放到这个队列里
去重:
Redis:(内存数据库)
同时可以落地保存到硬盘
可以去重
可以对保存的内容进行生命周期控制
内容保存到数据库:
Mongodb非关系型数据库
MySQLg关系型数据库
'''
'''
现成的分布式的爬虫的三方包scrapy_redis
安装scrapy_redis:pip install scrapy_redis
文档网址:scrapy-redis.readthedocs.io
'''