python分布式爬虫中的Redis如何使用-创新互联
这篇文章主要介绍python分布式爬虫中的Redis如何使用,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

利用redis做分布式系统,最经典的就是scrapy-Redis,这是比较成熟的框架。同时我们也可以利用Redis的队列功能或者订阅发布功能来打造自己的分布式系统。
Redis作为通信载体的优点是读写迅速,对爬虫的速度影响可忽略不计,使用比较普遍。
主程序示例:
import scrapy
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.dupefilter import RFPDupeFilter
from scrapy.core.scheduler import Scheduler
import redis
from ..items import XiaobaiItem
from scrapy_redis.spiders import RedisSpider
class RenjianSpider(RedisSpider):
name = 'baidu'
allowed_domains = ['baidu.com']
def parse(self, response):
news_list = response.xpath('//*[@id="content-list"]/div[@class="item"]')
for news in news_list:
content = response.xpath('.//div[@class="part1"]/a/text()').extract_first().strip()
url = response.xpath('.//div[@class="part1"]/a/@href').extract_first()
yield XiaobaiItem(url=url,content=content)
yield Request(url='http://dig..com/',callback=self.parse)以上是“python分布式爬虫中的Redis如何使用”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!
网站标题:python分布式爬虫中的Redis如何使用-创新互联
链接分享:http://www.jxjierui.cn/article/digidg.html


咨询
建站咨询
