2019 7.25学习笔记

元组里如果只有一项 那一项后面要加上逗号      (xxxxxx,  

在mysql操作中没有utf-8 只有utf8

Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,是的爬虫可以进行分布式。可以充分的利用资源来提高爬虫的爬行效率。

分布式爬虫的优点:

1.可以充分利用多台机器的带宽。

2.可以充分利用多台机器的ip地址。

3.多台机器做,爬行效率更高。

分布式爬虫必须要解决的问题:

1.分布式爬虫是好几台机器在同时运行,如何保证不同的机器爬取的时候不会出现重复爬取的问题。

2.同样,分布式爬虫在不同的机器上运行,在把数据爬完后如何保证保存在同一个地方。

redis是一种支持分布式的nosql数据库,他的数据是保存在内存中,同时redis可以定时把内存数据同步到磁盘,即可以将数据持久化,并且他比memcached支持更多的数据结构。

其他机器访问本机redis服务器:

想要让其他机器访问本机的redis服务器。那么要修改redis.conf的配置文件,将bind改成bind [自己的IP地址或者0.0.0.0],其他机器才能访问

注意:bind绑定的是本机网卡的IP地址,而不是想让其他机器连接的IP地址。如果有多块网卡,那么可以绑定多个网卡的IP地址。如果绑定到0.0.0.0.那么意味着其他机器可以通过本机的所有的IP地址进行访问

猜你喜欢

转载自www.cnblogs.com/jyjoker/p/11242139.html
今日推荐