Linux LVS负载均衡技术

  • LVS 的产生背景

    很多研究显示 Gigabit Ethernet 在服务器上很难使得其吞吐率达到 1Gb/s 的原因是协议栈(TCP/IP)和操作系统的低效,以及处理器的低效,这需要对协议的处理方法、操作系统的调度和 IO 的处理作更深入的研究。

    很多网络服务因为访问次数爆炸式地增长而不堪重负,不能及时处理用户的请求,导致用户进行长时间的等待,大大降低了服务质量。所以对于这样的工作环境,对于我们的服务会有这样的一些需求:

  1. 可伸缩性(Scalability),当服务的负载增长时,系统能被扩展来满足需求,且不降低服务质量。
  2. 高可用性(Availability),尽管部分硬件和软件会发生故障,整个系统的服务必须是每天 24 小时每星期 7天可用的。
  3. 可管理性(Manageability),整个系统可能在物理上很大,但应该容易管理。
  4. 价格有效性(Cost-effectiveness),整个系统实现是经济的、易支付的。

    这样的需求促使了服务器集群的产生,这种松耦合结构的服务器集群系统有下列优点:

  1. 性能:网络服务的工作负载通常是大量相互独立的任务,通过一组服务器分而治之,可以获得很高的整体性能。
  2. 性价比:组成集群系统的 PC 服务器或 RISC 服务器和标准网络设备因为大规模生产降低成本,价格低,具有最高的性能/价格比。若整体性能随着结点数的增长而接近线性增加,该系统的性能/价格比接近于 PC服务器。所以,这种松耦合结构比紧耦合的多处理器系统具有更好的性能/价格比。
  3. 可伸缩性:集群系统中的节点数目可以增长到几千个,乃至上万个,其伸缩性远超过单台超级计算机。
  4. 高可用性:在硬件和软件上都有冗余,通过检测软硬件的故障,将故障屏蔽,由存活节点提供服务,可实现高可用性
  • LVS 的集群特点

LVS 集群有这样的一些特点:

  • 在功能上:

    有实现三种 IP 负载均衡技术和八种连接调度算法的 PVS 软件。

    在 IPVS 内部实现上,采用了高效的 Hash 函数和垃圾回收机制,能正确处理所调度报文相关的 ICMP 消息(有些商品化的系统反而不能)。虚拟服务的设置数目没有限制,每个虚拟服务有自己的服务器集。它支持持久的虚拟服务(如 HTTP Cookie 和 HTTPS 等需要该功能的支持),并提供详尽的统计数据,如连接的处理速率和报文的流量等。针对大规模拒绝服务(Deny of Service)攻击,实现了三种防卫策略。

    有基于内容请求分发的应用层交换软件 KTCPVS,它也是在 Linux 内核中实现。有相关的集群管理软件对资源进行监测,能及时将故障屏蔽,实现系统的高可用性。主、从调度器能周期性地进行状态同步,从而实现更高的可用性。

  • 在适用性上:

    后端服务器可运行任何支持 TCP/IP 的操作系统,包括 Linux,各种 Unix(如FreeBSD、Sun Solaris、HP Unix等),Mac/OS 和 Windows NT/2000 等。

    负载调度器能够支持绝大多数的 TCP 和 UDP 协议:

协 议    内 容
TCP    HTTP,FTP,PROXY,SMTP,POP3,IMAP4,DNS,LDAP,HTTPS,SSMTP等
UDP    DNS,NTP,ICP,视频、音频流播放协议等
无需对客户机和服务器做任何修改,可适用大多数 Internet 服务。

  • 在性能上:

LVS 服务器集群系统具有良好的伸缩性,可支持几百万个并发连接。配置 100M 网卡,采用 VS/TUN 或VS/DR 调度技术,集群系统的吞吐量可高达 1Gbits/s;如配置千兆网卡,则系统的最大吞吐量可接近10Gbits/s。

  • LVS 的组成部分

LVS 集群采用三层结构,三层主要组成部分为:

  1. 负载调度器(load balancer),它是整个集群对外面的前端机,负责将客户的请求发送到一组服务器上执行,而客户认为服务是来自一个 IP 地址(我们可称之为虚拟 IP 地址)上的。
  2. 服务器池(server pool),是一组真正执行客户请求的服务器,执行的服务有 WEB、MAIL、FTP 和 DNS 等。
  3. 共享存储(shared storage),它为服务器池提供一个共享的存储区,这样很容易使得服务器池拥有相同的内容,提供相同的服务。

  • 负载均衡解决方法

在以软件实现的负载均衡的方式有:

  1. 基于应用层负载均衡
  2. 基于 IP 层负载均衡

其中基于应用层负载均衡:多台服务器通过高速的互联网络连接成一个集群系统,在前端有一个基于应用层的负载调度器。当用户访问请求到达调度器时,请求会提交给做负载均衡调度的应用程序,分析请求,根据各个服务器的负载情况,选出一台服务器,重写请求并向选出的服务器访问,取得结果后,再返回给用户。

典型的代表有 Nginx 以及 Apache 的 Rewrite 模块。

应用层的负载均衡实现这样强大的功能也会付出一定的代价:系统处理开销较大,致使系统的伸缩性有限。基于应用层的负载均衡调度器对于不同的应用,需要写不同的调度器。
而基于 IP 层负载均衡:用户通过虚拟 IP 地址(Virtual IP Address)访问服务时,访问请求的报文会到达负载调度器,由它进行负载均衡调度,从一组真实服务器选出一个,将报文处理并转发给选定服务器的地址。实服务器的回应报文经过负载调度器时,将报文的源地址和源端口改为 Virtual IP Address 和相应的端口,再把报文发给用户。

而 IP 的负载技术有以下三种模式:

  1. 通过 NAT 实现虚拟服务器(VS/NAT)
  2. 通过 IP 隧道实现虚拟服务器(VS/TUN)
  3. 通过直接路由实现虚拟服务器(VS/DR)

并且在调度器上配置了 8 种调度算法:

  • 轮叫(Round Robin):调度器通过"轮叫"调度算法将外部请求按顺序轮流分配到集群中的真实服务器上,它均等地对待每一台服务器,而不管服务器上实际的连接数和系统负载。
  • 加权轮叫(Weighted Round Robin):调度器通过"加权轮叫"调度算法根据真实服务器的不同处理能力来调度访问请求。这样可以保证处理能力强的服务器处理更多的访问流量。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。
  • 最少链接(Least Connections):调度器通过"最少连接"调度算法动态地将网络请求调度到已建立的链接数最少的服务器上。如果集群系统的真实服务器具有相近的系统性能,采用"最小连接"调度算法可以较好地均衡负载。
  • 加权最少链接(Weighted Least Connections):在集群系统中的服务器性能差异较大的情况下,调度器采用"加权最少链接"调度算法优化负载均衡性能,具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。
  • 基于局部性的最少链接(Locality-Based Least Connections):"基于局部性的最少链接" 调度算法是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。该算法根据请求的目标 IP 地址找出该目标 IP 地址最近使用的服务器,若该服务器 是可用的且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且有服务器处于一半的工作负载,则用"最少链接"的原则选出一个可用的服务 器,将请求发送到该服务器。
  • 带复制的基于局部性最少链接(Locality-Based Least Connections with Replication):"带复制的基于局部性最少链接"调度算法也是针对目标 IP 地址的负载均衡,目前主要用于 Cache 集群系统。它与 LBLC 算法的不同之处是它要维护从一个 目标 IP 地址到一组服务器的映射,而 LBLC 算法维护从一个目标 IP 地址到一台服务器的映射。该算法根据请求的目标 IP 地址找出该目标 IP 地址对应的服务器组,按"最小连接"原则从服务器组中选出一台服务器,若服务器没有超载,将请求发送到该服务器,若服务器超载;则按"最小连接"原则从这个集群中选出一 台服务器,将该服务器加入到服务器组中,将请求发送到该服务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,以降低复制的 程度。
  • 目标地址散列(Destination Hashing):"目标地址散列"调度算法根据请求的目标IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。
  • 源地址散列(Source Hashing):"源地址散列"调度算法根据请求的源IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。
  • VS/NAT 实现虚拟服务器

由于 IPv4 中 IP 地址空间的日益紧张和安全方面的原因,很多网络使用保留 IP 地址(10.0.0.0/255.0.0.0、 172.16.0.0/255.128.0.0 和 192.168.0.0/255.255.0.0)。这些地址不在 Internet 上使用,而是专门为内部网络预留的。

当内部网络中的主机要访问 Internet 或被 Internet 访问时,就需要采用网络地址转换(Network Address Translation, 以下简称 NAT),将内部地址转化为 Internet 上可用的外部地址。

NAT 的工作原理是报文头(目标地址、源地址和端口等)被正确改写后,客户相信 它们连接一个 IP 地址,而不同 IP 地址的服务器组也认为它们是与客户直接相连的。由此,可以用 NAT 方法将不同 IP 地址的并行网络服务变成在一个 IP 地址上的一个虚拟服务。

VS/NAT(Virtual Server via Network Address Translation)实现的虚拟服务器是这样的一个结构,主要经过这样的一些步骤:

  1. 客户端通过 Internet 向服务器发起请求,而请求的 IP 地址指向的是调度器上对外公布的 IP 地址;(因为它并不是真正处理请求的服务器 IP 地址,所以称之为 虚拟 IP 地址,简称为 VIP,Virtual IP Address)
  2. 请求报文到达调度器(Load Balancer),调度器根据调度算法从一组真实的服务器(因为他们是真正处理用户请求的服务器,所以称为真实服务器,Real server。其 IP 地址也被称为真实 IP,简称为 RIP)中选出一台当前负载不高的服务器。然后将客户端的请求报文中的目标地址(Load Balancer 的 VIP)和端口通过 iptables 的 NAT 改写为选定服务器的 IP 地址和服务的端口。最后将修改后的报文发送给选出的服务器。同时,调度器在连接Hash 表中记录这个连接;当这个连接的下一个报文到达时,从连接 Hash 表中可以得到原选定服务器的地址和端口,进行同样的改写操作,并将报文传给原选定的服务器。
  3. Real Server 接收到报文之后,作出了相应的处理,然后将响应的报文发送给 Load Balancer;
  4. Load Balancer 接收到响应的报文时,将报文的源地址和源端口改为 Virtual IP Address和相应的端口,再把报文发给用户。

这样,客户所看到的只是在 Virtual IP Address 上提供的服务,而服务器集群的结构对用户是透明的。

下面,举个例子来进一步说明 VS/NAT,如图所示:

VS/NAT 的配置如下表所示,所有到 IP 地址为 205.100.106.2 和端口为 80 的流量都被负载均衡地调度的真实服务器172.16.1.3:80和 172.16.1.4:8080上。目标地址为 205.100.106.2:21 的报文被转移到172.16.1.3:21上。而到其他端口的报文将被拒绝。

Protocol    Virtual IP Address    Port    Real IP Address    Port
TCP    205.100.106.2    80    172.16.1.3    80
172.16.1.4    8080
TCP    205.100.106.2    21    172.16.1.3    21
当客户端访问 Web 服务的时候,报文中可能有以下的源地址和目标地址:

SOURCE    DEST
203.100.106.1:3456    205.100.106.2:80
报文到达调度器之后,调度器从调度列表中选出一台服务器,例如是172.16.1.4:8080。该报文会被改写为如下地址,并将它发送给选出的服务器。

SOURCE    DEST
203.100.106.1:3456    172.16.1.4:8080
Real Server 收到修改后的报文之后,做出响应,然后将响应报文返回到调度器,报文如下:

SOURCE    DEST
172.16.1.4:8080    203.100.106.1:3456
响应报文的源地址会被 Load Balacer 改写为虚拟服务的地址,再将报文发送给客户:

SOURCE    DEST
205.100.106.2:80    203.100.106.1:3456
这样,客户认为是从202.103.106.5:80服务得到正确的响应,而不会知道该请求是 Real Server1 还是 Real Server2 处理的。

这便是 VS/NAT 的处理数据包的整个过程,它有这样的一些特点:

  • 集群节点,也就是 Real Server 与 Load Balacer 必须在同一个 IP 网络中
  • Load Balancer 位于 Real Server 与客户端之间,处理进出的所有通信
  • RIP 通常是私有地址,仅用于各个集群节点之间的通信。
  • Real Server 的网关必须指向 Load Balancer
  • 支持端口映射:也就是Real Server 的端口可以自己设定,没有必须是与 Load Balancer 一样

VS/NAT 的优势在于可以做到端口映射,但是 Load Balancer 将可能成为集群的瓶颈。因为所有的出入报文都需要 Load Balancer 处理,请求报文较小不是问题,但是响应报文往往较大,都需要 NAT 转换的话,大流量的时候, Load Balancer 将会处理不过来。一般使用 VS/NAT 的话,处理 Real Server 数量达到 10~20 台左右将是极限,并且效率往往不高。

  • VS/DR 实现虚拟服务器

在VS/NAT 的集群系统中,请求和响应的数据报文都需要通过负载调度器,当真实服务器的数目在10台和20台之间时,负载调度器将成为整个集群系统的新瓶颈。大多数 Internet 服务都有这样的特点:请求报文较短而响应报文往往包含大量的数据。

既然同时处理进出报文会大大地影响效率,增加机器的负载,那么若是仅仅处理进来的报文,即在负载调度器中只负责调度请求,而出去的报文由 Real Server 直接发给客户端这样岂不是高效许多。

VS/DR(Virtual Server via Direct Routing)利用大多数 Internet 服务的非对称特点,负载调度器中只负责调度请求,而服务器直接将响应返回给客户,可以极大地提高整个集群 系统的吞吐量。

VS/DR 实现的虚拟服务器是这样的一个结构,主要经过这样的一些步骤:

  1. 客户端通过 Internet 向服务器发起请求,而请求的 IP 地址指向的是调度器上对外公布的 IP 地址;
  2. 请求报文到达调度器(Load Balancer),调度器根据各个服务器的负载情况,动态地选择一台服务器,不修改也不封装 IP 报文,而是将数据帧的 MAC 地址改为选出服务器的 MAC 地址,再将修改后 的数据帧在与服务器组的局域网上发送。因为数据帧的 MAC 地址是选出的服务器,所以服务器肯定可以收到这个数据帧;
  3. Real Server 接收到报文之后,发现报文的目标地址 VIP 是在本地的网络设备上,服务器处理这个报文,然后根据路由表将响应报文直接返回给客户。


在 VS/DR中,根据缺省的 TCP/IP 协议栈处理,请求报文的目标地址为 VIP,响应报文的源地址肯定也为VIP,所以响应报文不需要做任何修改,可以直接返回给客户,客户认为得到正常的服务,而不会知道是哪一台服务器处理的。

这便是 VS/DR 的处理数据包的整个过程,它有这样的一些特点:

  • 集群节点,也就是 Real Server 与 Load Balacer 必须在同一个物理网络中(若是不同网段的话结构将变得复杂)
  • RIP 通常是私有地址,也可以是公网地址,以便于远程管理与监控。
  • Load Balancer 仅仅负责处理入站的请求,Real Server 将直接响应客户端
  • Real Server 的网关不能指向 Load Balancer
  • 不支持端口映射:也就是 Real Server 的端口必须是与 Load Balancer 对外服务的一样
  • VS/TUN 实现虚拟服务器

VS/DR 限制 Real Server 与 Load Balancer 必须在同一个物理网络中,那若是分散在各地岂不是无法使用?所以有了 VS/TUN(Virtual Server via IP Tunneling)的诞生。

IP 隧道(IP tunneling)是将一个 IP 报文封装在另一个 IP 报文的技术,这可以使得目标为一个 IP 地址的数据报文能被封装和转发到另一个 IP 地址。IP隧道技术亦称为 IP 封装技术(IP encapsulation)。IP 隧道主要用于移动主机和虚拟私有网络(Virtual Private Network),在其中隧道都是静态建立的,隧道一端有一个IP地址,另一端也有唯一的 IP 地址。

我们利用 IP 隧道技术将请求报文封装转发给后端服务器,响应报文能从后端服务器直接返回给客户。但在这里,后端服务器有一组而非一个,所以我们不可能静态地建立一一对应的隧道,而是动态地选择一台服务器,将请求报文封装和转发给选出的服务器。这样,我们可以利用 IP 隧道的原理将一组服务器上的网络服务组成在一个 IP 地址上的虚拟网络服务。 VS/TUN 的体系结构如图所示,各个服务器将 VIP 地址配置在自己的 IP 隧道设备上。

它的连接调度和管理与 VS/NAT 中的一样,只是它的报文转发方法不同。调度器根据各个服务器的负载情况,动态地选择一台服务器, 将请求报文封装在另一个 IP 报文中,再将封装后的 IP 报文转发给选出的服务器;服务器收到报文后,先将报文解封获得原来目标地址为 VIP的报文,服务器发现VIP地址被配置在本地的 IP隧道设备上,所以就处理这个请求,然后根据路由表将响应报文直接返回给客户。

这便是 VS/TUN 的处理数据包的整个过程,它有这样的一些特点:

  • 集群节点,也就是 Real Server 与 Load Balacer 可以跨越公网
  • RIP 必须是公网地址。
  • Load Balancer 仅仅负责处理入站的请求,Real Server 将直接响应客户端
  • Real Server 的网关不能指向 Load Balancer
  • 不支持端口映射:也就是 Real Server 的端口必须是与 Load Balancer 对外服务的一样

这便是 LVS 所提供的 IP 负载均衡的三种技术,我们可以根据自己的情况做出不同的选择。

猜你喜欢

转载自blog.csdn.net/Franklin7B/article/details/83045891