真正的inotify+rsync实时同步 彻底告别同步慢

真正的inotify+rsync实时同步 彻底告别同步慢


我们公司在用inotify+rsync做实时同步,来解决分布式集群文件一致性的问题。

但当web文件越来越多(百万级数量html,jpg等小 文件),同步就越来越慢,根本做不到实时,按照网上的调优方法都尝试过,问题根本没有解决。

经过我一翻细致研究,终于把慢的核心问题研究明白,先总结一句 inotifywait响应不会有延迟,rsync也很快。大家同样有慢的烦恼,那是因为网上的inotify+rsync的教程都是坑。


-------------------------------inotifywait 单独分析--------------------------


1.

/usr/local/bin/inotifywait -mrq --format '%Xe %w%f' -e modify,create,delete,attrib /data/

执行上面命令,是让inotifywait监听/data/目录,当监听到有发生modify,create,delete,attrib等事件发生时,按%Xe %w%f的格式输出。

在/data/目录touch几个文件

touch /data/{1..5}



观看inotify输出

ATTRIB /data/1 -- 表示发生了ATTRIB事件 路径为/data/1

ATTRIB /data/2

ATTRIB /data/3

ATTRIB /data/4

ATTRIB /data/5


知道上面的输出效果之后 我们应该想得到,可以用rsync获取inotifywait监控到的文件列表来做指定的文件同步,而不是每次都由rsync做全目录扫描来判断文件是否存在差异。


有很多人会说 日志输出那里明明只有差异文件的同步记录。其实这是rsync的功能,他本来就只会输出有差异需要同步的文件信息。不信你直接拿这句rsync来跑试试。

这种在需要同步的源目录文件量很大的情况下,简直是不堪重负。不仅耗CPU还耗时,根本不可以做到实时同步。


改良方法

要做到实时,就必须要减少rsync对目录的递归扫描判断,尽可能的做到只同步inotify监控到已发生更改的文件。

结合rsync的特性,所以这里要分开判断来实现一个目录的增删改查对应的操作。


脚本如下

#!/bin/bash

src=/data/ # 需要同步的源路径

des=data                             # 目标服务器上 rsync --daemon 发布的名称,rsync --daemon这里就不做介绍了,网上搜一下,比较简单。

rsync_passwd_file=/etc/rsyncd.passwd # rsync验证的密码文件

ip1=192.168.0.18                 # 目标服务器1

ip2=192.168.0.19                 # 目标服务器2

user=root                            # rsync --daemon定义的验证用户名

cd ${src}                           

# 此方法中,由于rsync同步的特性,这里必须要先cd到源目录,inotify再监听 ./ 才能rsync同步后目录结构一致,有兴趣的同学可以进行各种尝试观看其效果

/usr/local/bin/inotifywait -mrq --format '%Xe %w%f' -e modify,create,delete,attrib,close_write,move ./ | while read file

# 把监控到有发生更改的"文件路径列表"循环

do

INO_EVENT=$(echo $file | awk '{print $1}')      # 把inotify输出切割 把事件类型部分赋值给INO_EVENT

INO_FILE=$(echo $file | awk '{print $2}')       # 把inotify输出切割 把文件路径部分赋值给INO_FILE

echo "-------------------------------$(date)------------------------------------"

echo $file

#增加、修改、写入完成、移动进事件

#增、改放在同一个判断,因为他们都肯定是针对文件的操作,即使是新建目录,要同步的也只是一个空目录,不会影响速度。

if [[ $INO_EVENT =~ 'CREATE' ]] || [[ $INO_EVENT =~ 'MODIFY' ]] || [[ $INO_EVENT =~ 'CLOSE_WRITE' ]] || [[ $INO_EVENT =~ 'MOVED_TO' ]]         # 判断事件类型

then

echo 'CREATE or MODIFY or CLOSE_WRITE or MOVED_TO'

rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} &&

# INO_FILE变量代表路径哦  -c校验文件内容

rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip2}::${des}

#仔细看 上面的rsync同步命令 源是用了$(dirname ${INO_FILE})变量 即每次只针对性的同步发生改变的文件的目录(只同步目标文件的方法在生产环境的某些极端

#环境下会漏文件 现在可以在不漏文件下也有不错的速度 做到平衡)

#然后用-R参数把源的目录结构递归到目标后面 保证目录结构一致性

fi

#删除、移动出事件

if [[ $INO_EVENT =~ 'DELETE' ]] || [[ $INO_EVENT =~ 'MOVED_FROM' ]]

then

echo 'DELETE or MOVED_FROM'

rsync -avzR --delete --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} &&

rsync -avzR --delete --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip2}::${des}

#看rsync命令 如果直接同步已删除的路径${INO_FILE}会报no such or directory错误 所以这里同步的源是被删文件或目录的上一级路径

#并加上--delete来删除目标上有而源中没有的文件,这里不能做到指定文件删除,如果删除的路径越靠近根,则同步的目录月多,同步删除的操作就越花时间。

#这里有更好方法的同学,欢迎交流。

fi

#修改属性事件 指 touch chgrp chmod chown等操作

if [[ $INO_EVENT =~ 'ATTRIB' ]]

then

echo 'ATTRIB'

if [ ! -d "$INO_FILE" ]

# 如果修改属性的是目录 则不同步,因为同步目录会发生递归扫描,等此目录下的文件发生同步时,rsync会顺带更新此目录。

then

rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} &&        

rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip2}::${des}

fi

fi

done


-----------计划性任务:每两小时做1次全量同步------------

因为inotify只在启动时会监控目录,他没有启动期间的文件发生更改,他是不知道的,所以这里每2个小时做1次全量同步,防止各种意外遗漏,保证目录一致。


crontab -e

* */2 * * * rsync -avz --password-file=/etc/rsync-client.pass /data/ [email protected]::data && rsync -avz --password-file=/etc/rsync-client.pass /data/ [email protected]::data

改良后我们公司这种百万级小文件也能做到实施同步了。


------------inotify介绍-------------------

Inotify API用于检测文件系统变化的机制。Inotify可用于检测单个文件,也可以检测整个目录。当检测的对象是一个目录的时候,目录本身和目录里的内容都会成为检测的对象。

此种机制的出现的目的是当内核空间发生某种事件之后,可以立即通知到用户空间。方便用户做出具体的操作。


事实上,在 inotify 之前已经存在一种类似的机制叫 dnotify,但是它存在许多缺陷:
1) 对于想监视的每一个目录,用户都需要打开一个文件描述符,因此如果需要监视的目录较多,将导致打开许多文件描述符,特别是,如果被监视目录在移动介质上(如光盘和 USB 盘),将导致无法 umount 这些文件系统,因为使用 dnotify 的应用打开的文件描述符在使用该文件系统。
2) dnotify 是基于目录的,它只能得到目录变化事件,当然在目录内的文件的变化会影响到其所在目录从而引发目录变化事件,但是要想通过目录事件来得知哪个文件变化,需要缓存许多 stat 结构的数据。
3) Dnotify 的接口非常不友好,它使用 signal。

Inotify 是为替代 dnotify 而设计的,它克服了 dnotify 的缺陷,提供了更好用的,简洁而强大的文件变化通知机制:
1) Inotify 不需要对被监视的目标打开文件描述符,而且如果被监视目标在可移动介质上,那么在 umount 该介质上的文件系统后,被监视目标对应的 watch 将被自动删除,并且会产生一个 umount 事件。
2) Inotify 既可以监视文件,也可以监视目录。
3) Inotify 使用系统调用而非 SIGIO 来通知文件系统事件。
4) Inotify 使用文件描述符作为接口,因而可以使用通常的文件 I/O 操作select 和 poll 来监视文件系统的变化。
Inotify 可以监视的文件系统事件包括:
IN_ACCESS,即文件被访问
IN_MODIFY,文件被 write
IN_ATTRIB,文件属性被修改,如 chmod、chown、touch 等
IN_CLOSE_WRITE,可写文件被 close
IN_CLOSE_NOWRITE,不可写文件被 close
IN_OPEN,文件被 open
IN_MOVED_FROM,文件被移走,如 mv
IN_MOVED_TO,文件被移来,如 mv、cp
IN_CREATE,创建新文件
IN_DELETE,文件被删除,如 rm
IN_DELETE_SELF,自删除,即一个可执行文件在执行时删除自己
IN_MOVE_SELF,自移动,即一个可执行文件在执行时移动自己
IN_UNMOUNT,宿主文件系统被 umount
IN_CLOSE,文件被关闭,等同于(IN_CLOSE_WRITE | IN_CLOSE_NOWRITE)

IN_MOVE,文件被移动,等同于(IN_MOVED_FROM | IN_MOVED_TO)


参数说明
inotifywait

语法:
inotifywait [-hcmrq] [-e ] [-t ] [--format ] [--timefmt ] [ ... ]
参数:
-h,–help
输出帮助信息
@
排除不需要监视的文件,可以是相对路径,也可以是绝对路径。
–fromfile
从文件读取需要监视的文件或排除的文件,一个文件一行,排除的文件以@开头。
-m, –monitor
接收到一个事情而不退出,无限期地执行。默认的行为是接收到一个事情后立即退出。
-d, –daemon
跟–monitor一样,除了是在后台运行,需要指定–outfile把事情输出到一个文件。也意味着使用了–syslog。
-o, –outfile
输出事情到一个文件而不是标准输出。
-s, –syslog
输出错误信息到系统日志
-r, –recursive
监视一个目录下的所有子目录。
-q, –quiet
指定一次,不会输出详细信息,指定二次,除了致命错误,不会输出任何信息。
–exclude
正则匹配需要排除的文件,大小写敏感。
–excludei
正则匹配需要排除的文件,忽略大小写。
-t , –timeout
设置超时时间,如果为0,则无限期地执行下去。
-e , –event
指定监视的事件。
-c, –csv
输出csv格式。
–timefmt
指定时间格式,用于–format选项中的%T格式。
–format
指定输出格式。
%w 表示发生事件的目录
%f 表示发生事件的文件
%e 表示发生的事件
%Xe 事件以“X”分隔
%T 使用由–timefmt定义的时间格式

inotifywatch

语法
inotifywatch [-hvzrqf] [-e ] [-t ] [-a ] [-d ] [ ... ]
参数:
-h, –help
输出帮助信息
-v, –verbose
输出详细信息
@
排除不需要监视的文件,可以是相对路径,也可以是绝对路径。
–fromfile
从文件读取需要监视的文件或排除的文件,一个文件一行,排除的文件以@开头。
-z, –zero
输出表格的行和列,即使元素为空
–exclude
正则匹配需要排除的文件,大小写敏感。
–excludei
正则匹配需要排除的文件,忽略大小写。
-r, –recursive
监视一个目录下的所有子目录。
-t , –timeout
设置超时时间
-e , –event
只监听指定的事件。
-a , –ascending
以指定事件升序排列。
-d , –descending
以指定事件降序排列。              



    #文件或目录被移除,之后不再监听此文件或目录。 #文件或目录创建 #文件或目录删除 #文件系统取消挂载,之后不再监听此文件系统。

access                                            #文件读取
modify   #文件更改。
attrib #文件属性更改,如权限,时间戳等。
close_write #以可写模式打开的文件被关闭,不代表此文件一定已经写入数据。
close_nowrite #以只读模式打开的文件被关闭。
close #文件被关闭,不管它是如何打开的。
open #文件打开。
moved_to #一个文件或目录移动到监听的目录,即使是在同一目录内移动,此事件也触发。
moved_from #一个文件或目录移出监听的目录,即使是在同一目录内移动,此事件也触发。
move #包括moved_to和 moved_from
move_self #文件或目录被移除,之后不再监听此文件或目录。
create #文件或目录创建
delete #文件或目录删除
delete_self #文件或目录移除,之后不再监听此文件或目录
unmount   #文件系统取消挂载,之后不再监听此文件系统。



-------------------优化 Inotify-------------------------

在/proc/sys/fs/inotify目录下有三个文件,对inotify机制有一定的限制

[root@web ~]# ll /proc/sys/fs/inotify/

总用量0

-rw-r--r--1 root root 09月923:36 max_queued_events

-rw-r--r--1 root root 09月923:36 max_user_instances

-rw-r--r--1 root root 09月923:36 max_user_watches

-------------------------------------------------------------------------------------------------------------

max_user_watches #设置inotifywait或inotifywatch命令可以监视的文件数量(单进程)

max_user_instances #设置每个用户可以运行的inotifywait或inotifywatch命令的进程数

max_queued_events #设置inotify实例事件(event)队列可容纳的事件数量

-------------------------------------------------------------------------------------------------------------

[root@web ~]# echo 50000000>/proc/sys/fs/inotify/max_user_watches -- 把他加入/etc/rc.local就可以实现每次重启都生效

[root@web ~]# echo 50000000>/proc/sys/fs/inotify/max_queued_events



附录:

Rsync的命令格式可以为以下六种:

1 rsync [OPTION]... SRC DEST

2 rsync [OPTION]... SRC [USER@]HOST:DEST

3 rsync [OPTION]... [USER@]HOST:SRC DEST

4 rsync [OPTION]... [USER@]HOST::SRC DEST

5 rsync [OPTION]... SRC [USER@]HOST::DEST

6 rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]


详解:

对应于以上六种命令格式,rsync有六种不同的工作模式:

  1)拷贝本地文件。当SRC和DES路径信息都不包含有单个冒号”:”分隔符时就启动这种工作模式。如:rsync -a /data /backup

  2)使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当DST路径地址包含单个冒号”:”分隔符时启动该模式。如:rsync -avz *.c foo:src

  3)使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器。当SRC地址路径包含单个冒号”:”分隔符时启动该模式。如:rsync -avz foo:src/bar /data

  4)从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含”::”分隔符时启动该模式。如:rsync -av [email protected]::www /databack

  5)从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含”::”分隔符时启动该模式。如:rsync -av /databack [email protected]::www

  6)列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信息即可。如:rsync -v rsync://172.16.78.192/www


rsync参数的具体解释如下:
  • -v, --verbose                                     #详细模式输出

  • -q, --quiet                                    # 精简输出模式

  • -c, --checksum                                    # 打开校验开关,强制对文件传输进行校验

  • -a, --archive                                     #归档模式,表示以递归方式传输文件,并保持所有文件属性,等于-rlptgoD

  • -r, --recursive                                     #对子目录以递归模式处理

  • -R, --relative                                     #使用相对路径信息

  • -b, --backup                                     #创建备份,也就是对于目的已经存在有同样的文件名时,将老的文件重新命名为~filename。可以使用--suffix选项来指定不同的备份文件前缀。

  • --backup-dir                                     #将备份文件(如~filename)存放在在目录下。

  • -suffix=SUFFIX                                     #定义备份文件前缀

  • -u, --update                                    # 仅仅进行更新,也就是跳过所有已经存在于DST,并且文件时间晚于要备份的文件。(不覆盖更新的文件)

  • -l, --links                                    # 保留软链结

  • -L, --copy-links                                     #想对待常规文件一样处理软链结

  • --copy-unsafe-links                                     #仅仅拷贝指向SRC路径目录树以外的链结

  • --safe-links                                     #忽略指向SRC路径目录树以外的链结

  • -H, --hard-links                                    # 保留硬链结

  • -p, --perms                                    # 保持文件权限

  • -o, --owner                                     #保持文件属主信息

  • -g, --group                                     #保持文件属组信息

  • -D, --devices                                     #保持设备文件信息

  • -t, --times                                     #保持文件时间信息

  • -S, --sparse                                    # 对稀疏文件进行特殊处理以节省DST的空间

  • -n, --dry-run                                    #现实哪些文件将被传输

  • -W, --whole-file                                     #拷贝文件,不进行增量检测

  • -x, --one-file-system                                     #不要跨越文件系统边界

  • -B, --block-size=SIZE                                    # 检验算法使用的块尺寸,默认是700字节

  • -e, --rsh=COMMAND                                    # 指定使用rsh、ssh方式进行数据同步

  • --rsync-path=PATH                                    # 指定远程服务器上的rsync命令所在路径信息

  • -C, --cvs-exclude                                     #使用和CVS一样的方法自动忽略文件,用来排除那些不希望传输的文件

  • --existing                                     #仅仅更新那些已经存在于DST的文件,而不备份那些新创建的文件

  • --delete                                             # 删除那些DST中SRC没有的文件

  • --delete-excluded                                    # 同样删除接收端那些被该选项指定排除的文件

  • --delete-after                                     #传输结束以后再删除

  • --ignore-errors                                     #及时出现IO错误也进行删除

  • --max-delete=NUM                                     #最多删除NUM个文件

  • --partial                                     #保留那些因故没有完全传输的文件,以是加快随后的再次传输

  • --force                                     #强制删除目录,即使不为空

  • --numeric-ids                                     #不将数字的用户和组ID匹配为用户名和组名

  • --timeout=TIME IP                                    #超时时间,单位为秒

  • -I, --ignore-times                                    # 不跳过那些有同样的时间和长度的文件

  • --size-only                                     #当决定是否要备份文件时,仅仅察看文件大小而不考虑文件时间

  • --modify-window=NUM                                     #决定文件是否时间相同时使用的时间戳窗口,默认为0

  • -T --temp-dir=DIR                                     #在DIR中创建临时文件

  • --compare-dest=DIR                                     #同样比较DIR中的文件来决定是否需要备份

  • -P                                         #等同于 --partial

  • --progress                                    # 显示备份过程

  • -z, --compress                                     #对备份的文件在传输时进行压缩处理

  • --exclude=PATTERN                                     #指定排除不需要传输的文件模式

  • --include=PATTERN                                     #指定不排除而需要传输的文件模式

  • --exclude-from=FILE                                     #排除FILE中指定模式的文件

  • --include-from=FILE                                     #不排除FILE指定模式匹配的文件

  • --version                                     #打印版本信息

  • --address                                     #绑定到特定的地址

  • --config=FILE                                     #指定其他的配置文件,不使用默认的rsyncd.conf文件

  • --port=PORT                                     #指定其他的rsync服务端口

  • --blocking-io                                     #对远程shell使用阻塞IO

  • -stats                                     #给出某些文件的传输状态

  • --progress                                     #在传输时现实传输过程

  • --log-format=formAT                                     #指定日志文件格式

  • --password-file=FILE                                    # 从FILE中得到密码

  • --bwlimit=KBPS                                     #限制I/O带宽,KBytes per second

  • -h, –help                                      #显示帮助信息

猜你喜欢

转载自blog.51cto.com/13767783/2165082