HDFS日志审计及相关HDFS工具介绍及hadoop

HDFS日志审计:

   HDFS的日志能够记录所以文件系统的访问请求,一般我们用此特性来进行审计。对日志的审计是log4j在info级别实现的。在默认情况是未开启的。我们可通过在hadoop-env.sh中通过:export HDFS_AUDIT_LOGGER="INFO,RFAAUDIT"来开启。每个HDFS事件均在审计日志(hdfs-audit.log)中生成一行日志记录。

HDFS常用工具:

1.dfsadmin工具

   dfsadmin工具既可以用来查找HDFS的状态信息,也可以在HDFS上执行管理操作。以hdfs dfsadmin形式调用,且需要超级用户权限。具体的功能命令可通过:hdfs dfsadmin -help 查看。

2.fsck工具

hadoop提供fsck工具来检车hdfs中文件的健康状况。该工具会查找那些在所有datanode中均缺失的块以及过少或过多复本的块。

3.均衡器

随着时间推移,各个dataNode上的块分布会越来越不均衡。不均衡的块会降低MapReduce的本地性,导致部分dataNode相对更加繁忙。故应该避免这种情况。均衡器程序是一个hadoop守护进程,它将块从忙碌的dataNode移到相对空闲的dataNode,从而重新分配块。我们可调用下面命令start-balancer.sh启动均衡器。其中后面可跟的参数-threshold参数指定阈值(百分比格式),以判断集群是否均衡。该标记是可选的;若省略,默认值是10%,任何时候,集群中都只运行一个均衡器。为了降低集群负荷,避免干扰其他用户,均衡器被设计为后台运行。在不同节点之间复制数据的带宽也是受限的。默认值是很小的1MB/S,可以通过hdfs-site.xml文件中的dfs.datanode.balance.bandwidthPersec属性重新设定(单位为字节)。

猜你喜欢

转载自blog.csdn.net/sujins5288/article/details/88013065
今日推荐