iostat命令报告CPU和I / O统计信息

Iostat命令是用于通过观察设备相对于其平均传输速率的活动时间来监视系统输入/输出设备负载的命令。iostat创建可用于更改系统配置的报告,以更好地平衡物理磁盘之间的输入/输出。iostat包含在sysstat包中。如果您没有,则需要先安装。在RedHat / CentOS / Fedora上#yum install sysstat在Debian / Ubuntu / Linux Mint上#a
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x优化:Shuffle相关参数优化

一、概述     我们已经将Spark的Shuffle原理、ShuffleWrite、ShufffleRead的具体实现细节也做了深入的源码剖析, 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。了解相关的原理之后,就可以对Spark任务的Shuffle过程进行相关的优化,之前做源码剖析的时候,涉及到的比较重要的参数也提到过
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

HBase2.x源码剖析:HMaster启动过程

一、概述   本文基于HBase-2.2.1分析HMaster的启动流程。由于HMaster启动代码比较多,这里只是将主要函数拿出来说一下,其实主要做了以下几件事:    1).获取配置文件,对HBasemaster进行了实例化,由于HMaster继承自HRregionServer,先调用HRegionServer的构造函数进行初始化;    2).HRegionServer构造函数主要是对做了一
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

ausearch

这是许多新系统管理员提出的关键问题之一:如何审核文件事件,如读/写等? 如何使用audit查看谁在Linux中更改了文件?答案是使用2.6内核的审计系统。 现代Linux内核(2.6.x)附带auditd守护程序。 它负责将审计记录写入磁盘。 在启动期间,此守护程序将读取/etc/audit.rules中的规则。 您可以打开/etc/audit.rules文件并进行更改,例如设置审核文件日志位置和
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Hadoop:实例讲解RPC通信机制及原理

一、概述    RPC(Remote Procedure Call Protocol)-远程过程调用协议。通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。它假定某种传输协议的存在,如TCP,UDP,为通信程序之间携带信息数据,RPC是hadoop框架运行的基础,如果想精通Hadoop源码,RPC通信机制肯定是回避不了的,这里就先讲解下原理,然后通过一个简单实例来帮助你理解。  
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x精通:CacheManager源码深度剖析

一、概述    CacheManager主要发生在利用RDD的数据执行算子的时候,之前我们讲过在ShufffleWriter进行数据写时,会调用RDD对应的Iterator()方法,获取RDD对应的数据,CacheManager主要干三件事:    a. 管理Spark的缓存,可以基于内存,也可以基于磁盘;    b.底层是通过BlockManager进行数据的读写操作;    c.Task运行会
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

auditd审计系统的user-space组件

前言Linux auditd 工具可以将审计记录写入日志文件。包括记录系统调用和文件访问。管理员可以检查这些日志,确定是否存在安全漏洞。本文首先介绍用户空间审计系统的结构,然后介绍主要的 audit 工具的使用方法。Linux 用户空间审计系统简介Linux 内核有用日志记录事件的能力,包括记录系统调用和文件访问。管理员可以检查这些日志,确定是否存在安全漏洞(如多次失败的登录尝试,或者用户对系统文
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

aide监控系统文件

在我们关于加强和保护CentOS 7的大型指南中,在“ 内部保护系统 ”一节中,我们列出的用于内部系统保护以防病毒,rootkit,恶意软件和检测未授权活动的有用安全工具之一是AIDE 。AIDE ( 高级***检测环境 )是一个小而强大的免费开源***检测工具,它使用预定义的规则来检查类Unix操作系统(如Linux)中的文件和目录完整性。 它是用于简化客户端/服务器监视配置的独立静态二进制文件。它
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x优化:高性能序列化库Kryo使用及性能测试

1.什么是序列化        我们知道内存中的数据对象只有转化成二级制的流才可以进行数据的持久化和网络传输,序列化是将数据对象转换为字节序列的过程,而反序列化是指把字节序列恢复为数据对象的过程。    序列化需要保留充分的信息以恢复数据对象,但是为了节约存储空间和网络带宽,序列化后的二进制流又要尽可能小。  如果使用序列化技术,在执行序列化操作的时候很慢或者是序列化之后的数据量还是很大,那么会让
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

cockpit监控系统

一.Cockpit简介1.1基本介绍    Cockpit是一个免费且开源的基于web的管理工具,系统管理员可以执行诸如存储管理、网络配置、检查日志、管理容器等任务。通过Cockpit提供的友好的 Web 前端界面可以轻松地管理我们的 GNU/Linux 服务器,非常轻量级,Web 界面也非常简单易用。更重要的是通过Cockpit可以实现集中式管理。1.2 功能特点下面是 Cockpit的一些功能
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x精通:Executor端BlockManager源码剖析

一、概述    BlockManager是分布式块存储管理。核心机制是每个节点存储自己的内存空间和磁盘空间。BlockManagerMaster负责与其他节点的BlockManager通信并负责块在节点间的复制。BlockInfoManager负责管理块的元数据并提供读写锁的功能。当从本地的BlockManager获取不到块时,从远程节点Fetcher这个Block数据块。    上篇文章我们已经
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x精通:Checkpoint源码深度剖析

1.checkpoint功能是什么呢?   对于一个复杂的应用程序,可能中间会涉及到多个RDD的转换操作,计算过程中可能由于某些原因,导致中间关键的计算数据丢失,如果出现上述情况,而集群没有容错机制的话,后面的操作恰恰需要前面的RDD数据时,就需要重新计算一次,这时候就可以启用checkpoint机制,来实现集群的容错和高可用。2.设置checkpoint目录        启用checkpoin
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x精通:BlockManagerMaster源码剖析

1.BlockManagerMaster创建      BlockManagerMaster要负责整个应用程序在运行期间block元数据的管理和维护,以及向从节点发送指令执行命令,它是在构造SparkEnv的时候创建的,Driver端是创建SparkContext的时候创建SparkEnv,SparkEnv中对应的初始化代码如下:    val blockManagerMaster = new B
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

HBase1.x进阶:一文读懂HBase为何依赖Zookeeper?(必看)

一、ZooKeeper相关知识:概念:  Zookeeper是一个分布式应用程序协调服务,提供了简单易用的接口和性能高效、功能稳定的系统让用户可以很轻松解决分布式应用程序下面的出现的协调服务,确保避免出现竞态条件或者死锁等错误。其设计目标是减轻分布式应用从零开始实现分布式协调服务的压力。    假设我们的程序是分布式部署在多台机器上,如果我们要改变程序的配置文件,需要逐台机器去修改,非常麻烦,现在
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

rsyslogd

最近遇到一个需求,需要把线上环境的debug日志及集中化收集起来,一方面是方便开发调试;一方面是避免直接到线上环境查看,存在安全隐患。常用可选方案:rsyslog发送端 + rsyslog接收端: 直接存在接收端的本地硬盘rsyslog发送端 + logstash接收端 + <后续第三方处理>: 接受到log更新行后,通过logstash简单处理后,可以继续往第三方处理,如放到Elas
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

Spark2.x精通:BlockManager原理剖析

一、概述    之前的文章已经把Spark2.x的Mater启动、Worker启动注册、Driver启动、Executor启动、Task运行以及最重要的Shuffle原理部分都做了详细的剖析,整个流程中Task读写、Shuffle读写阶段都会涉及到BlockManager,那它是干啥的呢?其实BlockManager是Spark底层负责数据的读写和管理的一个模块。    对于每一个Spark任务,
分类: 编程语言 发布时间: 03-10 09:44 阅读次数: 0

seata-1.3.0+nacos1.3.2实现分布式事务(一)

一、概述    这里分两篇文章进行讲解seata+nacos实现分布式事务,本篇文章主要讲解seata和nacos的安装配置,这里我都是在我本机win10环境进行的配置,linux环境配置类似,这里就不再讲解。涉及到的组件版本:组件版本Seata1.3.0Nacos1.3.2SpringCloudHoxton.SR1SpringCloud Alibaba2.1.0.RELEASESpringBoo
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

kettle连接HDP3组件Hive3.1.0存取数据

1.近况    最近忙于更换工作一直没有更新自己的公众号,十一过后刚入职医疗行业大数据公司,主要还是从事Hadoop相关的工作,正好同事用到了Kettle从Oracle向Hive中抽取数据,周末有空就在自己集群研究了下,这里把采坑过程记录下,希望能帮助有需要的同学。2.kettle报错研究过程    由于没有使用过kettle,一开始、下载了最新版的kettle7.0,经过各种百度,下载hive配
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

HBase1.x进阶:数据表(不只数据)误删除,快速恢复(已生产实践)

作为Hadoop集群维护人员,经常误操作直接将HBase表数据误删除,生产数据肯定是不能直接删除的,下面我详细给大家演示下,如何快速恢复误删除的表:为方便大家理解,我先讲一下HBase在hdfs上的目录结构,先看下面这张图:一共9个目录和2个文件:目录:1.hbase-snapshot如果hbase开启了快照,用户对一个数据表建立快照table_snapshot1,则hbase会在这个目录下新建一
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Ansible架构概述(一)

第一节:Ansible 架构概述目标:• 学习完本节后,学员应该能:描述 Ansible 概念、参考架构和用例 什么是 Ansible:• Ansible 是一款开源的配置管理和编配实用程序,可以对远程主机与虚拟机进行自动化和标准化配置 • 编配功能使 Ansible 能够协调多层级应用的启动和关闭• 管理员可以创建 play,执行一系列任务,作用于 play 中指定的一台或一组主机 • 包含一个
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0