文章目录
-
- Hadoop为什么比传统技术方案快
- 大数据有什么特点?
- hdfs的shell客户端操作命令分别代表什么意思?
- 大数据能做什么?
- hdfs的主要功能什么?
- hadoop的垃圾桶机制在哪一个文件中配置的?
- 垃圾桶配置参数是什么?
- 启动jobHistoryserver服务进程的命令?
- jobhistoryserver的webUI访问的默认端口是什么?
- 安装hadoop时需要配置的文件有哪些?
- 首次启动 HDFS 时,必须对其进行格式化操作的命令?
- hadoop安装包目录包括哪些文件夹,各有什么作用?
- Hadoop 特性优点?
- Hadoop部署的方式分别是哪几种?
- 网络同步时间的命令?
- 设置主机名在哪一个文件中?
- 配置IP、主机名映射的文件是哪一个?
- 启动HDFS NameNode的命令?
- 单节点启动HDFS DataNode?
- 单节点启动YARN ResourceManager?
- HDFS集群的一键启动和关闭脚本命令分别是什么?
- 简单概述hadoop的combinet与partition的区别
- HBase依赖什么提供消息通信机制 ?
- 请详细描述Hbase中一个Cell 的结构
- hbase中compact触发时机
- hbase与mysql的区别
- hbase的compact作用
- 大数据的处理流程
- Hbase宕机如何处理
Hadoop为什么比传统技术方案快
1、分布式存储
2、分布式并行计算
3、节点横向扩展
4、移动程序到数据端
5、多个数据副本
大数据有什么特点?
(1)海量化
数据量大(多)
(2)多样化
结构化数据,半结构化数据,和非结构化数据
(3)快速化
数据的增长速度快
(4)高价值
海量数据价值高
hdfs的shell客户端操作命令分别代表什么意思?
(1)-ls
显示文件、目录信息
(2)-mkdir
在hdfs上创建目录,-p表示会创建路径中的各级父目录
(3)-put
将单个src或多个srcs从本地文件系统复制到目标文件系统
(4)-get
将文件复制到本地文件系统
(5)-appendFile
追加一个文件到已经存在的文件末尾
(6)-cat
显示文件内容
(7)-tail
将文件的最后的内容显示
(8)-chmod
改变文件的权限。使用-R将使改变在目录结构下递归进行
(9)-copyFromLocal
从本地文件系统中拷贝文件到hdfs路径去
(10)-copyToLocal
从hdfs拷贝到本地
(11)-cp
从hdfs的一个路径拷贝hdfs的另一个路径
(12)-mv
在hdfs目录中移动文件
(13)-rm
删除指定的文件。只删除非空目录和文件。-r 递归删除
(14)-df
统计文件系统的可用空间信息
(15)-du
显示目录中所有文件大小,当只指定一个文件时显示此文件的大小
大数据能做什么?
(1)海量数据快速查询
(2)海量数据的存储(数据量大,单个大文件)
(3)海量数据的快速计算(与传统的工具对比)
(4)海量数据实时计算(立刻马上)
(5)数据挖掘(挖掘以前没有发现的有价值的数据)
hdfs的主要功能什么?
Hdfs的主要功能作用是分布式存储大量的数据
hadoop的垃圾桶机制在哪一个文件中配置的?
core-site.xml
文件中配置
垃圾桶配置参数是什么?
fs.trash.interval
启动jobHistoryserver服务进程的命令?
mr-jobhistory-daemon.sh start historyserver
启动
mr-jobhistory-daemon.sh stop historyserver
关闭
jobhistoryserver的webUI访问的默认端口是什么?
默认端口是19888
安装hadoop时需要配置的文件有哪些?
(1)hadoop-env.sh
(2)core-site.xml
(3)hdfs-site.xml
(4)mapred-site.xml
(5)yarn-site.xml
(6)Slaves
首次启动 HDFS 时,必须对其进行格式化操作的命令?
bin/hdfs namenode -format或者bin/hadoop namenode –format
hadoop安装包目录包括哪些文件夹,各有什么作用?
(1)bin
:Hadoop最基本的管理脚本和使用脚本的目录
(2)etc
:Hadoop配置文件所在的目录
(3)include
:对外提供的编程库头文件
(4)lib
:该目录包含了Hadoop对外提供的编程动态库和静态库
(5)libexec
:各个服务对用的shell配置文件所在的目录
(6)sbin
:Hadoop管理脚本所在的目录
(7)share
:Hadoop各个模块编译后的jar包所在的目录,官方自带示例
Hadoop 特性优点?
(1)扩容能力
(2)成本低
(3)高效率
(4)可靠性
Hadoop部署的方式分别是哪几种?
(1)Standalone mode(独立模式)
(2)Pseudo-Distributed mode(伪分布式模式)
(3)Cluster mode(群集模式)
网络同步时间的命令?
ntpdate cn.pool.ntp.org
(ntpdate 地址)
设置主机名在哪一个文件中?
/etc/sysconfig/network
配置IP、主机名映射的文件是哪一个?
/etc/hosts
启动HDFS NameNode的命令?
hadoop-daemon.sh start namenode
单节点启动HDFS DataNode?
hadoop-daemon.sh start datanode
单节点启动YARN ResourceManager?
yarn-daemon.sh start resourcemanager
HDFS集群的一键启动和关闭脚本命令分别是什么?
start-dfs.sh
启动脚本 stop-dfs.sh
停止脚本
简单概述hadoop的combinet与partition的区别
combine和partition都是函数,中间的步骤应该只有shuffle! combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的,partition是分割map每个节点的结果,按照key分别映射给不同的reduce,也是可以自定义的。这里其实可以理解归类。
HBase依赖什么提供消息通信机制 ?
Zookeeper
请详细描述Hbase中一个Cell 的结构
HBase 中通过row 和columns 确定的为一个存贮单元称为cell。Cell:由{row key, column(=<family> + <label>), version}
唯一确定的单元。cell 中的数据是没有类型的,全部是字节码形式存贮。
hbase中compact触发时机
1)Memstore刷写后,判断是否compaction
2)CompactionChecker线程,周期轮询
hbase与mysql的区别
Mysql面向行存储数据,整个行的数据是一个整体,存储在一起
Hbase面向列存储数据,整个行的数据是一个整体,存储在一起,有利于压缩和统计
hbase的compact作用
1.合并文件
2.清理过期数据
3.提高读写数据的效率
大数据的处理流程
数据生产 --》数据采集 --》数据存储 --》需求分析 --》数据预处理 --》数据计算 --》结果数据存储 --》结果数据展现
Hbase宕机如何处理
宕机分为 HMaster 宕机和 HRegisoner 宕机,如果是 HRegisoner 宕机,HMaster 会将其所管理的 region 重新分布到其他活动的 RegionServer 上,由于数据和日志都持久在 HDFS 中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。如果是 HMaster 宕机, HMaster 没有单点问题, HBase 中可以启动多个HMaster,通过 Zookeeper 的 Master Election 机制保证总有一个 Master 运行。即ZooKeeper 会保证总会有一个 HMaster 在对外提供服务