day3课程笔记

************************************************
课程回顾：
（1）IP配置的常见问题。
（2）防火墙
（3）解压命令 tar -zxvf
(4) wordcount
************************************************
**1、什么是大数据？**
2002 大数据提出美国引入。---麦肯锡报告。
维克托·迈尔-舍恩伯格---大数据之父
4V特征：
即
Volume（数据量大）：PB级
Variety（数据多样性）：文本、图像、视频、音频等
Velocity（输入和处理速度快）：流式数据
Value（价值密度低）：
## 积累很多的数据才能发掘大数据隐含的意义。 ##
## 只要能发挥和挖掘数据隐藏的价值，不用纠结与数据量大小 ##
大数据核心问题 ##存储、计算和分析##----通过组件（计算框架）解决了
**2、数据仓库和大数据**
（1）传统方式：DW（Data Warehouse），基于传统的关系数据库（Oracle、MySQL等），一般只做查询分析，TD（Teradata 天睿）--数据仓库一体机。
（2）大数据的方式--分布式
GP：greenplum

**3、OLTP和OLAP**
（1）OLTP：Online Transaction Processing 联机事务处理：（insert update、delete）
ACID：所有的数据可追溯。-------传统关系型数据库（Oracle Mysql Postgresql等）
（2）OLAP：Online Analytic Processing 联机分析处理。
真正生产中是二者的结合：OLTP（后台操作前台展示数据设计等）+OLAP（Hive Hbase Spark等）。
### **4、Google的基本思想：三篇论文** 重点###
（1）GFS: Google File System----HDFS ---解决存储
a、数据库太贵。主要是为了解决 google搜索内容的存储问题。--造价低易扩展。
b、倒排索引（Reverted Index）：
int arry【】={1,2,3,4}
索引不一定提高查询速度。---key value
c、没有公布源码，----Hadoop之父 Doug Cutting
HDFS 默认文件块大小 128M（Hadoop 2.X） 64M（Hadoop 1.x），
默认3副本。
（2）MapReduce:分布计算模型
PageRank
（3）BigTable：大表
对HDFS进行封装和二次开发，提高查询效率。把所有数据存入一张表中，通过牺牲空间，换取时间

**5、Hadoop的简介**
http://hadoop.apache.org/
Hadoop YARN: A framework for job scheduling and cluster resource management.
Apache：HDFS+MapReduce+
## Yarn ##
https://hbase.apache.org/

**6、HDFS的体系架构**
HDFS 副本数可以再 hdfs-site.xml中修改。不超过机器个数建议不超过3.
/opt/moudle/hadoop-2.7.3/etc/hadoop
HDFS=Namenode（主节点名称节点）+SecondaryNameNode（）+datanode（数据节点）
**7、MR编程模型**
包含两个阶段 key value 的设计是关键。
**8、大数据典型应用场景**

（1）商品推荐--协同过滤
（2）画像
（3）套牌车

猜你喜欢