Hive

Pig和Hive的对比

摘要: Pig Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv阅读全文

hive的实现机制

摘要: hive利用hdfs存储数据文件，利用MapReduce查询数据。数据库：支持在线联机业务（实时、事务控制）数据仓库：存储历史数据，面向主题的。主要用于离线数据分析的。阅读全文

hive1.2.1安装步骤（在hadoop2.6.4集群上）

摘要: hive1.2.1在hadoop2.6.4集群上的安装 hive只需在一个节点上安装即可，这里再hadoop1上安装 1、上传hive安装包到/usr/local/目录下 2、解压 tar -zxvf /usr/local/hive-1.2.1.tar.gz 重命名　mv hive-1.2.1 hi阅读全文

Hive的安装和使用

摘要: 1.Hive1.1 在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据，同时可以查询hadoop中的数据。本质上讲，hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具，可以把SQL转换为MapReduce中阅读全文

Pig

Pig和Hive的对比

Pig的安装和简单使用

摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的，类似于初中做的数学题。3.Pig基本数据类型：int、long、float、double、c阅读全文

Spark

win10下Spark的环境搭建

摘要: win10下Spark的环境搭建 2018-08-19 18:36:45 一、jdk 1.8.0 安装与配置二、scala 2.11.8 安装与配置http://www.scala-lang.org/download/2.11.8.html 上面两步见《win10下安装scala》三、spark阅读全文

Spark学习入门

摘要: Spark 是一种“One Stack to rule them all”通用的大数据计算框架,期望使用一个技术栈就完美地解决大数据领域的各种计算任务。 Spark特点：速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。 Spark的速度比MapReduce快：MR计算模型太死板阅读全文

Storm

Flume+Kafka整合

摘要: 脚本生产数据 >flume采集数据 >kafka消费数据 >storm集群处理数据日志文件使用log4j生成，滚动生成！当前正在写入的文件在满足一定的数量阈值之后，需要重命名！！！ flume+Kafka整合步骤及相关配置：（先安装好zookeeper集群和Kafka集群）配置flume： 1阅读全文

Kafka集群环境搭建

摘要: Kafka介绍在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS 1、Apache Kafka是一个开源消息系统，用Scala写成。 2、Kafka是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS的特性，阅读全文

Storm消息容错机制（ack-fail机制）

摘要: storm消息容错机制（ack-fail） 1、介绍在storm中，可靠的信息处理机制是从spout开始的。一个提供了可靠的处理机制的spout需要记录他发射出去的tuple，当下游bolt处理tuple或者子tuple失败时spout能够重新发射。 Storm通过调用Spout的nextTup阅读全文

Storm通信机制（了解）

摘要: Worker间的通信：经常需要通过网络跨节点进行，Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信：不同worker的thread通信使用LMAX Disruptor来完成。不同topologey之间的通信：Storm不负责，需要自己阅读全文

Storm程序的并发机制（重点掌握）

摘要: 概念 Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology Exec阅读全文

Storm目录树和任务提交过程

摘要: Storm组件本地目录树 Storm zookeeper目录树 Storm任务提交的过程阅读全文

Storm集群启动流程分析

摘要: Storm集群启动流程分析程序员 1、客户端运行storm nimbus时，会调用storm的python脚本，该脚本中为每个命令编写了一个方法，每个方法都可以生成一条相应的Java命令。命令格式：java -server xxx.ClassName -args nimbus >Running:阅读全文

Storm常用操作命令及WordCount

摘要: Storm常用操作命令 1、任务提交命令：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】 storm jar /export/servers/storm/examples/storm-starter/storm-starter-topologies-1.0.3.jar or阅读全文

Storm1.0.3集群部署

摘要: Storm集群部署所有集群部署的基本流程都差不多：下载安装包并上传、解压安装包并配置环境变量、修改配置文件、分发安装包、启动集群、查看集群是否部署成功。 1、所有的集群上都要配置hosts vi /etc/hosts 192.168.33.201 storm1 hadoop1 zk1 192.16阅读全文

Storm介绍及核心组件和编程模型

摘要: 离线计算离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度流式计算流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示代表阅读全文

JMS（Java消息服务）

摘要: JMS即Java消息服务（Java Message Service）应用程序接口是一个Java平台中关于面向消息中间件（MOM：指的是利用高效可靠的消息传递机制进行平台无关的数据交流，并基于数据通信来进行分布式系统的集成。）的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。J阅读全文

HBase

HBase0.99.2集群的搭建步骤（在hadoop2.6.4集群和zookeeper3.4.5集群上）

摘要: HBase介绍（NoSql,不是关系型数据库） HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase利用hadoop hdfs作为其文件存储系统，利用hadoop MapReduce来处理HBase中阅读全文

HBase集群的搭建

摘要: HBase集群的搭建（在《HBase伪分布式安装》基础上搭建） 1 集群结构，主节点(hmaster)是hadoop0，从节点(region server)是hadoop1和hadoop22 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBA阅读全文

HBase结合MapReduce批量导入（HDFS中的数据导入到HBase）

摘要: HBase结合MapReduce批量导入在eclipse中将上面代码运行成功后，就可以去HBase shell中查看结果：阅读全文

HBase的JavaAPI操作

摘要: 1 package hbase; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.hbase.HBaseConfiguration; 5 import org.apache.hadoop.hbase.HColumnDescriptor; 6 import org.apache.h...阅读全文

HBase shell操作

摘要: HBase shell 进入到HBase shell中：/usr/local/hbase/bin/hbase shell HBase shell的DDL操作 HBase shell的DML操作阅读全文

HBase伪分布式安装

摘要: HBase伪分布安装(前提条件：本机或集群环境下hadoop.1.1.2已经安装成功《hadoop集群的搭建（分布式安装）》 )1 解压缩、重命名、设置环境变量vi /etc/profile export HBASE_HOME=/usr/local/hbase export PATH=.:$HBAS阅读全文

HBase的基础知识

摘要: 1.HBase(NoSQL：不是关系型数据库)的逻辑数据模型 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用阅读全文

Sqoop

sqoop1.4.6数据迁移

摘要: sqoop介绍 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库 sqoop工作机制将导入或导出阅读全文

Sqoop的安装及简单使用

摘要: SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 SQOOP的安装（在hadoop0上）解压缩 tar -zxvf sqoop...阅读全文

Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop

Hive

Pig

Spark

Storm

HBase

Sqoop

猜你喜欢