代码天地

Spark上通过BulkLoad快速将海量数据导入到Hbase

转：https://www.iteblog.com/archives/1891.html 我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法，而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用Bulk Load

分类: 其他发布时间: 07-16 22:48 阅读次数: 0

读取hive文件并将数据导入hbase

转：http://www.cnblogs.com/zhanggl/p/5658517.html package cn.tansun.bd.hbase; import java.io.IOException; import java.net.URI; import java.util.List; import java.util.Map; import org.apache.hado

分类: 其他发布时间: 07-16 22:48 阅读次数: 0

使用Hive来访问HBase

启动hive，进入hive的终端 hive --auxpath /opt/hive/lib/hive-hbase-handler-2.1.0.jar,/opt/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=hadoop01:16010 --hiveconf hbase.zookeeper.quorum=hadoop01,hadoop02

分类: 其他发布时间: 07-16 22:48 阅读次数: 0

HBase和Phoenix的整合

安装Phoenix 约定安装到/opt目录下面解压： soft]# tar -zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz -C ../ 重命名 opt]# mv phoenix-4.7.0-HBase-1.1 phoenix 拷贝lib目录下面jar包到regionserver机器的lib($HBASE_HOME/lib)目录 phoenix]#

分类: 其他发布时间: 07-16 22:47 阅读次数: 0

hbase行健设计原则

行健的设计问题行健的热点问题是由于行健相似、连续且数据量过大操作成单region的数据量过大，进而影响读写效率行健应该尽量的随机、不要出现连续行健。常见的行健设计就是，比如手机号码倒置+时间戳，比如随机前缀+关系型数据库中的主键（以存放在mr中电信日志案例为例）因为hbase提供的查询内容非常非常low，但是所有关于hbase的查询只能通过rowkey，所以在设计行

分类: 其他发布时间: 07-16 22:47 阅读次数: 0

redis简介及安装（集群）

1.简介 Redis是一个开源（BSD许可），内存存储的数据结构服务器，可用作数据库，高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合，位图，hyperloglogs等数据类型。内置复制、Lua脚本、 LRU收回、事务以及不同级别磁盘持久化功能，同时通过Redis Sentinel提供高可用，通过Redis Cluster提供自动分区。简言之，Redis是一

分类: 其他发布时间: 07-16 22:47 阅读次数: 0

redis操作以及5种数据类型string，hash，list，set，zset

Redis支持五种数据类型：查看key的类型（String，hash...）命令：type key string(字符串) 设置一个值：set命令 set name hadoop 在设置的时候可以指定当前key的过期时间 set key value EX seconds ---->指定key之后seconds的存活时间，seconds之后消失获取一个值：get命令 GETR

分类: 其他发布时间: 07-16 22:47 阅读次数: 0

Spark性能相关参数配置及原理

转自：http://blog.csdn.net/ZYC88888/article/details/78531462 Spark性能相关参数配置¶ http://spark-config.readthedocs.io/en/latest/# 概述随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://sp

分类: 其他发布时间: 07-16 22:46 阅读次数: 0

reduce,aggregate和groupBy

官网说明： groupBy: This operation may be very expensive. If you are grouping in order to perform an aggregation (such as a sum or average) over each key, using `PairRDDFunctions.aggregateByKey` or `Pa

分类: 其他发布时间: 07-16 22:46 阅读次数: 0

sql,hql等join条件字段为null时，易出现错误以及解决办法

1.null=null不成立，null 2. 运行汇总当字段为null时，出现bug，及解决思路 join的字段为null，不会出现p1.id=p2.id mysql> select * from yunxing_huizong; +------+------+------+ | id | cost | year | +------+------+------+ | 1

分类: 其他发布时间: 07-16 22:46 阅读次数: 0

hive读取es数据

转自：https://www.iteblog.com/archives/1857.html 　本文将介绍如何通过Hive来读取ElasticSearch中的数据，然后我们可以像操作其他正常Hive表一样，使用Hive来直接操作ElasticSearch中的数据，将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2