Spark上通过BulkLoad快速将海量数据导入到Hbase
转:https://www.iteblog.com/archives/1891.html
我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk
Load
读取hive文件并将数据导入hbase
转:http://www.cnblogs.com/zhanggl/p/5658517.html
package cn.tansun.bd.hbase;
import java.io.IOException;
import java.net.URI;
import java.util.List;
import java.util.Map;
import org.apache.hado
使用Hive来访问HBase
启动hive,进入hive的终端
hive --auxpath /opt/hive/lib/hive-hbase-handler-2.1.0.jar,/opt/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=hadoop01:16010 --hiveconf hbase.zookeeper.quorum=hadoop01,hadoop02
HBase和Phoenix的整合
安装Phoenix
约定安装到/opt目录下面
解压:
soft]# tar -zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz -C ../
重命名 opt]# mv phoenix-4.7.0-HBase-1.1 phoenix
拷贝lib目录下面jar包到regionserver机器的lib($HBASE_HOME/lib)目录
phoenix]#
hbase行健设计原则
行健的设计问题
行健的热点问题
是由于行健相似、连续且数据量过大操作成单region的数据量过大,进而影响读写效率
行健应该尽量的随机、不要出现连续行健。
常见的行健设计就是,比如手机号码倒置+时间戳,比如随机前缀+关系型数据库中的主键(以存放在mr中电信日志案例为例)
因为hbase提供的查询内容非常非常low,但是所有关于hbase的查询只能通过rowkey,所以
在设计行
redis简介及安装(集群)
1.简介
Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。
它支持字符串、哈希表、列表、集合、有序集合,位图,hyperloglogs等数据类型。内置复制、Lua脚本、
LRU收回、事务以及不同级别磁盘持久化功能,同时通过Redis Sentinel提供高可用,通过Redis Cluster提供
自动分区。
简言之,Redis是一
redis操作以及5种数据类型string,hash,list,set,zset
Redis支持五种数据类型:
查看key的类型(String,hash...)命令:type key
string(字符串)
设置一个值:set命令
set name hadoop
在设置的时候可以指定当前key的过期时间
set key value EX seconds ---->指定key之后seconds的存活时间,seconds之后消失
获取一个值:get命令
GETR
Spark性能相关参数配置及原理
转自:http://blog.csdn.net/ZYC88888/article/details/78531462
Spark性能相关参数配置¶
http://spark-config.readthedocs.io/en/latest/#
概述
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://sp
reduce,aggregate和groupBy
官网说明:
groupBy:
This operation may be very expensive. If you are grouping in order to perform an
aggregation (such as a sum or average) over each key, using `PairRDDFunctions.aggregateByKey`
or `Pa
sql,hql等join条件字段为null时,易出现错误以及解决办法
1.null=null不成立,null
2.
运行汇总当字段为null时,出现bug,及解决思路
join的字段为null,不会出现p1.id=p2.id
mysql> select * from yunxing_huizong;
+------+------+------+
| id | cost | year |
+------+------+------+
| 1
hive读取es数据
转自:https://www.iteblog.com/archives/1857.html
本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为
Hive0.12、Hadoop-2.2.0、ElasticSearch 2
简单的bootstarp项目实例
===========index.html============== <!DOCTYPE html>
<html>
<head>
<meta charset="utf-8" />
<title></title>
<link rel="stylesheet" type="text/css" href="css/bootstrap.min.css" />
<link rel="stylesheet" type="text/css" href="css/style.css" /
《NoSQL精粹》读后感
《NoSQL精粹》作者Pramod J. Sadalaga、Martin Flower著,译者爱飞翔。 本书以关系型数据库开头,讲解了关系型数据库的优缺点,然后引入了NoSQL数据库,并且从数据模型、分布式模型、一致性、版本戳、映射这几方面讲解了各种NoSQL的优势和不足,如果从现在的角度去评价这本书的话,里面的一些内容已经不一样了,毕竟过去了好几年的时光了,NoSQL和关系型数据库也有了不小的发展,与文中的一些用法和观点不同也是正常的现象,但是本书仍然不失为大师的作品,不少的观点现在
mysql分类和事务回滚
主要内容: ***数据定义语言DDL重点 ***数据操纵语言DML重点 数据查询语言DQL重点 ---事务控制语言TCL ---数据库控制语言DCL ---主键(primary key) ---数据冗余(另外建表,把某个外建与另一个表的主键建立关系联系起来) ---事务 ***数据定义语言DDL重点 定义:DDL(Data Definition Language):负责数据结构定义与创建数据库对象的语言。 负责数据结构定义与创建数据库对象的语言。 常用的有create alter drop t
树莓派安装.net core 2.1
0.更新源 sudo apt-get update 1.安装依赖 sudo apt-get install curl libunwind8 gettext 2.下载 SDK 或者 RunTime https://www.microsoft.com/net/download/linux curl -sSL -o dotnet.tar.gz https://download.microsoft.com/download/1/f/7/1f7755c5-934d-4638-b89f-1f4ffa5af
findCirclesGrid函数求教!
折腾了两天,是findCirclesGrid(frame,patternsize,key_points,CALIB_CB_SYMMETRIC_GRID|4)函数终于能够将检测的到的点存进vector<Point2f> key_points了。但是如果程序语句是findCirclesGrid(frame,patternsize,key_points,CALIB_CB_SYMMETRIC_GRID|4,blobDetector),也就是多定义了blobDetector,则程序运行到findcirc
今日推荐
周排行