Spark上通过BulkLoad快速将海量数据导入到Hbase

转:https://www.iteblog.com/archives/1891.html 我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load
分类: 其他 发布时间: 07-16 22:48 阅读次数: 0

读取hive文件并将数据导入hbase

转:http://www.cnblogs.com/zhanggl/p/5658517.html package cn.tansun.bd.hbase; import java.io.IOException; import java.net.URI; import java.util.List; import java.util.Map; import org.apache.hado
分类: 其他 发布时间: 07-16 22:48 阅读次数: 0

使用Hive来访问HBase

启动hive,进入hive的终端 hive --auxpath /opt/hive/lib/hive-hbase-handler-2.1.0.jar,/opt/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=hadoop01:16010 --hiveconf hbase.zookeeper.quorum=hadoop01,hadoop02
分类: 其他 发布时间: 07-16 22:48 阅读次数: 0

HBase和Phoenix的整合

安装Phoenix 约定安装到/opt目录下面 解压: soft]# tar -zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz -C ../ 重命名 opt]# mv phoenix-4.7.0-HBase-1.1 phoenix 拷贝lib目录下面jar包到regionserver机器的lib($HBASE_HOME/lib)目录 phoenix]#
分类: 其他 发布时间: 07-16 22:47 阅读次数: 0

hbase行健设计原则

行健的设计问题 行健的热点问题 是由于行健相似、连续且数据量过大操作成单region的数据量过大,进而影响读写效率 行健应该尽量的随机、不要出现连续行健。 常见的行健设计就是,比如手机号码倒置+时间戳,比如随机前缀+关系型数据库中的主键(以存放在mr中电信日志案例为例) 因为hbase提供的查询内容非常非常low,但是所有关于hbase的查询只能通过rowkey,所以 在设计行
分类: 其他 发布时间: 07-16 22:47 阅读次数: 0

redis简介及安装(集群)

1.简介 Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。 它支持字符串、哈希表、列表、集合、有序集合,位图,hyperloglogs等数据类型。内置复制、Lua脚本、 LRU收回、事务以及不同级别磁盘持久化功能,同时通过Redis Sentinel提供高可用,通过Redis Cluster提供 自动分区。    简言之,Redis是一
分类: 其他 发布时间: 07-16 22:47 阅读次数: 0

redis操作以及5种数据类型string,hash,list,set,zset

Redis支持五种数据类型: 查看key的类型(String,hash...)命令:type key string(字符串) 设置一个值:set命令 set name hadoop 在设置的时候可以指定当前key的过期时间 set key value EX seconds ---->指定key之后seconds的存活时间,seconds之后消失 获取一个值:get命令 GETR
分类: 其他 发布时间: 07-16 22:47 阅读次数: 0

Spark性能相关参数配置及原理

转自:http://blog.csdn.net/ZYC88888/article/details/78531462 Spark性能相关参数配置¶ http://spark-config.readthedocs.io/en/latest/# 概述 随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://sp
分类: 其他 发布时间: 07-16 22:46 阅读次数: 0

reduce,aggregate和groupBy

官网说明: groupBy: This operation may be very expensive. If you are grouping in order to perform an aggregation (such as a sum or average) over each key, using `PairRDDFunctions.aggregateByKey` or `Pa
分类: 其他 发布时间: 07-16 22:46 阅读次数: 0

sql,hql等join条件字段为null时,易出现错误以及解决办法

1.null=null不成立,null 2. 运行汇总当字段为null时,出现bug,及解决思路 join的字段为null,不会出现p1.id=p2.id mysql> select * from yunxing_huizong; +------+------+------+ | id   | cost | year | +------+------+------+ | 1    
分类: 其他 发布时间: 07-16 22:46 阅读次数: 0

hive读取es数据

转自:https://www.iteblog.com/archives/1857.html  本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

简单的bootstarp项目实例

===========index.html============== <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title></title> <link rel="stylesheet" type="text/css" href="css/bootstrap.min.css" /> <link rel="stylesheet" type="text/css" href="css/style.css" /
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

《NoSQL精粹》读后感

  《NoSQL精粹》作者Pramod J. Sadalaga、Martin Flower著,译者爱飞翔。   本书以关系型数据库开头,讲解了关系型数据库的优缺点,然后引入了NoSQL数据库,并且从数据模型、分布式模型、一致性、版本戳、映射这几方面讲解了各种NoSQL的优势和不足,如果从现在的角度去评价这本书的话,里面的一些内容已经不一样了,毕竟过去了好几年的时光了,NoSQL和关系型数据库也有了不小的发展,与文中的一些用法和观点不同也是正常的现象,但是本书仍然不失为大师的作品,不少的观点现在
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

STL map

   1806:词典 总时间限制: 3000ms 内存限制: 65536kB 描述 你旅游到了一个国外的城市。那里的人们说的外国语言你不能理解。不过幸运的是,你有一本词典可以帮助你。 输入 首先输入一个词典,词典中包含不超过100000个词条,每个词条占据一行。每一个词条包括一个英文单词和一个外语单词,两个单词之间用一个空格隔开。而且在词典中不会有某个外语单词出现超过两次。词典之后是一个空行,然后给出一个由外语单词组成的文档,文档不超过100000行,而且每行只包括一个外语单词。输入中出现单词
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

【一天又一天】02

一、随便说点啥 嗨,我亲爱的朋友们,你们还好吗? 反正我现在是又困又累,再叨叨一下就要去睡觉了呢。 为啥困呢?因为啊,更了一晚上的博客,就是那个聚类项目整理,上周还是啥时候写了一点占了个坑,今天总算看完把它补上了,初次做检索这块现在只想把流程先搞懂一下,怕写在简历上不懂的话被面试官打。 二、今天好玩吗 来想一想一下今天都干了撒吧。 早上又是拖拖拉拉赖着不肯起床,也没怎么吃早餐,到实验室都十点多了o(╯□╰)o,最近又瘦了,掉到86斤了,也可能是因为前天把头发又剪短了3cm? en......啥
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

mysql分类和事务回滚

主要内容: ***数据定义语言DDL重点 ***数据操纵语言DML重点 数据查询语言DQL重点 ---事务控制语言TCL ---数据库控制语言DCL ---主键(primary key) ---数据冗余(另外建表,把某个外建与另一个表的主键建立关系联系起来) ---事务 ***数据定义语言DDL重点 定义:DDL(Data Definition Language):负责数据结构定义与创建数据库对象的语言。 负责数据结构定义与创建数据库对象的语言。 常用的有create alter drop t
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

Jackie Chan

《我是谁 成龙自述》 链接:https://pan.baidu.com/s/1RzPqezBnnqhodKQq8ArOEw 密码:c0k7
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

树莓派安装.net core 2.1

0.更新源 sudo apt-get update 1.安装依赖 sudo apt-get install curl libunwind8 gettext 2.下载 SDK 或者 RunTime https://www.microsoft.com/net/download/linux curl -sSL -o dotnet.tar.gz https://download.microsoft.com/download/1/f/7/1f7755c5-934d-4638-b89f-1f4ffa5af
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

findCirclesGrid函数求教!

折腾了两天,是findCirclesGrid(frame,patternsize,key_points,CALIB_CB_SYMMETRIC_GRID|4)函数终于能够将检测的到的点存进vector<Point2f> key_points了。但是如果程序语句是findCirclesGrid(frame,patternsize,key_points,CALIB_CB_SYMMETRIC_GRID|4,blobDetector),也就是多定义了blobDetector,则程序运行到findcirc
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0

记模拟面试

  今天万策组织了一次模拟面试,由黄工担任技术官,南希姐和范洁姐担任HR。总结一下,今天的模拟面试真的是一塌糊涂。   首先,一开始是自我介绍,因为没有准备好稿子,直接导致我说完名字,来自哪里,什么学校之后不知道说什么,匆匆说了一些自己会的技术加上自己自学的python之后就不知道说什么了,毫无亮点可言。这下就知道了提前准备的好处,这还没有什么,至少自我介绍我还可以从容的说出来,自我介绍后面的技术面试才是糟糕透顶。首先问了关于集合的理解,自己只是回答了collection这个父类,然后将col
分类: 其他 发布时间: 07-16 22:45 阅读次数: 0