4.MR过程分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/87539686 1. 三大过程 Map侧Shuffle Reduce侧Shuffle 2. 六大组件 InputFormat OutputFormat Serilizer Comparator Combiner Partitioner 1. 三大过程 上一节演示了最简单的MR任务的编写,可以看到其实很简单,说简单点就是套模板。但是要想用好h
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

5.MR应用程序模板

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88219625 MR常用需求 MR应用程序模板 程序演示和下载 MR常用需求 在进一步讲解MR各个组件前,先详细说下编写常用MR需要考虑的点。之前讲过最简单MR如何编写,而在实际应用中,为了工程考虑和复用性,还需要考虑配置解析、执行环境准备、任务参数设置、目录清理。 配置解析:默认hadoop jar执行时使用集群当前配置文件配置。如下图,
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

thrift centos编译

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88380464 编译 问题 下载 业界两大RPC框架thrift(Facebook)和protobuf(Google)现在可是用的非常普遍,linux上编译thrift遇到不少坑,记下来供有需要的朋友参考。 编译 系统环境: 操作系统为CentOS 6.5 g++版本4.4(要求必须g++版本 >= 4.2) 下载: http://thri
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

python 查询hbase2 (一)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88380496 thrift环境准备 连接 查询 扫描 源码下载 thrift环境准备 hbase是接口API是java的,如果需要通过python来操作的话,可以使用thrift服务。使用thrift需要部署thrift接口服务和thrift客户端环境,thrift负责将操作请求翻译后调用Java API操作,客户端thrift负责序列化
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

python 查询hbase2 (二)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88380513 环境准备 连接 查询 扫描 源码下载 上篇文章讲述了python如何通过thrift连接操作hbase,是官方最常用方法,但是略显麻烦。下面介绍两种更易用的场合,在指定的场景中可以考虑使用,本节介绍thrift2,下节介绍happybase方式。 环境准备 thrift2是当时为了适应新的Java API提出来的。它的操作和
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

python 查询hbase2 (三)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88380526 环境准备 连接 查询 扫描 源码下载 前文有说thrift连接操作hbase略显麻烦,happybase完美解决这些问题,操作接口很类似hbase shell,性能和异常处理相对官方版本也做了诸多优化,可谓真的相当的happy了。唯一的问题是这是个第三方库(Github地址),目前作者还在维护,除非你要完全跟上最新Hbase
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

hbase 批量导入数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88524589 Bulk Loading Importtsv 生成HFile 导入HBase 自定义MR 生成HFile 导入HBase 注意事项 源码下载 Bulk Loading 向hbase写入数据常用两种方式: 客户端 API写入 Mapreduce任务TableOutputFormat格式输出 然而,对于超大量的数据写入,这两种方
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

bash shell常见问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88759991 全局变量和局部变量 几种括号区别 - 圆括号() - 方括号[] - 大括号{} 各种配置文件 - 登录shell - 交互式shell - 非交互式shell 全局变量和局部变量 变量设置var=xxx,var和=中间能不能有空格,否则var会被当作命令执行。全局变量必须使用export导出,否则在子shell中无法生效。
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

go 包管理前世今生

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88760066 GOPATH - 多个工作区问题 - 相同后缀路径导入问题 dep包管理 go modules包管理 按照历史来说,目前go1.12为止,官方有三种包管理方式,分别是: 原始的GOPATH 1.9开始支持的go dep 1.11开始支持的go modules 三种方式并不是后者淘汰前者,就目前来看各有各的使用场景,新的兼容旧
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

go 命令参数的解析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88760135 flag 自定义flag 完全自定义解析 命令参数的解析是常用功能,go中借助flag包来完成这一功能。 flag flag使用很简单,包括如下3步: 预声明参数变量 绑定参数解析和调整帮助显示 参数解析,按照预定义方式绑定到变量 //预声明变量 var name string //绑定参数变量 func init()
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

大数据存储选型

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88855535 数据库发展 NoSQL Sharding-nothing 存储选型 要搞懂大数据存储选型,首先必须得了解数据库的发展历史,了解关系数据库的优势和缺点,才能进一步考虑如何处理这些问题。 数据库发展 简单来说,数据库的发展是跟随数据量的发展来发展的,最开始的时候LAMP已经足够使用,当海量大数据出现后,如何存储和查询这些数据就成
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

hbase 存储模型和存储过程分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88919682 逻辑存储模型 物理存储模型 存储过程 - 查询 - 写入 - 删除 hbase为什么可以存储PB级的数据还可以保证千万QPS的并发和ms级的访问速度,这得离不开它巧妙的存储模型和存储过程。另一方面,只有清楚了解hbase存储模型和存储过程才能设计好hbase最关键的行键。 逻辑存储模型 逻辑上,可以把Hbase看成一个多维的
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

hbase 表设计原则

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88919722 反范式很重要 不用区分行和列 牢记有序和行键设计 - key均匀化 - 组合key(索引)设计 不同于传统关系数据库围绕数据先建模再考虑查询,HBase(Cassandra等NOSQL)强调围绕查询进行建模,干什么活做什么设计,海量数据就没必要多余的设计了。 具体总结包含如下三大原则: 反范式很重要 传统关系数据库中,期间遵
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

工具-Hadoop Archive

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88919999 原理 命令使用方式 演示 不足 原理 Hadoop的文件存储的单元为一个块(block),block的数据存放在集群中的datanode节点上,由namenode对所有datanode存储的block进行管理。每个文件对应的block块信息称为元数据,这些数据保存在namenode上。如果存在大量小文件,会导致namenod
分类: 其他 发布时间: 03-30 22:10 阅读次数: 0

基于nginx实现二维码下载安装app

nginx的安装请参考博客:https://blog.csdn.net/m0_37532005/article/details/88858882 本文基于内网nginx实现,外网原理相同。 一、原理 二维码生成带有网页链接地址,为了实现一张二维码实现android和ios通用下载,则需要利用所指向网站的html脚本实现转向不同app的下载地址。 注意:1. android的apk文件没有特殊要求。2. 而ios的ipa文件则需要inhouse版,当然不是必须,如果不是inhouse版,则需要在
分类: 编程语言 发布时间: 03-30 22:10 阅读次数: 0

还愁找不到王者高清壁纸?20行Python代码秒取全套皮肤壁纸

前言 相信大家都玩过王者荣耀吧,资深玩家绝对买过皮肤,不得不夸王者荣耀上实在是做得非常精美,深受广大玩家的喜爱,特别是妹子就喜欢妲己、貂蝉这种非常好看的英雄,往往都会买皮肤,下面为大家介绍一个爬取王者荣耀所有英雄的皮肤壁纸吧,高清无码,清晰到爆,绝对是王者迷的最爱 下面就来看看实现的过程 导入基本库 请求链接 获取英雄皮肤列表 小编推荐一个学python的学习qun 945,8790,25 无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料
分类: 编程语言 发布时间: 03-30 22:10 阅读次数: 0

工具-Hadoop distcp

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wenzhou1219/article/details/88920013 fs shell拷贝和移动 distcp 原理 distcp 操作方法 fs shell拷贝和移动 通常我们使用hadoop提供的fs shell来完成hdfs文件管理。为了对比dictcp,先看下常用的-cp和-mv的使用。 现有目录/lib包含文件1.data 2.data -cp如下操作 hadoop fs -cp /
分类: 编程语言 发布时间: 03-30 22:10 阅读次数: 0

使用Redis缓存必须要知道哪些知识点?

使用Redis必须要知道的几个知识点!
分类: 编程语言 发布时间: 03-30 22:00 阅读次数: 0

小诗句集萃二二

03.01 生命如晨露,时光如朝阳。红日东升,生命初新。 03.02 《绿皮书》:每一个正常人理所当然应该有的权利,对于有些人来说,可能是弥足珍贵的。 仅仅知道是肤浅的。 03.04 真正的关注点在于花每笔钱的合理性。 Live everyday as you are new born. 时间之尺,万物之度。 03.07 女生节快乐! 做一个安静恬淡的琴姑娘。 03.14 宽容自己的不完美,宽容自己会犯傻犯痴犯癫犯萌犯错,宽容自己不聪明不可爱不睿智,宽容自己有时不能抵抗新新时代的侵袭,欣赏热爱
分类: 其他 发布时间: 03-30 21:54 阅读次数: 0

Tree Requests CodeForces - 570D (dfs水题)

大意: 给定树, 每个节点有一个字母, 每次询问子树$x$内, 所有深度为$h$的结点是否能重排后构成回文. 直接暴力对每个高度建一棵线段树, 查询的时候相当于求子树内异或和, 复杂度$O((n+m)log(n+m))$ 看了别人题解后发现有简单做法, 高度相同的点在每个子树内的dfs序一定相邻, 直接维护每一层的异或和, 每次二分出该层属于$x$的子树的一段区间即可. 放一下线段树暴力的代码 #include <iostream> #include <algorithm> #includ
分类: 其他 发布时间: 03-30 21:54 阅读次数: 0