spark中调用逻辑回归

大家:  好!spark中调用逻辑回归,涉及到机器学习和算法,不太好理解。package Trafficimport java.io.PrintWriterimport org.apache.spark.mllib.classification.LogisticRegressionWithSGDimport org.apache.spark.mllib.linalg.Spars...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

JAVA中连接HBASE的常用API

大家:   好! java中连接hbase的常用apipackage cn.bsr_hbase;import java.nio.ByteBuffer;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

SPARK中实现自定义分区

大家好: 在spark的开发中,有时需要将数据按照某个字段进行分开存储,这就需要用到spark的自定义分区的功能。先说测试数据,放在文件"C:\test\url1.log"中,数据如下所示:20170721101954 http://sport.sina.cn/sport/race/nba.shtml20170721101954 http://sport.sina.cn/sport...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

SPARK中实现用户自定义排序

大家:   好!在spark中对数据进行排序,是在实际工作中是经常用到的,本文是通过样例类的形式在实现用户自定义排序。准备样例数据,这是第一步,我习惯将数据放在一个文件中。测试文件目录为,C:\test\sort.txt, 样例数据以下所示:apple 5 5288sansung 5 5888huawei 1 3788mi 4 3799sony 3 3799lg 4 249...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

hive中的分析函数的典型应用

大家: 好!今天看到了一个hive的分析函数的题,感觉很有意思。把答案整理了整理,分享出来,希望对大家有用。需求如下所示: 起初我看到这道题时,感觉应该要用到分析函数,但就不知道怎么用。好在最终,写出来了,思路如下所示:----测试表的表结构以及数据如下所示:hive> desc sales;OKid int ...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

hive中的分析函数以及时间戳的使用

样例数据如下所示: 仅仅展示字段createTime和memberIdcreateTime memberId2017/11/13 2017-11-13 12:00:01 8a9e7bf05d7ec61b015d89e060901ef82017/11/13 2017-11-13 12:01:01 8a9f156c5d409b7d015d4566b0f0...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

执行hsql报文件缺失错误

大家好:   今天在执行hsql的时候,发现文件缺失的错误。以下为测试过程以及解决办法,希望对大家有用。 ----创建测试表create table employ_test(employ_id BIGINT comment '员工编码',salary DECIMAL(20,2) COMMENT '员工薪水')comment '员工信息测试表,测试删除分区文件' PAR...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

sparksql结合hive

第一步: 在spark的conf目录下创建hive的配置文件的信息/usr/local/spark/conf 创建文件hive-site.xml里面的内容是:<configuration><property><name>hive.metastore.uris</name><value>thrift://192.168.1...
分类: 其他 发布时间: 03-30 10:53 阅读次数: 0

SparkStream的两种经典使用方式:

大家:  好!SparkStream的两种经典使用方式,仅仅涉及到SparkStream,没有涉及到各种对接,数据来源是tcp的端口号第一种:  按照间隔对数据进行计算,对历史数据不做处理package SparkStreamimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.stre...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

Hive对接Hbase

大家:好! 因项目实际需要,要求将hive中的数据对接入hbase中。在网上看的一篇博文的基础上,加上自己的理解以及相关的操作步骤,以及常见的几个错误,整理了此篇博客,希望对大家有所帮助。Bulk Load-HBase数据导入最佳实践一、概述HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个M...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

scala中产生单例对象

大家:  好!看了点scala产生单例的代码,分享出来,仅供参考。package day02import scala.collection.mutable.ArrayBuffer/** * 功能: 演示scala中的单例对象 */object SingletonDemo { def main(args: Array[String]) { //单例对象,不需要...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

Akka的三种应用场景

  什么是AKKA?Akka是一个开发库和运行环境,可以用于 构建高并发、分布式、可容错、事件驱动的基于JVM的应用。 使构建高并发的分布式应用更加容易。Akka是把Actor Model模型进行了封装。可以理解为,异步,非阻塞的一个消息传递第一种: 给AKKA发送一个字符串或者单个的数值package day03import scala.actors.Actor/** ...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

kafka多消费者的kafka.common.ConsumerRebalanceFailedException异常解决办法

应用场景: kafka的多消费者消费同一个topic的数据,并且保证每条记录都能被消费掉实现方式: topic要创建多个partition(partition的个数要大于等于消费者的个数),多个消费者在同一个组之内第一步: 创建topic的多partition,并进行验证,如下所示:[root@hadoop ~]# kafka-topics.sh --list --zookeeper ...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

如何优雅的停止掉SparkStreaming

关于如何优雅的停止SparkStreaming,网上挺多的,我测试了一种简单的方法,分享出来一个简简单单的SparkStreaming样例,从一个文件中读取数据后将结果保存到指定的目录中package SparkStreamimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, Str...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

oracle执行计划赏析

大家:好。实现了一个小需求,用了三种写法,执行计划如下:SQL> SELECT DAY_ID,NAME,URL,CNT 2 FROM (SELECT DAY_ID,NAME,URL,CNT,row_number() OVER(PARTITION BY DAY_ID, NAME ORDER BY CNT DESC) RANK 3 FROM (SELECT T.DAY_ID...
分类: 其他 发布时间: 03-30 10:52 阅读次数: 0

oracle连接中on (1=1)

大家:好! 最近看了oracle连接中的on(1=1)的问题,挺有意思的。测试表如下所示:create table t1(c1 varchar2(10));insert into t1 values('1');insert into t1 values('2');create table t2(c2 varchar2(10));insert into t2 values...
分类: 其他 发布时间: 03-30 10:51 阅读次数: 0

hive的多粒度计算优化 列转行的函数lateral view

今天看了一个hive的减少job数的优化思路,值得借鉴测试表以及数据如下所示:create table sale_order as select '河南省' as province,'洛阳市' as city,'汝阳县' as country, 100 as salesunion all select '河南省' as province,'洛阳市' as city,'伊川县' as country, 200 as salesunion all select '河南省' as pro...
分类: 其他 发布时间: 03-30 10:51 阅读次数: 0

每半个小时间隔内用户拨打电话的次数以及时长

大家好,今天看了一个分析函数的应用场景,分享出来用户拨打电话表: 字段用户id,开始时间,结束时间。样例数据如下所示(分隔符为,):aaa,2018-01-01 08:01:00,2018-01-01 08:08:00aaa,2018-01-01 08:15:00,2018-01-01 08:20:00aaa,2018-01-01 08:45:00,2018-01-01 08:48:00期望输出, 用户id,每个时间段的最早开始时间, 该时间段内拨打电话的次数,时长(分钟)aaa 2
分类: 其他 发布时间: 03-30 10:51 阅读次数: 0

Java常见数据结构以及特点、使用场景

Java常见数据结构以及特点Java中常见的数据结构,主要分为Collection和Map两种主要接口,程序中的数据结构是继承这些接口的数据结构类。Collection接口:List 接口继承:ArrayList、 Vector、 LinkedList等实现;Set 接口继承:HashSet、LinkedHashSet、TreeSet等实现。Map接口: HashMap、SortedMap继承,LinkedHashMap、TreeMap等实现。几个常用的类及其特点:ArrayLis
分类: 其他 发布时间: 03-30 10:50 阅读次数: 0

找出数组中重复的数字---多思路

问题:找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例 1:输入:[2, 3, 1, 0, 2, 5, 3]输出:2 或 3 限制:2 <= n <= 100000解题思路:1.利用HashSet,因为HashSet不允许集合中出现重复的元素,通过将数组元素添加到HashSet中,如果元素添加.
分类: 其他 发布时间: 03-30 10:50 阅读次数: 0