Kettle导出到数据库中数据到excel

平时,如果我们需要将数据导出Excel的话,我们可能会直接复制,然后粘贴出来,但是数据量大的话,就不好用了;或者使用Java等开发语言,写代码,导出Excel;或者一些数据库连接工具自带的导出功能。其实,我们用Kettle的话,还是很方便的,但是平时用下来,Kettle的这个功能还是有些缺陷的,比如导出Excel2007+的时候,经常会报错,我一直也没有解决,这次记录博客顺便研究看看。1. Kettle的下载及使用正式开始之前,我们简单说下Kettle的安装配置啥的,Kettle是绿色的,下载之
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Hdfs文件操作问题

hadoop HDFS常用文件操作命令命令基本格式: hadoop fs-cmd < args > 1. ls  列出hdfs文件系统根目录下的目录和文件 hadoop fs-ls/dir hadoop fs-ls-R/dir--列出hdfs文件系统所有的目录和文件  2.puthadoop fs -put <...
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

将hdfs文件加载入hive表

1.第一种方法当存储路径与表所在路径不一致时,可以load进去,如果表中字段类型不对应,该字段的值将会为空load data inpath 'hdfs://hadoop01:9000/tmp/sales_info.txt' overwrite into table sales_info partition(dt = '20191215');2.当存储路径与表所在路径一致时,可以采用添加分区的方式alter table ods_nshop.ods_01_releasedatas add p..
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Gp常用函数

类型转换select lpad(test::varchar,5,0) from public.test_yyyymmdd;test为nmeric类型的数据,转换为character varying 并且不足5为的在左边补一个0
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Hive的row_number无法order by多字段

FAILED SemanticException Range based Window Frame can have only 1 Sort Key一、描述 执行select *,sum(money) over(partition by userid,month order by userid asc,month asc range between 0 and 2 2 following) aa from user order by userid,month;报如下错误二、解决方法...
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

SVN上传,添加,删除

操作步骤1. 本地建立仓库:在本地新建文件夹,右键 —> TortoiseSVN —> Create repository here;2. 下载已有仓库:在本地新建文件夹,右键 —> Checkout—> 输入用户名密码、下载的文件路径;3. 更新本地仓库:选中仓库,右键 —> SVN Update;4. 上传本地文件:选中仓库,右键 —> SVN Commit;5. 添加文件:选中文件,右键 —> TortoiseSVN —> add;.
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

合并hdfs小文件

如果需要合并HDFS上的某个temp目录下有很多小文件(1.txt,2.txt),可以尝试使用下面的命令: hadoop fs -cat hdfs://cdh5/tmp/*.txt | hadoop fs -appendToFile - hdfs://cdh5/tmp/hdfs_largefile.txt注意:这种处理方法在数据量非常大的情况下可能不太适合,最好使用MapReduce来合并。...
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Hive的tempoary table使用

规范上不允许create table as select然后使用,应该create temporary table as select,同样可以insert into进去数据在create table as select的时候,会有插入为null导致该表的数据类型为void的情况,这样这个字段就不能用了,向该表插入数据会导致UDFArgument void的错误...
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Kettle学习1-随机数写入文本

下载 ,在官网使用windows系统版的kettle的几个子程序介绍
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Shell时间获取

v_curr_rq=`date +%Y%m%d`v_rq=`date -d "yesterday" +%Y%m%d`v_lm=`date +%Y%m01`v_lm_rq=`date -d "${v_lm} last day" +%Y%m%d`v_llm_rq=`date -d "${v_lm} last month last day" +%Y%m%d`#当前日期echo ${v_curr_rq}#昨天日期echo ${v_rq}#本月月初echo ${v_lm}#上个月月末.
分类: 其他 发布时间: 03-27 10:37 阅读次数: 0

Hive的partition问题

hdfs文件按日拉过来了,但是没有数据需要将数据按partition加载进入这个表alter table dim.fin_exp_dmn_org_new_temp drop if exists partition(dt='$rptDate');alter table dim.fin_exp_dmn_org_new_temp add partition (dt='$rptDate') location 'hdfs://yto-develop-bigdata-platform/user/hive/wa
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Kettle学习2-资源库连接/移植/参数化

资源库:保存元数据的地方,元数据(关于数据的数据,描述性数据)ETL的元数据:etl要进行的任务kettle中元数据的存储方式1.资源库文件资源库,数据库资源库,kettle4后资源库类型可以插件扩展2.XML文件.ktr转换文件的XML根节点必须是<transformation>.kjb作业XML的根节点是<job>数据库资源库1.把kettle的元数据串行化到资源库,如R_TRANSFORMATION表保存了kettle转换的名称,描述等.
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Kettle笔记3-三种运行方式:图形/命令行/API+新建作业

图形界面在spoon,运行/预览,开发人员用命令行在上线后 pan/kitchenAPI API镶嵌进入其他应用输入线程数:右键->改变开始复制的数量设置步骤buffer大小,编辑-设置-杂项,默认一万条。内存溢出时可以改小...
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Kettle笔记4-日志

文件日志数据库日志
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Kettle笔记5-输入步骤

生成记录/自定义常量
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Mysql建表必须主键,如果没就自增主键

第一步alter table `main_data` add id int;第二步alter table `main_data` change id id int primary key auto_incrementALTER TABLE test ADD COLUMN id INT UNSIGNED NOT NULL auto_increment PRIMARY KEY FIRST给指定位置加列需要两个关键字:FIRST和AFTERFIRST表示增加此列为第一个列..
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

hive表拉链

--获取0-99WITH a AS (SELECT explode(split('0,1,2,3,4,5,6,7,8,9',',')))select cast(a1.col + 10*a2.col as int) from a a1 JOIN a a2 ON 1=1拉链表WITH a AS (SELECT explode(split('0,1,2,3,4,5,6,7,8,9',',')))SELECT t.* ,regexp_replace(d.dt_date,'-',..
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

SourceTree使用

1,登录官方网站下载安装官方网点:https://www.sourcetreeapp.com/2,安装与注册帐号下载后,安装3,选择Bitbucket 点击后,会跳转外网,要么登录,要么注册 我用的outlook邮箱4,我是登录的,没有帐号的,点击下面注册按钮,进入注册页面5,一路下一步6,填写自己的偏好(用户名,邮箱)推荐使用私人邮箱7,进入主界面了。注:win10 用户安装后,不会在桌面没有快捷方式,需要手动处理。sourcetree默认安装后的路径为:C:\Us..
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Hive的analyze

1、使用分区表,无论字段analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS noscanps:一致报错的可能性在UDF函数建在了某个库下 ,只有在hue上选择某个库的时候才能用UDF2、目的见名知意,它的目的就是为了统计和分析的作用,它将统计的信息存储到metastore中,后续再来查询的时候就不需要在执行查询计算,而是直接获取即可3、范围统计信息支持新建的和.
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0

Hive迁移问题追踪

case when 得到的结果’1‘不相等
分类: 其他 发布时间: 03-27 10:36 阅读次数: 0