hive优化基础1

1.hive优化基础1

开启分桶 set hive.enforce.bucketing=true;
设置reduce个数 set mapreduce.job.reduces=3;

hive表 ->orc和parquet -->ZLIB或snappy Parquet是面向分析型业务的列式存储格式
fetch抓取: 在全局找、字段查找、limit查找等都不走mapreduce. set hive.fetch.task.conversion=more;默认为 none.
本地模式 :
a. set hive.exec.mode.local.auto=true;
b. 调节本地模式阈值set hive.exec.mode.local.auto.inputbytes.max=51234560;默认为128M.
c. 设置local mr的最大输入文件个数 set hive.exec.mode.local.auto.input.files.max=10; 默认为4.
大表join小表 map join 优化
a. set hive.auto.convert.join = true; – 默认为true
b. 小表阈值设置 : set hive.mapjoin.smalltable.filesize= 25000000; 默认25M.
大表join 大表 :
a. 空key过滤
优化前: SELECT a.* FROM nullidtable a JOIN ori b ON a.id = b.id;
优化后: SELECT a.* FROM (SELECT * FROM nullidtable WHERE id IS NOT NULL ) a JOIN ori b ON a.id = b.id;
b. 空key 转换
有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上
不随机分补:
SELECT a.*
FROM nullidtable a
LEFT JOIN ori b ON CASE WHEN a.id IS NULL THEN ‘hive’ ELSE a.id END = b.id;
随机分布:
SELECT a.*
FROM nullidtable a
LEFT JOIN ori b ON CASE WHEN a.id IS NULL THEN concat(‘hive’, rand()) ELSE a.id END = b.id;
Sql优化
1.列裁剪 hive.optimize.cp=true（默认值为真）只读取查询所需列
2. 分区裁剪 : 分区参数为：hive.optimize.pruner=true（默认值为真）
3. group by 当一个key数据过大时数据倾斜.
（1）是否在Map端进行聚合，默认为True
set hive.map.aggr = true;
（2）在Map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000;
4. Count(distinct) (切记, 数据量小无所谓,数据量大一定不能用)
由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理
的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换：
负载均衡 : 生成两个MR Job计划 , 第一个job 中第一个MR Job中，
Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作,
这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的
第二个MR job 这个过程可以保证相同的Group By Key被分布到同一个Reduce中
,最后完成最终的聚合操作
（3）有数据倾斜的时候进行负载均衡（默认是false）
set hive.groupby.skewindata = true;
避免笛卡尔积 (避免join不加on条件或无效条件, hive只能使用1个reduce来完成笛卡尔积)
动态分区调整
（1）开启动态分区功能（默认true，开启） set hive.exec.dynamic.partition=true;
(2)设置为非严格模式动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区
，nonstrict模式表示允许所有的分区字段都可以使用动态分区。set hive.exec.dynamic.partition.mode=nonstrict;
（3）在所有执行MR的节点上，最大可创建多少个动态分区。set hive.exec.max.dynamic.partitions=1000;
（4）在每个执行MR的节点上，最大可以创建多少个动态分区。
该参数需要根据实际的数据来设定。set hive.exec.max.dynamic.partitions.pernode=100
（5）整个MR Job中，最大可以创建多少个HDFS文件。set hive.exec.max.created.files=100000;
（6）当有空分区生成时，是否抛出异常。一般不需要设置。set hive.error.on.empty.partition=false;
数据倾斜
1. 是不是map数越多越好？很多小文件,每个小文件会被当作一个块,用一个map来完成, 而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费
  解决: 减少map数
  set mapred.max.split.size=112345600;
  set mapred.min.split.size.per.node=112345600;
  set mapred.min.split.size.per.rack=112345600;
  三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，
  小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），
  进行合并
  set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
  这个参数表示执行前进行小文件合并，
是不是保证每个map处理接近128m的文件块，就高枕无忧了？127M,只有两个字段,却有几千万条的记录, 一个map任务去做,很耗时
解决: 增加map数
set mapred.reduce.tasks=10; 每个map任务处理大于12M（几百万记录）的数据，效率肯定会好很多
总结: 控制map数量需要遵循两个原则: 使大数据量利用合适的map数；使单个map任务处理合适的数据量；
2. reduce个数
1. Hive自己如何确定reduce数：
设置每个 reduce 任务处理数据量
set hive.exec.reducers.bytes.per.reducer=524288000;每个reduce任务处理的数据量默认1G : 如果源文件总大小为9G多,这次有20个reduce
每个任务最大的reduce数
set hive.exec.reducers.max=999 默认999
计算reducer数的公式 N=min（总输入数据量/参数设置reduce处理数据量）
a. 那么reduce个数越多越好吗?
同map一样，启动和初始化reduce也会消耗时间和资源；另外，有多少个reduce，就会有个多少个输出文件，如果生成了很多个小文件，
那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
2. 什么情况下只有一个reduce
很多时候你会发现任务中不管数据量多大，不管你有没有调整reduce个数的参数，
任务中一直都只有一个reduce任务；其实只有一个reduce任务的情况，除了数据
量小于hive.exec.reducers.bytes.per.reducer参数值的情况外，还有以下原因：
没有group by的汇总
例子: select pt,count(1) from tab_info where pt = ‘2020-07-04’ group by pt;
select count(1) from tab_info where pt = ‘2020-07-04’;
用了Order by
有笛卡尔积。
　注意：在设置reduce个数的时候也需要考虑这两个原则：使大数据量利用合适的reduce数；是单个reduce任务处理合适的数据量；
11.并行执行
set hive.exec.parallel=true; --打开任务并行执行
set hive.exec.parallel.thread.number=16; --同一个sql允许最大并行度，默认为8。
Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段
默认情况下，Hive一次只会执行一个阶段。
不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执
行的，这样可能使得整个job的执行时间缩短
不过，在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。
严格模式
set hive.mapred.mode = strict; --开启严格模式
set hive.mapred.mode = nostrict; --开启非严格模式
开启严格模式可以禁止3种类型的查询。
1）对于分区表，在where语句中必须含有分区字段作为过滤条件来限制范围，否则不允许执行
2）对于使用了order by语句的查询，要求必须使用limit语句。
因为order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理
3）限制笛卡尔积的查询
13.JVM重用
JVM重用可以使得JVM实例在同一个job中重新使用N次。N的值可以在Hadoop的mapred-site.xml文件中进行配置。
set mapred.job.reuse.jvm.num.tasks=10;手动设置 . 默认公司配好的
推测执行
set mapred.map.tasks.speculative.execution=true
set mapred.reduce.tasks.speculative.execution=true
set hive.mapred.reduce.tasks.speculative.execution=true;
推测执行 : 现象：运行程序时，发现有一个程序中的某个Task迟迟不能结束
解决：如果开启了推测执行，这个task运行过慢，程序会重新启动一个相同的Task，分配到
机器运行，谁先运行结束，另外一个Task会被终止可更改配置
如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大大。

猜你喜欢