【大数据Hive】hive 表设计常用优化策略 - 代码天地

【大数据Hive】hive 表设计常用优化策略

数据库 2024-11-01 14:43:13 阅读次数: 0

目录

二、hive 普通表查询原理

2.1 操作演示说明

2.1.1 创建一张表，并加载数据

2.1.2 统计3月24号的登录人数

2.1.3 查询原理过程总结

2.2 普通表结构带来的问题

三、hive分区表设计

3.1 区表结构 - 分区设计思想

3.2 操作演示

3.2.1 创建分区表按照登录日期分区

3.2.2 开启动态分区

按登录日期分区

基于分区表查询数据

查询先检索元数据

查询执行计划

四、hive分桶表设计

4.1 Hive中Join的问题

4.2 分桶表设计思想

4.3 创建分桶表操作

创建第一张普通表

构建分桶emp表

创建第二张普通表dept并加载数据

构建分桶dept表并加载数据

4.4 普通表与分桶表join执行分析

普通表的join执行计划分析

分桶的Join执行计划分析

五、hive索引设计

5.1 hive索引说明

5.2 Hive中索引基本原理

5.2.1 Hive索引目的

5.3 索引的使用

5.4 Hive索引的问题

六、写在文末

一、前言

不管是关系性数据库，比如像mysql，还是类关系型数据库，像mongodb，为了确保在建表开始使用之后，能够充分发挥数据表的高性能查询，需要在表的设计阶段，从表的设计，索引的设计，分区的设计等等一系列因素综合去平衡和考虑，以免为上线后的优化工作带来麻烦。本篇将介绍hive关于表设计常用的一些优化策略。

二、hive 普通表查询原理

通过之前的学习，想必大家对hive的查询原理不再陌生，下图是hive查询的原理图；

为什么要说查询原理呢，理解一个软件的设计有必要对其原理做一定的了解࿰

猜你喜欢

转载自blog.csdn.net/congge_study/article/details/129212002

【大数据Hive】hive 表设计常用优化策略

【大数据Hive】hive 优化策略之job任务优化

【大数据Hive】hive 表数据优化使用详解

【大数据Hive】hive 加载数据常用方案使用详解

【大数据Hive】Hive 内部表与外部表使用详解

大数据之Hive总结篇及Hive优化

【大数据】Hive系列之- Hive-分桶表

【大数据Hive】hive 事务表使用详解

大数据Hive系列之Hive常用SQL

【大数据hive】hive 拉链表设计与实现

大数据||导出Hive表中的数据

大数据离线---Hive的表操作介绍

大数据——hive管理表的方式

大数据||Hive中常用的查询

大数据：Hive常用参数调优

入门大数据---Hive常用DML操作

入门大数据---Hive常用DDL操作

大数据（二十三）：hive优化、表优化

大数据（Hive数据库、表的详解及其Hive数据导入导出）

大数据开发之Hive优化篇4-Hive的数据抽样-Sampling

【大数据】Hive 表中插入多条数据

【原创】大数据基础之Hive（4）hive元数据库核心表结构

大数据开发之Hive优化篇5-使用ORC文件格式优化Hive

大数据开发之Hive优化篇1-Hive 优化概述

【Hive大数据】Hive分区表与分桶表使用详解

【大数据_hive】内部表和外部表的区别

大数据学习笔记35：Hive - 内部表与外部表

大数据开发之Hive优化篇2-Hive的explain命令

大数据开发之Hive优化篇3-Hive的统计信息

Hive 史上最全面的大数据学习第九篇（三） Hive表分类

今日推荐

周排行

jasperreport 开发问题总结

eclipse最最最常用的快捷键

2.Kotlin-扩展函数

PHP中创建和编辑Excel表格的方法

远程办公的复盘未完待续

mac与windows共享键盘鼠标(synergy)

DOCKER使用 FLANNEL（ETCD+FLANNEL）网络

剑指offer：（二）替换空格

javaScript之Location,Navigator,History

Python 模块的加载顺序

每日归档

更多

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)

2025-03-08(0)

2025-03-07(0)

2025-03-06(0)

2025-03-05(0)