数据湖存储与查询 - 代码天地

数据湖存储与查询

业界资讯 2023-10-02 20:17:38 阅读次数: 0

作者：禅与计算机程序设计艺术

1.简介

数据湖（Data Lake）由大量非结构化、半结构化、非时序的数据汇总而成，具有海量数据的价值。数据湖存储与查询是企业利用大数据进行决策支持的一项重要功能。数据湖存储与查询可将非结构、半结构、非时序的数据在HDFS（Hadoop Distributed File System）上存储和查询，通过SQL或MapReduce的方式对数据进行分析，从而获得业务价值。本文主要介绍数据湖存储与查询的相关知识和技术。

2.基本概念术语说明

2.1 Hadoop

Hadoop是一个开源的框架，用于分布式计算和存储。它提供高容错性、高可靠性、可扩展性的存储，并可以运行MapReduce任务处理海量的数据集。Hadoop分为HDFS（Hadoop Distributed File System）和MapReduce两个模块，HDFS负责存储海量的数据，而MapReduce则用于分布式计算。

2.2 Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为数据库表，并提供SQL语句驱动的数据查询功能。Hive提供了一个类SQL语言，称为HiveQL，使得用户可以使用标准的SQL语法直接查询数据，无需学习复杂的MapReduce命令。Hive提供了一套类Unix的文件系统，即HDFS，并且可以在其上定义表结构，然后根据这些表生成相应的MapReduce作业，实现数据存储、查询、统计等功能。Hive可以使用表名、列名及表达式来指定查询条件。

2.3 Im

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132313548

数据湖存储与查询

数据湖存储的安全写入之道

数据湖

JuiceFS 在数据湖存储架构上的探索

流式数据湖存储技术，Apache Paimon是什么？

滴滴 OrangeFS 数据湖存储关键技术揭秘！

Apache Paimon 实时数据湖 Streaming Lakehouse 的存储底座

大数据存储架构详解：数据仓库、数据集市、数据湖、数据网格、湖仓一体

大数据2018：云存储已在客观层面扮演数据湖角色

JindoFS - 云上大数据高性能数据湖存储方案

JindoFS: 云上大数据的高性能数据湖存储方案

袋鼠云数据湖平台「DataLake」，存储全量数据，打造数字底座

腾讯云对象存储联合DataBend云数仓打通数据湖和数据仓库

数据湖与 Lambda 架构

数据湖”是什么

简单聊聊数据湖

数据湖、Jcmd

数据湖、Jcmd

由浅入深谈数据湖

畅想数据湖

数据湖使用分享

什么是数据湖

数据湖的了解认识

Iceberg构建数据湖

数据湖构建与计算

数据湖初识(01)

数据湖管理及优化

AWS 中的数据湖

数据湖-hudi概述

数据湖是什么

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)