数据湖存储与查询

作者:禅与计算机程序设计艺术

1.简介

数据湖(Data Lake)由大量非结构化、半结构化、非时序的数据汇总而成,具有海量数据的价值。数据湖存储与查询是企业利用大数据进行决策支持的一项重要功能。数据湖存储与查询可将非结构、半结构、非时序的数据在HDFS(Hadoop Distributed File System)上存储和查询,通过SQL或MapReduce的方式对数据进行分析,从而获得业务价值。本文主要介绍数据湖存储与查询的相关知识和技术。

2.基本概念术语说明

2.1 Hadoop

Hadoop是一个开源的框架,用于分布式计算和存储。它提供高容错性、高可靠性、可扩展性的存储,并可以运行MapReduce任务处理海量的数据集。Hadoop分为HDFS(Hadoop Distributed File System)和MapReduce两个模块,HDFS负责存储海量的数据,而MapReduce则用于分布式计算。

2.2 Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供SQL语句驱动的数据查询功能。Hive提供了一个类SQL语言,称为HiveQL,使得用户可以使用标准的SQL语法直接查询数据,无需学习复杂的MapReduce命令。Hive提供了一套类Unix的文件系统,即HDFS,并且可以在其上定义表结构,然后根据这些表生成相应的MapReduce作业,实现数据存储、查询、统计等功能。Hive可以使用表名、列名及表达式来指定查询条件。

2.3 Im

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132313548