技术漫谈第3期 | 大数据生态圈解读（二）：数据计算层&数据应用层

恒驰信息【技术专家委员会】特别栏目第3期，聚焦技术干货分享和行业热门话题，本期作者：Oscar Li

大数据生态圈分为数据采集层、数据计算层和数据应用层3层结构，上一期大数据专题介绍完了数据采集层，让我们继续往下看...

【数据计算层】

大数据仅仅被采集到数据存储系统是远远不够的，只有通过整合计算，才可以挖掘出数据中的价值。

数据计算层可以划分为离线数据计算和实时数据计算。

离线数据计算主要是指传统的数仓，计算可以以天为单位，细分为小时、或者汇总为以周和月为单位，主要以T+1的模式进行，即每天凌晨处理上一天的数据。随着业务的发展，部分业务需求对实时性的要求逐渐提高，实时计算的应用场景也越来越广泛。比如，电商实时交易数据更新、设备运行状态报告、活跃用户实时分部变化等。

大数据的计算需要使用的资源是巨大的，大量的数据计算任务通常需要通过资源管理系统共享一个集群。大数据的计算通常不是独立的，一个计算任务的运行很大可能依赖另一个任务的结果，使用任务调度系统可以很好地处理任务之间的依赖关系，实现任务的自动化运行。

无论何种数据计算，进行数据计算的前提是规范合理的规划数据，搭建规范统一的数据仓库体系。通过搭建合理的、全面的数据仓库体系，尽量规避数据冗余和重复计算等问题，使数据的价值发挥到最大程度。为此，数据仓库分层的理念被逐渐丰富完善，目前应用比较广泛的数据仓库分层理念将数据仓库分为4层，分别是原始数据层、明细数据层、汇总数据层和应用数据层。通过数据不同层次之间的分工分类，使数据更加规范化，可以帮助用户需求得到更快实现，并且更加清楚明确地管理数据。

【数据应用层】

当数据被整合计算完成之后，需要最终提供给用户使用，这就是数据应用层。不同的数据平台针对其不同的数据需求有各自相应的数据应用层的规划设计，数据的最终需求计算结果可以构建在不同的数据库上，比如，Mysql、HBase、Redis、Elasticsearch等。通过这些数据库，用户可以很方便地访问最终的结果数据。
最终的结果数据由于面向的用户不同，可能不同层级的数据调用量，面临着不同的挑战。如何能更稳定地为用户提供服务、满足各种用户复杂的数据业务需求、保证数据服务接口的高可用性等，都是数据应用层需要考虑的问题。

（未完待续）

【恒驰信息：一站式大数据BI解决方案】

依托华为云数据仓库服务GaussDB(DWS)+BI工具及基础服务，实现库、仓、市、湖、+IoT，一体化仓湖一体，打造全局的、直观的、关联性的、可视化的运营数字化分析决策平台，以数据分析来驱动业务价值提升及管理提升。

解决方案优势

● 破除数据孤岛：跨系统、平台数据整合，实现业务数据互联互通、信息共享

● 统一的数据决策平台：统一数据统计口径，多维分析企业经营数据，帮助企业科学决策

● 多终端数据展现：PC端/移动端/大屏，随时随地满足相关人员的信息需求

技术漫谈第3期 | 大数据生态圈解读（二）：数据计算层&数据应用层

猜你喜欢