2019年大数据技术应用发展趋势

2019年大

当前最火热的新兴科技莫过于人工智能，而国内的大数据公司也纷纷转战AI战场。某种程度上，大数据已不再是科技界的话题宠儿。在Gartner的Hype Cycle中，大数据技术也已经进入到了Plateau of Productivity的商业化应用阶段。

任何新兴科技总会经历创新萌芽到期望幻灭的周期，这并不奇怪。就2018年行业应用现状来看，大数据正逐步成为企业的标准化应用技术：从早期尝试搭建分布式集群、到数据采集汇总、到数据加工与开发、再到大数据的应用场景落地，企业数据架构已经全面接纳、融合了分布式平台，并经历了从集中式、到混合式的探索期。

在这里我还是要推荐下我自己建的大数据学习交流裙：667367234，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。

大数据技术的成熟应用也间接推动了技术社区的发展。Hadoop\Spark已经被大部分企业所接纳，事实标准的地位愈加稳固；Spark 2.4的发布能够看出对微批(micro-batch)处理的优化和Avro格式的数据支持。在流计算领域，Kafka Streams逐渐被企业所采纳作为低延迟的选型方案；Flink和Spark Streaming仍是采用最多的计算框架，与实时机器学习结合应用于风控、营销、信贷等场景端。此外，2018年容器技术和机器学习随着AI的潮流开始规模化应用于零售、金融、政府等领域，如Kubernetes/Docker、TensorFlow。

2019年大数据领域的技术及应用的发展总体上仍将处于一个稳步迭代的创新周期。在新兴开源技术的尝试方面，企业将更趋于理性和审慎；大数据计算引擎、大数据PaaS及工具和组件成为科技部门的标配；结合AI技术，大数据应用将大量落地，并产生业务价值。

根据技术市场和企业客户需求的观察，我总结了2019年大数据技术发展趋势。总体来说，数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架看、数据安全管理是大数据技术应用领域的几个关键方向。

1.数据资产管理

随着大数据与人工智能在行业中的应用进入深水区，企业将越来越重视数据资产管理方法论体系建设——即从架构、标准、研发、质量、安全、分析到应用的统一，从而实现技术到业务价值的转化和变现。

一个比较奇怪的现象是：虽然越来越多的企业尝试采用了大数据技术、也在业务场景中尝试运用AI技术，但行业整体上仍缺少数据资产管理的方法论体系。换句话说，技术的应用超前于规则、标准和制度。事实上，仍然没有太多企业将数据作为资产进行有序、价值的整理，而只是把数据治理工作作为一项必须完成的任务来执行(监管要求等原因)。

2019年数据资产管理将仍是企业数据部门面临的难点与挑战。即使是大型、领先的互联网公司和科技型企业，在数据资产管理这一课题上仍在不断探索新的方法，如全链路智能管理体系、数据资产的贡献度、资产定义与研发管理的有机整合、数据基线度量与质量规范的工具化、可视化等。

2.增强分析

Gartner把增强分析(Augmented Analytics)定义为：侧重于增强智能的特定领域，使用机器学习来转换分析内容的开发、消费和共享方式。增强分析功能将迅速推进到主流应用，作为数据准备、数据管理、现代分析、业务流程管理、流程挖掘和数据科学平台的关键特性。

近两年自助式BI分析工具和算法平台已经屡见不鲜，但在实际行业应用中带来的业务价值并不大。究其原因，我认为一方面是常规的自助式BI分析和算法平台仍未脱离工具范畴，离实际的业务场景距离仍然较远。换句话说并没有深度集成到业务流程当中；另一方面是从BI到AI仍需要解决数据抽取、数据预处理、数据融合的问题，这需要占据数据科学家大量的时间。如何解决普通业务用户也能快捷便利的访问数据并进行验证分析是实现自动化分析的一大难点。

增强分析是数据科学的深化应用。通过将机器学习算法自动化实现数据准备，简化数据处理过程，实现分析及洞察的自动化，为传统业务人员提供了更便捷的通过数据和算法实现业务分析的可能性。

3.AI驱动的数据基础设施

在这里我还是要推荐下我自己建的大数据学习交流裙：667367234，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。

2018年基本可以称之为人工智能的元年。多数企业布局了机器学习、深度学习技术的人力、工具和基础设施，有一些行业解决方案也逐步落地。不过在真实世界中，搭建基于AI的生态系统，重点并非算法本身，“AI驱动业务价值”这一命题意味着高昂的成本和资源投入。

Google在其论文《Hidden Technical Debt in Machine Learning Systems》中提到：真实世界中的AI系统只有一小部分依赖于机器学习算法，其依赖于大量复杂的基础设施。在数据配置、数据采集、特征提取、数据校验、资源管理、分析工具、服务基础设施、监控工具均需要高昂的开销。在多数领域，AI驱动的生产力仍未实现规模效应，如何解决数据基础设施的自动化。

Only a small fraction of real-world ML systems is composed of the ML code, as shown by the smallblack box in the middle. The required surrounding infrastructure is vast and complex.

从今年的大数据平台和工具市场来看，越来越多的构建AI解决方案工具，从AI建模、AI算法框架的工具，逐步演化为面向数据开发、流程调度、A/B实验、数据分析、服务管理等工具，从而实现AI驱动的数据基础设施。这种趋势意味着过去专业的数据科学家、数据工程师与开发人员合作实现AI解决方案，逐渐转变为开发者可以通过AI驱动的数据基础设施(如开发测试工具、建模工具、分析工具等)，独立实现AI应用的开发过程；而数据科学家更专注于算法本身的构建及优化。

4.面向AI的分布式计算框架

随着AI成为科技领域的宠儿，以及机器学习技术的进步，对于面向AI的分布式计算系统的需求变得更加迫切。一种激进的声音是Hadoop/Spark已死，市场需要性能更好、扩展性更强、更适应AI时代的计算引擎解决方案。但这种论调看看也就罢了。Hadoop/Spark阵营的开源分布式社区已成为大数据处理的事实标准，在行业中的应用也在不断深化，各类商业化版本也在为满足更多的行业解决方案而迭代。不过，由于Hadoop/Spark设计的初衷并不是为了构建AI应用，在性能、任务并行、任务状态可变、异构计算(如GPU与CPU)等方面均有一定的问题和瓶颈。

目前开源社区已经有一些面向AI的分布式计算框架，比如UC Berkeley的Ray项目。与MapReduce和Spark这类并行跑批处理架构不同，AI分布式架构要求支持更细细粒度任务依赖，比如小数据量训练、灵活任务依赖、以及异构计算的优化。而大数据商业化公司、Hadoop发行版厂商如Cloudera(现已于Hortonworks合并)，也势必在AI和机器学习应用领域进行产品调整和重构，以提供更多的基于云端的AI解决方案。

5.数据安全即服务

安全与隐私保护是这两年提及较多的关键词，尤其在GDPR(General Data Protection Regulation)发布之后，敏感信息约束和数据安全检查成为互联网、移动端的用户数据管控的难点。在过去，数据安全管理在很多企业搭建大数据平台和应用时容易忽视的点，如安全定级、隐私分级、数据打标、加密与脱敏、自动化访问授权等。

在未来一到两年，企业将越来越重视数据安全管理的应用，在信息安全上的投资预算增长迅速。Gartner曾预测在2019年全球企业在信息安全产品及服务上的投资将达到1240亿美元，同比增8.7%。这个数字我认为略显保守，低估了数据安全和隐私保护领域应用前景。事实上在2017-2018年，国内大数据市场已经出现了不少专注于数据安全领域的供应商，提供隐私访问控制、数据加密脱敏、信息风险监测、数据沙箱等产品应用。这一领域的赛道目前规模还不大、市场比较分散，细分领域的厂商多以客户本地化部署为主。随着DevSecOps(开发、安全与运维)和大数据安全分析平台等理念逐步被市场所采纳，数据安全即服务的云托管服务将更为普及，而基于机器学习的数据安全预测和分析引擎也将出现，应用于数据加密、脱敏、打标、事件分析、恶意文件检测、SIEM系统等领域。

关注微信公众号：程序员交流互动平台！获取资料学习！

数据技术与应用发展趋势：数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架、数据安全即服务。

2019年大数据技术应用发展趋势

猜你喜欢