人工智能,100%是数据治理的未来方向?

以下文章来源于谈数据 ,作者石秀峰

01.

新技术的应用

企业的数据环境越来越复杂?

过去,企业也有数据,但数据处理能力单一,数据散乱,数据的价值很难充分发挥。

如今,大数据时代来临,企业处理数据的能力有了大幅提升,围绕数据的业务创新,价值发掘越来越受到企业的关注和追捧。

随着“ABCDT”等各种新技术的应用,人们发现企业的数据环境不是变得越来越简单了,而是变得越来越复杂了。

图片

企业存储和管理数据的方式主要有两种:数据库系统和文件系统。

过去的数据库系统,多数都是关系型数据库,或称为SQL数据库,例如:oracle、SQL Server、DB2、Mysql;

过去的文件系统,大多是单机版的文件系统,要靠操作系统的本地化存储,例如:NTFS、FAT32;

如今的企业的数据存储和处理形式是多样的,不仅是SQL数据库,更多的是NOSQL数据库,诸如:

  • 键值数据库,例如:Redis、Memcached

  • 列式数据库,例如:hbase、hive

  • 文档数据库,例如:MorgoDB、CouchDB

  • 图数据库,例如:Neo4j、JanusGraph、HugeGraph

过去,企业存储和管理数据,多数情况是存在自己的数据库中,放在自己的机房里。

如今,企业的数据一部分存放在企业内部数据库里,一部分放到了“云端”(云计算),还有一部分放在了“链上”(区块链)。

过去,企业的数据大多都是“人”生产的,——人通过操作应用系统或文本文件而产生数据。

如今,企业的数据生产,除了人,还有机器!各种各样的设备、装置和传感器,每天都会产生大量的、各种形式的数据(物联网)。

……

如果你的企业已经达到了以上的状态,那么恭喜你,你的企业已经至少已经是“半个”数字化企业了!

为什么是“半个”?

因为一般来说,你的企业还会会存在以下问题,需要你去一一解决:

1. 信息孤岛问题,数据系统之间相互孤立、各自为政、不能互通。

2. 黑暗数据问题,数据只是存储在系统中,几乎没人知道,更没有人使用。

3. 数据质量问题,各种数据质量问题(唯一性、一致性、完整性、准确性、及时性等),导致数据无法使用。

02.

数据治理是人工智能的输入?

不,它们是相互作用!

数据被认为是当今时代企业的核心资产,具有很高的价值。然而,数据本身并没有什么价值,或者说数据本身不会自动产生价值。一般来说,数据价值变现的方式有两种:

方式1:通过数据治理将数据资源转化为数据资产,再把数据资产挂接到提供数据资产交易的平台上(通常是区块链技术的平台)进行交易,让数据资产具有直接变现的能力。

方式2:通过数据治理实现数据资源的汇集和预处理,在通过基于场景的人工智能算法将数据应用到业务中去,让数据产生洞察力,为管理和业务的创新提供支撑,让数据具备了间接变现的能力。

以上两种方式都离不开数据治理!

图片

而数据治理的目的是输出高质量数据,并保证数据使用过程的安全合规。解决的是为什么要管理数据,由谁管,管理过程应遵循哪些规则的问题。

“垃圾进、垃圾出”,人工智能离不开高质量的数据支撑,所以人们普遍认为数据治理是人工智能的一个输入。

这个观点当然没错,但笔者要强调的是数据治理不仅是人工智能的输入,他们更多的是相互作用的关系。也就是说:人工智能离不开数据治理,数据治理也离不开人工智能。

03.

为什么人工智能离不开数据治理?

人工智能是由算法模型组成的,因此很多人认为人工智能的核心是算法。在很多有关人工智能的文章和新闻报道中,更多偏重关注人工智能的算法,似乎“神经网络”、“深度学习”这些机器学习的模型,真的和人的大脑一样了。只有给其输入一定的数据样本,就能生产出高价值的东西来。

然而,事实并非如此。

人工智能的核心是机器学习,简单理解机器学习就是让计算机向人一样去学习各种知识,然后形成自己的“思考和判断”,也可以叫做洞察力。

人们在教育孩子的时候都希望能够给到孩子最好的学习环境,最好的教育资源。然而在学习过程中,孩子只有能够“取其精华,去其糟粕”,才能学到有价值的知识。

机器学习也一样!

对于机器学习来讲,它所需要的“最好的学习环境、最好的教育资源”就是有足够量的数据,以及这些数据的数据质量要足够好。只有输入准确的数据,才能训练出精准的AI。

图片

上图是一个简单的机器学习流程,共有5大环节,分别是:数据收集、数据整合和输入、数据预处理、模型训练、模型评估。这个流程中,有一多半过程都与数据治理相关。

通过实施相应的数据治理策略,让企业数据管理和应用的环境,变得整洁而有序。在数据收集、数据整合、数据预处理过程中,能够输出一致的、完整的、准确的数据,这是人工智能的基础。

人工智能中,高质量的数据和算法模型是同等重要的,两者缺一不可。

而要获得高质量的数据,就离不开实施数据治理的相关策略,也因此可以说,人工智能离不开数据治理。

04.

为什么数据治理离不开人工智能?

笔者在《数据治理:说起来容易,做起来难》一文中曾提到过:数据治理并不是一个什么“高大上”的活儿,而绝对是一个“脏活、苦活、累活”。在企业数据环境日趋复杂的今天,传统靠人工的数据治理方式,已经很难满足人们对“数据智能”的不断追求了。因此,人们需要一种更加自动化和智能化的数据治理手段,而“人工智能”无疑是一个绝佳选择。

在Gartner 2020年发布的“数据与分析领域的十大技术趋势”中给出了这样的预测:

增强型数据管理利用ML(机器学习)和AI(人工智能)技术优化并改进运营。它还促进了元数据角色的转变,从协助数据审计、沿袭和汇报转为支持动态系统。 增强型数据管理产品能够审查大量的运营数据样本,包括实际查询、性能数据和方案。利用现有的使用情况和工作负载数据,增强型引擎能够对运营进行调整,并优化配置、安全性和性能。

图片

实际上,很多企业很早就已经开始探索人工智能技术在数据治理中的应用了,诸如:

在数据采集方面,通过利用图像识别、语音识别、自然语言处理等AI技术自动化采集各种半结构化和非结构化的数据,例如:文本、图像、音视频等。

在数据建模方面,通过知识图谱、图数据库等新技术,设计出更加符合现实的业务概念模型,并能够将概念模型转化为数据库可识别的物理模型,进行数据的管理和存储。

在元数据管理方面,人工智能技术可以帮助更好的管理和整合元数据,例如:非结构化数据的元数据采集,基于语义模型、分类聚类算法、标签体系的自动化数据目录等。

在主数据管理方面,利用人工智能技术对数据集进行监控可以帮助自动鉴别和筛选出主数据;通过监控主数据的数据质量,维护和确保主数据的“黄金记录”,以及在主数据维护管理过程中的数据校验、数据查重合并、数据审核等业务中,均可以植入人工智能技术,让主数据管理变得自动和高效。

在数据标准方面,通过机器学习算法可以自动识别出数据标准的使用频度和热度,找出那些没有使用或使用过程中存在问题的数据标准,以便帮助企业对数据标准进行评估和优化。

在数据质量方面,通过将监督学习、深度学习、回归模型、知识图谱等AI技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,进而定位数据治理问题的根本原因,帮助企业不断改善和提升数据质量。

在数据安全方面,利用人工智能可以帮助企业清洗、转换、处理数据集中的敏感数据,例如通过分类、聚类、自然语言处理、神经网络等算法模型实现对敏感数据的实时化、动态化分类分级,加强敏感数据的安全防护。

这一切,并不是凭空想象,很多场景目前已有成功案例。

未来,随着技术的不断成熟,数据治理将变得更加自动和智能,改变当前绝大多数要依靠人工的数据治理现状。

“无治理、不分析”,没有高质量的数据,就不会有可信的AI。数据治理是人工智能基础,能够为人工智能提供高质量的数据输入。而人工智能是一种技术,它不仅仅是在数据应用端产生作用,在数据的管理端同样需要人工智能。有了人工智能加持,数据治理将变得更加高效和智能。相信未来,人工智能和数据治理将会擦出越来越多的火花。

猜你喜欢

转载自blog.csdn.net/hanxiaolaa/article/details/113675960