数据资产入表(三)|数据资源入表治理路径与数据质量评价路径,数据资源化、数据产品化的必经之路

前言

小兵的数据资产入表系列文章持续为大家更新,系列文章的第二篇为大家介绍了数据要素的资产化路线和实现资产化后的数据资产入表路线框架。本篇作为第三篇,沿着第二篇数据资产入表的实践路线,为大家介绍数据资产入表前的重要环节——数据治理。阅读了前面的文章,想必大家已经了解了当前数据要素市场化的政策推动力量与市场潜力,作为数字经济的核心生产要素,要实现数据要素市场化就要经历从原始数据到数据资源到数据产品再到数据资产的全过程。在这一过程中海量繁杂的原始数据如何才能释放并且创造新价值呢?对企业来说,第一步就是建立一套完整的数据治理体系

数据治理具体是指什么?如何构建企业数据治理体系?在实现数据资产入表的过程中,数据治理又是通过什么路径帮助企业提升价值的?治理后的数据质量通过什么办法进行评价?本文将从数据资产入表的角度带大家一一解答这些疑问。

01 数据资源治理

 什么是数据治理?

早在20世纪80年代,主要依靠数据库管理系统实现数据管理时,企业和学术届就已经意识到数据需要合理管理,1988 年麻省理工学院两位教授启动了全面数据质量管理计划(TDQM)同年,DAMA(国际数据管理组织协会)成立。2002 年美国两位学者发表题为《数据仓库治理》的研究探讨了Blue Cross 和 Blue Shield of North Carolina 两家公司的最佳实践。2003 年 DGI(国际数据治理研究所)成立,研究数据治理理论框架,与 ISO 国际标准化组织对数据管理与数据治理进行定义。此后,“数据治理的理论研究”和“数据治理在企业管理中的实践”相互交叉推进发展。

在搜索引擎搜索“数据治理的定义”,会看到DAMA 和 DGI 对“数据治理”给出了各自的定义:

扫描二维码关注公众号,回复: 17471199 查看本文章

国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。

国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When) 和情况(Where)下,用什么方法(How),采取什么行动(What) 。

DAMA 和 DGI 的定义都比较精炼,我们白话一点的说,数据治理是一个管理体系,是组织中涉及数据使用的一整套管理行为。数据治理的最终目标是提升数据的价值,涉及到数据的整个生命周期管理、数据标准规范、数据质量管理、数据安全性和合规性管理等多个方面。

图片

在实现数据资产入表的过程中,数据治理是数据资源化、数据产品化的重要基础,即将企业通过多种渠道获取的原始数据经过脱敏、清洗、整合、分析、可视化等系统性加工,在物理上按照一定的逻辑归集后达到“一定规模”,形成可重用、可应用、可获取的数据集合,并将其加工为满足明确应用场景需求的数据集、数据信息服务、数据应用等标准化数据产品。数据治理确保了组织能够有效地管理和控制数据资产,以便最大限度地发挥其价值并降低潜在风险

 数据治理与数据管理

相信各位对数据治理的定义形成了初步的印象,但是在实践中容易混淆数据治理和数据管理的概念,在这里给大家简单梳理一下两者的差别。

首先,各机构在理论层面对数据治理和数据管理进行了不同定义。DGI 认为数据治理和数据管理是两个独立的概念,DGI 从职能角度出发,认为数据管理确保通过数据治理制定的政策和实践能有效地帮助数据相关工作的开展的一系列活动,而数据治理框架包括组织整体、规则、决策权、职责、监控或者其他强制性办法。DAMA认为数据治理是宏观的规划和监控数据管理是具体的执行和实施。国际标准化组织 ISO 于 2008 年对数据治理和数据管理( ISO/IEC 2008) 提出差异化概念。ISO 指出,数据治理履行数据管理的主要职能,即数据治理规定在管理的过程中哪些决策应被制定,以及决策者为谁,而数据管理确保这些决策的制定与执行。

数据管理是指对数据集进行管理,包括管理不在组织范围内的数据集。衍生出的数据管理员,可能代表着整个组织的需求,也可能是一个业务团体、部门或数据本身的代表。因此,数据管理员是数据利益相关者的代表,他们负责对数据的处理做出决定,确保应用于数据的规则和控制是适当的。而数据治理提供治理原则、制度、流程、整体框架、管理指标,监督数据资产管理,使组织能够将数据作为资产进行管理,并指导数据管理过程中各层级的活动。数据管理主要侧重数据内容本身被动式的管理而数据治理既包括对数据也包括对相关利益主体主动式的管理,管理范围更广,体系更完善,效果更显著。

 数据治理的目的与价值

数据治理的目标与价值主要包括以下几个方面:

  • 提高数据质量:通过规范数据采集、存储、处理等流程,建立数据清洗、去重、校验等多种机制,以提高数据的准确性、完整性和一致性。这可以提高数据的可信度,更好地支持决策制定。

  • 决策支持:数据治理确保数据可用并易于访问,从而支持组织内的决策制定过程。高质量、一致的数据有助于制定更明智的决策,减少了基于不准确或不完整数据的风险。

  • 促进数据共享:数据治理有助于识别和管理数据相关的风险,包括数据泄露、数据丢失和不当使用风险。在保障数据隐私和安全的前提下,打破不同部门间的信息孤岛,促进数据共享,实现跨部门、跨领域、跨企业的数据互通,提升业务流程效率和数据应用价值。

  • 保障数据安全:通过建立完善的数据安全体系和安全策略,降低数据泄露、数据丢失等风险,提高数据的安全性和可靠性。

  • 优化业务流程:通过数据治理,规范各项业务流程和数据标准,有助于消除数据冗余、提高数据利用率、简化流程提高组织运营效率,降低数据存储和管理成本,从而实现业务运营的顺畅和高效。

  • 符合法规要求:遵守相关法规和合规要求,确保数据的合法合规使用,可以降低法律风险,避免潜在的罚款和法律诉讼。

  • 创新和竞争优势:通过更好地理解和利用数据,数据治理可以促进创新,并帮助组织更好地适应市场变化。这可以增强组织的竞争优势。

 数据资源治理的路径

数据治理是一项复杂的工程,但是数据治理大体上包含了数据采集、数据存储、制定标准、处理加工、对外服务的过程,这里借用烹饪土豆为大家形象化的类比拆解数据治理的过程,包括采集、存储、处理、应用等流程。

  • 采集(人工或机械挖土豆)

  • 运输 & 存储(将土豆转运到仓库或厨房)

  • 定标准(设定评选方法,确定切块的大小、切丝的长度)

  • 清洗 & 处理(清洗泥土,削去表皮,按照标准切成方块、长条、土豆丝)

  • 对外服务 & 应用(厨师烹饪,出锅、摆盘、端上餐桌)

了解了一般的数据治理过程,在数据资产入表过程中,企业实现数据资源化、数据产品化的具体实施过程因组织的特定需求和行业而异,但是各组织数据治理的路径是类似的。数据资源入表的治理路径主要围绕“理”“制”“洗”“存”“维”五步进行。即理清数据资源、制定治理规范、数据清洗整合、数据资源存储、数据维护监控

  • 理清数据资源:首先要明确企业内部的各类数据资源,包括结构化数据和非结构化数据等,以及这些数据的来源、质量和使用情况。这个步骤可以通过对业务部门的需求调研、对现有系统的了解和分析、以及对数据质量进行评估来完成。

    制定治理规范:针对确认过的数据资源,需要制定相应的治理规范,包括数据清洗和整合的规则、数据格式和类型的定义、数据存储和备份的方式等。需要考虑数据的完整性、准确性、一致性、可读性和可维护性等方面的要求,同时还需要考虑数据的安全性和可靠性等方面的要求。

    数据清洗整合:根据治理规范,对原始数据进行清洗和整合,包括去除重复和错误的数据、补充缺失的数据、将不同来源的数据进行合并和关联等。数据清洗和整合可以提高数据的质量和可用性,同时还可以减少数据的冗余和重复。

    数据资源存储:将清洗和整合后的数据按照规定的格式和流程录入到数据库或数据仓库中,同时进行数据的质量检查和完整性验证。并需要考虑数据的准确性、完整性和一致性等方面的要求,同时还需要考虑数据的可扩展性和可维护性等方面的要求。

    数据维护监控:在数据存储后,需要进行数据的维护和监控,包括定期的数据备份和恢复、数据质量的监控和管理等,以确保数据的安全性和可靠性。同时还需要对数据进行分类、分主题地进行整合,形成主题化的数据表,方便后续的数据分析和应用。

    02 数据质量评价

 什么是数据质量?

数据质量是数据治理中的重要问题之一,数据治理包括数据发现和分析,其实目的都是发现隐藏的数据质量问题。数据质量是数据质量管理的结果,而数据质量的最大化有利于数据价值达到最大化。数据质量管理的功能包括数据质量持续改进和数据应用、收集、分析和仓储。

数据之间的来源是具有相关性的,数据质量即指数据与其预期用途相关,具有准确性和完整性,并是数据能以适当的方式呈现。如果数据符合其在运行、决策制定和计划中的预期用途,则该数据是高质量的数据

 数据质量评价的方法

目前关于数据质量评价方法的研究,主要包括定性评价、定量评价以及定性定量相结合的3种评价方法。

  • 定性评价是依据专业领域知识和个人经验理解,按照一定的评价标准进行估计和推断的一种评价方法。目前的定性评价方法主要是数据质量指标量化法,许多学者认为数据质量是一个多维度的概念,因此从不同角度提出了数据质量评价的定性指标。早期,有些学者提出了数据质量评价的最基本的4个定性指标,即准确性、时效性、完整性和一致性 美国健康信息管理协会( AHIMA) 提出了数据质量管理模型,模型从 4 个角度定义数据质量: 收集、仓储、分析、应用,并提出数据质量的特征。在该模型中,数据质量被认为是一个多方面的构造,包括需要用户评估的数据质量属性(称之为数据质量维度) ,例如: 准确性、完整性、一致性、相关性和及时性等。在此基础上,现在有些学者将各个现有指标归类,分为直接指标体系和间接指标体系,并采用GQM(目标一问题式)的方式构建数据质量评价指标。

  • 定量评价主要通过把评价指标量化,并采用模型和数学统计方法对评价对象作出判断和分析评价,能够较好地保证评价结果的科学性和客观性,使其具有较好的信度,多数用于结构化数据库的评价,如针对关系数据库数据质量的精确性和完整性两个重要指标进行评价时,通过关系代数操作进行量化,通过数据和“最近似”间的信息量差异来定量分析;基于概率论,对数据质量的时效性指标建立评价体系。

  • 定性定量相结合的评价,主要做法是在定性评价方法的基础上引入数学手段,定性问题通过人工设定的标准进行评分并做出量化处理,评分的过程都是针对事先建立的指标体系,具有部分数理统计的特征,如德尔菲法、模糊综合评价法、层次分析法等。

定性评价主要是用于满足数据用户的需求,主要是采用数据质量调查的方式构建评价指标体系。定量评价是一种客观评价方法,但一般缺少上下文的情景知识,仅是依赖于应用程序的规则或约束判断,除了常用于结构化数据的评价外,部分自动化评价技术也被应用于网络数据资源的质量评价。在数据质量的多维度评价上,定性定量相结合的评价是目前较为常见的评价方法

现在大家应该了解了定性和定量的数据质量评价方法,下面引用《GB/T36344-2018信息技术数据质量评价指标》、《LY/T2922-2017林业数据质量评价方法》等数据质量评价文档,从数据的规范性、完整性、准确性、一致性、时效性、可访问性6个维度,通过特定指标规则和数据的形态格式与数据处理的具体环节设计了20个二级指标,如下图。当然在不同组织不同环境中,还可以按实际情况继续设计三级、四级评价指标。

图片

 数据质量评价的路径

数据质量评价是数据资产价值评估的重要依据。数据质量是影响数据资产价值的核心因素。专业的数据质量评价有助于发现改善质量问题并提升数据资产价值。数据质量评价的路径总体分为以下五个部分。

  • 分析需求,明确目标:以业务需求为中心进行具体业务数据的数据质量评价,首先必须了解具体业务针对特定数据资源的需求特征,建立针对性的评价指标体系。同时,同一份数据在不同的生命周期中,其质量的关注点是存在差异的,因此对数据进行合理的评价需要明确当前阶段数据质量管理的目标是什么。

  • 确定评价对象及范围:确定当前评价工作应用的数据集的范围和边界,明确数据集在属性、数量、时间等维度的具体界限。需要说明的是,评价对象既可以是数据项也可以是数据集,但一定是一个确定的静态的集合。

  • 选取质量评价维度及评价方法:数据质量维度是进行质量评价的具体质量反映,是控制和评价数据质量的主要内容。因此,首先要依据具体业务需求选择适当的数据质量维度和评价指标。另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。数据质量评价在确定其具体维度和指标对象后,应该根据每个评价对象的特点,确定其测度及实现方法。对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法

  • 进行质量评价:根据前面确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评价对象的质量应当由多个质量维度的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考,多个质量维度的组合能提供更加丰富的信息。

  • 出具数据质量评价结论:经过抽样、度量、评价之后,就可以得到评价结论。根据相关评价结论需要撰写一份评价报告,在报告当中,除了评价结论,应当还包括对这个结论的分析和解读,并通过一些可视化的方式展现在报告当中。数据质量评价报告不是最终的目的,报告对后续数据质量的管理,数据治理等都具有非常重要的参考意义。

03 总结

数据资源化是企业数据资源实现资产化的第一步,而数据治理是实现数据资源化和数据产品化的前置基础,企业会计准则有关资产确认的两个条件包括:一是,相关经济利益很可能流入企业,一般认为经济利益流入的可能性应大于50%;二是,相关成本能够可靠地计量。这两个条件都需要企业建立相对完善的数据治理和管理流程才有机会实现。企业通过数据治理可以挖掘原始数据使用价值,提高数据资源管理水平,提升数据资产质量,盘活数据资产价值,提高数据要素市场供给品质。

目前市场上数据治理方面理论的发展和技术的推广实践较为成熟,大数据领域相关企业,比如阿里dataphin、华为dgc、网易数帆等都有各自的较为成熟的数据治理解决方案。虽然不同行业不同组织数据治理模型各有不同,但是大致的治理过程、模型、指标已经较为标准化。这一市场发展现状为数据资产入表前的数据资源治理打下了良好的基础。所以在数据全生命周期管理的每个环节,包括通过数据标准管理、数据质量管理、数据血缘分析、数据安全治理等治理环节都有相应的企业和相应的市场。

数据治理后数据价值增值了,大家可以先思考看看,增值后的数据要怎样去判断评估其价值,如何进行资产化与市场化交易呢?

小兵的“数据资产入表”系列文章持续更新,通过阅读已发布的系列文章,想必大家对“数据资产入表”的意义、概念和路线框架已有了初步的认识,本文为大家介绍了数据资产入表的重要基础——数据治理提升原始数据价值,后续小兵将继续帮助大家构建并完善数据资产入表知识体系。

猜你喜欢

转载自blog.csdn.net/ccddtomato/article/details/143004588