影响大数据的数据质量因素

  大数据经过了几年的高速发展期,在各行业领域都已有了良好的发展,无论是在政府应用、医疗领域等较大的方面,还是和广大群众日常生活相关的应用,大数据都发挥了极为出色的作用。大数据现在在应用中,主要分为了两个阶段,一个是大数据数据本身的收集处理,另一个是后续对于大数据的应用处理。

  当下政府、企业等对于数据收集的过程已经相当的熟练,数据收集的技术已经非常成熟。但是一个值得深思的问题在于,数据收集的过程,绝大部分数据都是毫无意义的数据,甚至是有害的数据。数据质量的问题一直以来都是大数据自身一个需要处理的问题。而大数据质量问题出现的原因也是各方面因素导致,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。大致原因分为两大类:数据的业务因素和数据的业务因素。

  一、数据质量的技术因素。

  数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。

  由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。

  在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,也会导致的数据采集失败、数据丢失、数据映射和转换失败。

  二、数据质量的业务因素。

  数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

  常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

  过去20年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

  大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程,它是对大数据分析结果的检验与验证,大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。

原创文章 192 获赞 6 访问量 9万+

猜你喜欢

转载自blog.csdn.net/qq_30187071/article/details/106052539
今日推荐