什么是数据质量?

数据无处不在。随着数据创建的数量、来源和速度的增加,企业正在努力解决如何处理所有这些问题以及如何处理这些问题的现实。如果你的企业还没有确定使用自己的数据的最有效的方法,那么你就错过了改变你的业务并获得决定性优势的关键机会。

当然,如果没有好的数据,做你想做的事情就难多了。无论是推出新产品或新服务,还是简单地响应最大竞争对手的举动,做出明智、及时的商业决策几乎完全取决于手头数据的质量。

人们试图用这样的术语来描述数据质量完全准确可接近,和脱糊状。虽然每个词都描述了数据质量的一个特定元素,但更大的数据质量概念实际上是关于该数据是否达到了您想要用于的目的或目的。

为什么数据质量这么难

差一点85%的首席执行官说他们担心他们用来做决定的数据的质量。这种担忧的部分原因在于,事实证明,糟糕的数据使公司付出了更大的代价。占其年收入的25%在失去的销售,失去的生产力,或错误的决定。

显然,对于许多组织来说,实现数据质量仍然是一个挑战,但解决方案并不像它们看起来的那样虚幻。大多数企业都会遇到一些或全部直接影响数据质量的问题:

  • 孤立的数据。又称“数据筒仓”,这些独立的数据组要么属于特定的业务单元,要么包含在特定的软件中。隔离数据的问题是,组织的其他部分无法访问它,因为该软件可能与任何其他内容不兼容,或者业务单元严格控制用户权限。虽然这些数据可能提供有用的,甚至是非常有价值的洞察力,因为它不容易被访问,但是业务不能对它形成一个完整的图景,更不用说从中受益了。

  • 过时的数据。企业结构庞大而复杂,有多个团队和部门。因此,跨组织收集数据通常是一个缓慢而费力的过程。到收集所有数据时,其中一些-如果不是大多数-在相关性方面已经落后,因此大大降低了其对组织的价值。

  • 复杂的数据。数据来自许多不同的来源和不同的形式。数据来自智能手机、笔记本电脑、网站、客户服务交互、销售和营销、数据库等。它可以是结构化的,也可以是非结构化的。理解输入的数据量和数据种类,并使其标准化供每个人使用是一个资源密集型的过程,许多组织没有足够的带宽或专门知识来跟上。

如何实现高质量数据

和任何有价值的商业活动一样,提高数据的质量和效用是一个多步骤、多方法的过程。以下是如何:

  1. 方法1:大数据脚本获取大量数据,并使用脚本语言与其他现有语言进行通信和组合,以清理和处理数据以进行分析。虽然工程师欣赏脚本的灵活性,但它确实需要对需要合成的数据类型和数据存在的特定上下文有一个重要的理解,以便知道要使用哪种脚本语言。判断和执行中的错误会打乱整个过程。

  2. 方法2:传统的ETL(提取、加载、转换)工具集成了来自不同来源的数据,并将其加载到数据仓库中,然后准备进行分析。但是,通常需要一组技术熟练的内部数据科学家首先手动清除数据,以解决与源和目的地之间存在的模式和格式不兼容的问题。更不方便的是,这些工具通常是批量处理,而不是实时处理。传统的ETL需要基础设施的类型、现场的专业知识以及很少有组织愿意投资的时间承诺。

  3. 方法3:开放源码工具提供数据质量服务,如解除欺骗、标准化、充实和实时清理,以及快速注册和比其他解决方案更低的成本。然而,大多数开源工具在实现任何真正的好处之前仍然需要一定程度的定制。对于服务的启动和运行,支持可能是有限的,这意味着组织必须再次依靠他们现有的IT团队来使其工作。

  4. 方法4:现代数据集成通过自动集成、清理和转换数据,然后将数据存储在数据仓库或数据湖中,从而消除了传统ETL工具的手工操作。组织定义数据类型和目的地,并可以根据需要使用更新的客户详细信息、IP地理定位数据或其他信息丰富数据流。转换过程将来自所有源和各种格式的数据标准化,使其可供组织中的任何人使用。而且,由于它实时处理数据,用户可以检查数据流并纠正正在发生的任何错误。


猜你喜欢

转载自blog.51cto.com/14009535/2312322
今日推荐