软信天成:如何提高云数据仓库的数据质量?

2023-09-22 09:22:05

随着云计算的深入普及、5G和边缘计算等技术带来了数据量的爆发增长,数据驱动商业运作向实时化和自动化迈进,越来越多的企业开始考虑嵌入基于云计算的企业数据仓库,以Snowflake、Microsoft Synapse Analytics、Google BigQuery、Amazon Redshift等为代表的云数据仓库或成为数据时代的核心基础设施。

对于企业而言,云数据仓库能够提供大数据所需的快速供给、无限可扩展性、分析处理所需的高性能、即用即付的定价模式、低基础设施和IT成本、无缝升级和快速技术创新等众多优势。然而,要想支撑组织管理层做出关键决策,云数据仓库中存储的数据就必须及时、可信。

优质的数据一直是企业开展个性化、人工智能推动的预测分析、自助分析等各项业务活动的先决条件。近年来,云数据仓库变得更加复杂,数据和数据类型也在日益增长,数据质量维护工作面临巨大挑战。IDC的研究报告指出,有60%的组织认为,在数字化转型过程中,数据质量是企业面临的主要挑战之一。卓越的优质数据是企业从云数据仓库中获得最佳投资回报率的基础前提,因此,针对如何提高云数据仓库的数据质量,确保数据优质适用,软信天成将在下文提供详细的实践指南。

一、找出受劣质数据影响的业务流程

解决对业务影响最深的问题一直是数据质量方案的核心。企业需要详细罗列出业务运营过程中因劣质数据而面临的挑战。包括但不限于:

  • 由于无意中与受制裁实体进行交易而受到监管机构罚款;

  • 由于误述产品功能而导致声誉受损;

  • 由于客户厌烦糟糕的服务后取消服务而导致客户流失;

  • 由于库存、运输和交付数据不准确而导致缺货;

  • 管理报告和分析方面的效率和信心低下;

  • 无法在紧急或危机情况下采取行动;

二、梳理劣质数据产生的影响/成本

低质量数据所带来的消极后果将显著影响企业收益。只有量化成本和从计划中获得的收益,数据质量方案才能得到组织内部更多利益相关者的认可,从而获得支持。因此,在估算劣质数据产生成本时,软信建议您可以从以下维度进行梳理:

  • 因为数据的哪些方面导致了问题的发生?

  • 问题的严重性。

  • 问题之前是否发生过?

  • 之前发生过几次?

  • 之前是何时发生的?当时的补救流程是什么?

  • 事后采取哪些措施来防止问题再次发生?

  • 补救成本预计是多少?

  • 可以通过哪些方式取得跨源和数据域的规模经济?

三、引导合适的人员参与其中

众所周知,制定数据质量方案的工作需要一个团队来配合完成。无论是业务还是技术方面的利益相关者,几乎每一个处理数据的人都需要通过合作以确保数据经过审查,从而符合严格的质量标准并受到适当的治理。软信认为,要想确定数据质量问题的衡量标准、制定数据质量规则并确定优先的数据质量补救措施,需要与这些角色达成合作:

  • IT人员:找到数据源并将数据迁移到云数据仓库;

  • 数据拥有者和主题专家:决定待审查的数据并可更改数据集;

  • 数据架构师:负责分析源数据和目标数据;

  • 数据管理者:执行质量控制分析、验证数据质量操作的结果并监测数据合规情况;

  • 业务分析师:将业务要求转换为技术要求;

  • 数据分析师:帮助公司使用数据做出更明智的决策;

  • 临时用户:使用分析工具并具有不同的技能水平。

当然,随着企业中利用数据执行分析的数据使用者数量的增多,企业必须提供符合数据使用者自身需求和技术技能水平的自助式工具,协助他们更轻松地查找和访问所需数据。

四、遵循一致的数据改进方法

在数据质量计划中,获得认同、确定优先事项并分配角色后,便可通过剖析现有数据质量、制定数据质量规则、应用数据质量规则、持续衡量和检测数据质量等方式记录并提升云数据仓库中的数据质量。

  • 剖析现有数据质量:利用数据剖析工具评估所有相关数据源的质量,包括外部数据源。通过数据剖析分析全面了解企业数据与数据质量的关键衡量标准(包括数据的准确性、完整性、时效性、符合性、一致性、连续性、时限性、唯一性、重复性和引用完整性)的符合度,识别表示嵌入数据中的业务规则的相关性,创建初始数据质量报告。

  • 制定数据质量规则:掌握企业数据质量的基础情况后,与业务主题专家(SME)合作,确定部门或业务流程需要清理的字段/数据元素,创建验证规则、数据清理规则,形成包含预置规则且可重复使用的规则库,提高整个组织的一致性。

  • 应用数据质量规则:采用自动化质量控制方式,覆盖本地或多云环境中的所有数据源,在数据管道和业务流程中最适合的位置执行数据质量规则,支持企业用例,帮助大型企业或依赖大数据的企业加快项目交付并确保以一致的方式应用规则。

  • 持续衡量和检测数据质量:维护数据质量是一个长期持续的过程,如不积极管理数据,数据质量就会下降。管理数据的前提在于衡量数据,企业需要检测数据质量、捕获指标并将其呈现给用户,以便在数据质量计分卡中进行分析,并追踪周期内的数据质量,实时了解数据质量改进成效,前瞻性发现并补救质量问题,从而提高整体数据质量。

五、将数据质量纳入更广泛的数据治理工作中

事实上,数据质量仅仅只是为确保企业云数据仓库成为可信业务资产,继而推动企业获得积极成果的整体数据治理策略的一部分。完善的数据治理涵盖确保企业数据资产可用性、易用性、完整性和安全性的各项实践和流程,通过定义访问、保留和删除、提交合规报告方面的规则等方式,为所有类型的业务用户提供可信数据,并帮助企业遵守全球范围内新出台的隐私政策和法规。

在任何企业中,数据都必定会持续扩展和演变。要管理这些快速变化的海量数据,运行于云原生数据质量平台之上的人工智能驱动的自动化功能必不可少。与企业数据质量工具无缝协同工作的模块化、可扩展的集成自动化数据治理解决方案将简化和加快配置、部署和维护数据质量和整体数据治理的流程,并帮助:

  • 制定通用数据词典,为不同业务语境提供统一来源;

  • 基于数据治理策略自动生成数据质量规则;

  • 创建端到端业务流,以查看和揭示影响和重复情况;

  • 实现数据民主化,从而让整个企业内越来越多的用户自助使用数据;


近年来,数字化转型的浪潮彻底改变了市场期望:服务更佳、交付更快、成本更低。当代企业必须通过转型才能跟上趋势,而这一切都需要依赖数据实现。可信数据是高质量数字化转型的关键,合适的云数据质量计划将保障企业的云数据仓库提供可信数据,进而满足组织内部从执行临时分析的终端用户到创建机器学习算法的数据科学家在内的的所有利益相关者的需求,提高业务效率、加快工作流的同时,还将提升组织利用数据推动业务转型的能力,从而降低风险并创造新的机遇。

更多推荐

计算机视觉与深度学习-经典网络解析-ZFNet-[北邮鲁鹏]

这里写目录标题ZFNet主要改进减小第一层卷积核将第二、第三个卷积层的卷积步长都设置为2增加了第三、第四个卷积层的卷积核个数ZFNetZFNet是一种基于AlexNet的模型,由MatthewD.Zeiler和RobFergus在2013年提出。相对于AlexNet,ZFNet结构与AlexNet网络结构基本一致,进行

阿里云服务器ECS_云主机_服务器托管_计算性能介绍

阿里云服务器是什么?云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务,云服务器可以降低IT成本提升运维效率,免去企业或个人前期采购IT硬件的成本,阿里云服务器让用户像使用水、电、天然气等公共资源一样便捷、高效地使用服务器。阿里云服务器具有安全、稳定、弹性升降配、高性能、易用可扩展等优势。阿里云百科来详细说下什么是阿

使用 rtty 进行远程 Linux 维护和调试

rtty是一个用于在终端上进行远程连接和数据传输的工具。它提供了一种简单的方式来与远程设备进行通信,使得在不同主机之间传输数据变得更加方便。安装rtty是一个可执行程序,可以在Linux、macOS和Windows等平台上使用。Linux/macOS在终端中执行以下命令,使用curl下载rtty可执行文件:curl-L

Golang代码漏洞扫描工具介绍——trivy

Golang代码漏洞扫描工具介绍——trivyGolang作为一款近年来最火热的服务端语言之一,深受广大程序员的喜爱,笔者最近也在用,特别是高并发的场景下,golang易用性的优势十分明显,但笔者这次想要介绍的并不是golang本身,而且golang代码的漏洞扫描工具,毕竟作为服务端的程序,安全性一直是一个不同忽视的地

新势力在智能化路上,正抢了Tier 1的生意

作者| Amy编辑| 德新上半年的汽车行业价格内卷,下半年则一下资本涌入,风起云涌。先是蔚来拿到了11亿美元来自中东的投资,紧接着7月大众以7亿美元投资小鹏汽车,8月哪吒完成70亿元Crossover轮投资。传闻中,还有大众捷达与Stelliantis两大集团接洽零跑汽车,秘密洽谈投资收购以及潜在的

.NET超简单轻量级的HTTP请求组件Flurl

简介Flurl是一个用于构建基于HTTP请求的C#代码的库。它的主要目的是简化和优雅地处理网络请求(只用很少的代码完成请求)。Flurl提供了一种简单的方法来构建GET、POST、PUT等类型的请求,以及处理响应和异常。它还提供了一些高级功能,如链式调用、缓存请求结果、自动重定向等。本文将介绍Flurl的GET、POS

提升服务质量,群狼调研物业客户满意度调查来帮忙

在当今商业环境中,物业企业的持续发展离不开客户满意度调查这一重要环节。为何重视物业客户满意度调查?客户满意度是评估企业服务质量的重要指标,对于物业企业而言更是至关重要。通过调查客户的满意度,企业能够深入了解客户的需求和期望,发现问题所在,并做出相应的改进和调整,从而提升客户体验、增强客户忠诚度,进而促进企业的持续健康发

conan入门(二十七):因profile [env]字段废弃导致的boost/1.81.0 在aarch64-linux-gnu下交叉编译失败

今天在尝试用conan1.60.0使用aarch64-linux-gnu编译器交叉编译boost/1.81.0时报错了:conaninstallboost/1.81.0@-pr:haarch64-linux-gnu.jinja-pr:bdefault--buildboost输出如下:Configuration(prof

Hyper-V 虚拟机CentOS配置网络(三)

总目录https://preparedata.blog.csdn.net/article/details/132877836文章目录总目录一、创建交换机二、共享网络给交换机三、虚拟机配置交换机四、配置CentOS网络一、创建交换机二、共享网络给交换机打开物理宿主机的控制面板的网络链接中心,此时已经多了一个上一步配置好虚

通过Vue-cli搭建spa项目

🏅我是默,一个在CSDN分享笔记的博主。📚📚🌟在这里,我要推荐给大家我的专栏《Vue》。🎯🎯🚀无论你是编程小白,还是有一定基础的程序员,这个专栏都能满足你的需求。我会用最简单易懂的语言,带你走进Vue的世界,让你从零开始,一步步成为JAVA大师。🚀🏆🌈让我们在Vue的世界里畅游吧!🌈🎁如果感觉还

css前端面试题(三)

文章目录1、可继承属性和不可继承属性字体系列属性文本系列属性元素可见性列表布局属性光标属性2、link和@import的区别3、css优化4、CSS预处理器/后处理器是什么?为什么要使用它们?5、单行、多行文本溢出隐藏6、实现一个扇形7、实现一个自适应的正方形8、为什么现在的设备分辨率差异很大,2.5k屏幕都已经出现,

热文推荐