数据分析及治理工程师

2023-09-18 22:10:04

背景

企业的信息化建设需要数据,那么数据是很重要的,数据分析的目的在于为业务服务,而为了更好的达成这一目的。对于元数据的采集和主数据的分析,以及数据标准的制定,和数据质量的保证是非常重要的。

  • 主数据管理面临的问题分析
    主数据治理可以提高数据的特征一致性,识别唯一性,高度共享性,长期有效性,可以获得一个单一的基础数据来源,为企业的应用研发,业务创新升级提供准确的数据支撑

主数据

  • 定义
    具有高度业务价值的,可以在企业内,跨越各个业务部门被重复使用的数据,是单一,准确,权威的数据来源。具有特征一致性,识别唯一性,高度共享性,长期有效性,业务稳定性。
  • 来源
  • 对不同业务的数据源进行提取,将需要的元素进行整合形成黄金记录,得到单一真实的数据。
  • 结构
    主数据控制台包含了 数据建模,功能建模,流程建模,应用管理。
  • 应用集成与流程
    业务系统越多,应用集成的需求和内容就越多, 通过数据集成能力,结合数据模型,完成主数据的同步分发和数仓的数据汇集,便于数仓的建设和可视化实现。
  • 质量管理
    数据清洗和数据巡检,根据主数据的数据字典,配置数据清洗规则进行主数据的清洗
    数据巡检负责对进来的数据进行同步的数据校验,保证数据质量
  • 可视化
    将主数据的来源,主数据状态,主数据的集成情况展示出来,

数据标准

数据质量

  • 怎么保证数据质量
    是一个系统化工程
    都是从获取原始数据为起点,会经过一系列的中间操作: ETL, 中间存储, 指标计算等等都有可能造成数据质量问题。
    然而数据质量问题的出现是难以避免的,以预警为主,提前设置好告警规则,比如:
  • 设置日增数据量的阈值
  • 计算结果和一些关键指标的阈值
    元数据: 当产生问题时,及时预警并终止后面的流程,避免数据进入下游,扩大影响范围
    中间数据:对于一些比较复杂的计算场景,中间结果也可以设置阈值
    最终数据: 将其中的关键指标和以往同期处理的正常结果做一个同比或者环比,看指标的变化是否在可接受范围内,超出就进行报警。

在对数据处理过程中,各个环节的数据量和关键指标的质量进行检查,辅以完善的报警机制和敏捷的问题处理速度来保证一个大数据系统的数据质量。

数据治理

为什么要机械能数据治理

  • 为什么要
    在没有谈到数字驱动下的大数据平台数据中台前,在谈数据治理时,核心的一点是数据不标准不规范或者数据不一致,影响到日常的业务流程,而达不到数据驱动的目的,但是数据的质量不行。
    大数据平台更多的是一个框架和骨骼,而对于这个人来讲,更重要的是时刻提供的新鲜血液。对于动态的数据还要保证高质量高标准和高一致性和高实时性。

  • 数据治理的三个层面
    优先解决的是在单个系统单个业务对象, 本身标准规范的问题。

  • 字段大小

  • 拦截器

  • 缺失值等
    其次要解决跨多个系统的单个对象的管理,任何一个数据可能会跨多个系统在使用

  • 确保源头的统一性

  • 在传输过程中的一致性
    最后是跨了多个系统的多个业务对象

更多推荐

Docker

前言:📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年!📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法系列等,大家有兴趣的可以看一看。😇😇😇有兴趣的话关注博主一起学习,一起进步吧!一、初识Docker1.1项目部署的问题大型项目组件较多,

Session,cookie,cache,memcache三者的详细讲解

1.SessionSession是一种在服务器端跟踪客户端状态的机制,主要用于在用户与服务器之间建立会话。当用户访问网站时,服务器会为该用户创建一个唯一的会话,并为其分配一个唯一的会话标识符(通常是一个长字符串),这个标识符存储在服务器上。之后,用户和服务器之间的所有交互都通过这个唯一的会话标识符进行标识,以保持状态的

基于时序分析及约束(1)-时序约束是什么?

首先回答标题的问题:时序约束是什么?简单来讲,时序约束就是你要告诉综合工具,你的标准是什么。综合工具应该如何根据你的标准来布线,以满足所以寄存器的时序要求。为什么要做时序约束?这里引用特权同学书中的话:“没有任何设计约束的工程,编译器工作的时候就如脱缰的野马,漫无目的且随意任性;但是,任何的设计过约束或者欠约束,都可能

打造本地紧密链接的开源社区——KCC@长沙开源读书会&openKylin爱好者沙龙圆满举办...

2023年9月9日,由开源社联合openKylin社区举办的KCC@长沙开源读书会&openKylin爱好者沙龙,在长沙圆满举办。这是KCC@长沙首次正式进入公众视野,开展开源交流活动,也是openKylin社区长沙首场线下沙龙。长沙地区及其周边的众多开源爱好者齐聚活动现场,聆听读书分享、参与开源话题讨论,实现1+1>

HAM高可用配置及故障切换

1.什么是MHAMHA(MasterHighAvailability)是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。MHA的出现就是解决MySQL单点的问题。MySQL故障切换过程中,MHA能做到0-30秒内自动完成故障切换操作。MHA能在故障切换的过程中最大程度上保证数据的一致性,以达到真正意义上的高可

RK3588修改eth0和eth1,对调这两个网卡设备的名称

1、以太网卡的名称一般是ethX(X可以是0,1,2,3…),一般我们的设备只有一个网卡,并且一般也不会改变它的网卡名称,所以不需要关注此问题,但是有一些设备有两三个网卡,有时候我们需要eth0是指定的硬件网卡设备,此时我们就需要人为干预一下,修改一下网卡的名称,使其满足我们的使用场景。2、在rk平台,假如你的两个网卡

蓝蓝设计提供地理信息系统GIS界面设计

北京蓝蓝设计(北京兰亭妙微科技有限公司)是一家专业的设计公司,致力于为客户打造卓越的用户体验和品牌价值。他们在地理信息系统(GIS)UI界面设计领域拥有丰富的经验和专业的设计团队。他们深入了解地理信息系统的特点和用户需求,通过用户研究和数据分析,精心设计出符合用户习惯和心理的GISUI界面。他们注重界面的布局和排版,确

软文发稿:软文发稿小技巧让你瞬间爆红

欢迎阅读本篇科普文章,我们将为您介绍软文发稿推广的小技巧,帮助您快速在网络平台上获得广泛关注。不仅仅是吸引眼球,我们还将分享实用的策略,帮助您提高软文的质量,提升传播效果。1.精准抓住受众要瞬间爆红,首先要明确目标受众。在撰写软文之前,进行市场调研是必不可少的步骤。了解受众的年龄、性别、兴趣爱好、需求等信息,有助于您编

深圳企业智荟康亮相深圳教装展,大力推动校园健康午休工程

2023年9月15日上午,第五届深圳教育装备博览会在深圳(福田)会展中心隆重开幕。本届教博会以“数字赋能·先行示范”为主题,这场盛会吸引了来自全国各地的众多教育界人士和专业观众。主办方介绍,本次展会将有效推动教育装备领域的技术革新和产业升级,将继续引领行业风向,加速促进产业融合,为各级各类教育机构和教育装备企业提供新技

Python爬虫技术系列-01请求响应获取-urllib库

Python爬虫技术系列-01请求响应获取-urllib库1urllib库1.1urllib概述1.1.1urllib简介1.1.2urllib的robotparser模块1.1.3request模块1.1.4Error1.1.5parse模块1.2urllib高级应用1.2.1Opener1.2.2代理设置1urll

2023常用的原型设计软件推荐

美观易操作的产品原型可以帮助团队构建积极的用户体验,帮助团队理解产品交互逻辑。因此,可互动、易修改的产品原型设计对产品的点击率和回访率具有重要意义。选择专业的产品原型设计工具,可以为团队和企业带来高效的产品设计体验。本文选择了四种产品原型设计工具,可以为实际工作带来方便。让我们看看。即时设计即时设计是国内首款专业级的U

热文推荐