背景
企业的信息化建设需要数据,那么数据是很重要的,数据分析的目的在于为业务服务,而为了更好的达成这一目的。对于元数据的采集和主数据的分析,以及数据标准的制定,和数据质量的保证是非常重要的。
- 主数据管理面临的问题分析
主数据治理可以提高数据的特征一致性,识别唯一性,高度共享性,长期有效性,可以获得一个单一的基础数据来源,为企业的应用研发,业务创新升级提供准确的数据支撑
主数据
- 定义
具有高度业务价值的,可以在企业内,跨越各个业务部门被重复使用的数据,是单一,准确,权威的数据来源。具有特征一致性,识别唯一性,高度共享性,长期有效性,业务稳定性。 - 来源
- 对不同业务的数据源进行提取,将需要的元素进行整合形成黄金记录,得到单一真实的数据。
- 结构
主数据控制台包含了 数据建模,功能建模,流程建模,应用管理。 - 应用集成与流程
业务系统越多,应用集成的需求和内容就越多, 通过数据集成能力,结合数据模型,完成主数据的同步分发和数仓的数据汇集,便于数仓的建设和可视化实现。 - 质量管理
数据清洗和数据巡检,根据主数据的数据字典,配置数据清洗规则进行主数据的清洗
数据巡检负责对进来的数据进行同步的数据校验,保证数据质量 - 可视化
将主数据的来源,主数据状态,主数据的集成情况展示出来,
数据标准
数据质量
- 怎么保证数据质量
是一个系统化工程
都是从获取原始数据为起点,会经过一系列的中间操作: ETL, 中间存储, 指标计算等等都有可能造成数据质量问题。
然而数据质量问题的出现是难以避免的,以预警为主,提前设置好告警规则,比如: - 设置日增数据量的阈值
- 计算结果和一些关键指标的阈值
元数据: 当产生问题时,及时预警并终止后面的流程,避免数据进入下游,扩大影响范围
中间数据:对于一些比较复杂的计算场景,中间结果也可以设置阈值
最终数据: 将其中的关键指标和以往同期处理的正常结果做一个同比或者环比,看指标的变化是否在可接受范围内,超出就进行报警。
在对数据处理过程中,各个环节的数据量和关键指标的质量进行检查,辅以完善的报警机制和敏捷的问题处理速度来保证一个大数据系统的数据质量。
数据治理
为什么要机械能数据治理
-
为什么要
在没有谈到数字驱动下的大数据平台数据中台前,在谈数据治理时,核心的一点是数据不标准不规范或者数据不一致,影响到日常的业务流程,而达不到数据驱动的目的,但是数据的质量不行。
大数据平台更多的是一个框架和骨骼,而对于这个人来讲,更重要的是时刻提供的新鲜血液。对于动态的数据还要保证高质量高标准和高一致性和高实时性。 -
数据治理的三个层面
优先解决的是在单个系统单个业务对象, 本身标准规范的问题。 -
字段大小
-
拦截器
-
缺失值等
其次要解决跨多个系统的单个对象的管理,任何一个数据可能会跨多个系统在使用 -
确保源头的统一性
-
在传输过程中的一致性
最后是跨了多个系统的多个业务对象