认识数据分析

2023-09-13 21:11:02

1. 认识数据分析

1.1 数据自身的三大属性

  • 客观:用数字衡量和表现一件客观事物时,能最大程度统一大家的认知

  • 量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果

    如业务推导:门店成交额=下单人数*平均客单价,知道其中两个即可推算第三个

    统计学:平均数、中位数、众数

    微积分:求导–路程-速度-加速度

  • 机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息

  • 数据图表:机器给予规则计算和展现数据

  • 数据工程:让机器替代人去7*24小时汇总和处理数据

  • 机器学习:让机器按照人设定的规则去试错尝试、求解最佳参数

1.2 建数仓 数据分析的工程技术

随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线

那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上

image-20230912112120129

  • 埋点采集

    • 传感器 :传感器通常用于测试物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,使其活起来
  • 系统日志采集方法:

    • 日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为
    • 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chkwa,Cloudera和Flume,Fackbokk的Scribe.这些工具采用分布式架构,能满足每秒数百M的日志数据采集和传输需求
  • web爬虫

    • 网络爬虫指为搜索引擎下载并存储网页的程序,它是搜索引擎和web缓存的主要的数据采集方式,通过网络爬虫或网站公开API等方式从网站上获取数据信息。
  • 传输存储(数仓)

    • 传输:借助网络

    • 存储:借助数据库技术,研究如何组织和存储数据,高效获取和处理数据是一门大学问

      ​ 其涉及了:速度、准确性、最大规模、以及数据种类

  • 提取回流(数仓/算法)

    • 提取即将数据查询到,并导出为文件
    • 回流即指数据被操作过之后,怎么会到数据库,继续参与到生产和建模
  • 清洗处理(数仓)

    • 清洗:指利用一些第三方库清洗数据,使其符合数据包准
    • 处理:使得数据符合实际的需求
  • 连接导入:

    • 即对接不同的工具和软件,涉及到各种中间件和协议
  • 分析建模(分析/算法)

    • 分析:计算,并绘制一些可视化的图表等
  • 建模

    • 即机器学习与深度学习
  • 部署应用

    • BI监控
    • 算法平台:先知
    • 工程开发

1.3 数据分析解决问题的原理

image-20230913202440176

  • 传统:问题发生----结合现实----逻辑推理----得出结论
  • 数据:问题发生----结合现实----数据映射----量化分析----得出结论

数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力

1.4 数据分析的具体流程

image-20230913202734094

  • 注意分析数据的目的:
    • 业务分析:关注数据与业务的关联性,映射关系和可解释性
    • 建模分析:关注数据的整体特征(特征决定上限,模型调参无限趋近于上限)
    • 分析的种类:
      • 计算型分析:统计学,机器学习
      • 逻辑型分析:归纳/演绎,思维模型

1.5 数据的中心化和智能化

  • 中心化

    • 当数据仓库建立完毕后,企业的数据团队基本上也搭建完毕了,但初级的数仓仍然有诸多问题

    • 跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询

    • 数据架构:数据中每个系统的开发独立维护,指标定义、数据结构、数据类型等架构标准都
      统一

    • 数据需求:字段需求无法精准有节奏地一一实现,开发说不做就不做了

    • 中心化的数据库将会统一管理企业的所有数据字段,将所有数据汇总到一个技术架构和仓库里

    • 只有一线C端的大型互联网公司才完成了数据中心的建设

      • 京东B轮的时候才进行了数仓的全面重构和中心化

      • 淘宝也是在阿里云出世后才彻底完成

      • 字节很多新增业务部依旧日无法接入数据中心

  • 智能化
    • 在完成数据中心的建设后,企业在数据征途上将挑战一个永无止境目标一一商业智能
    • 商业智能实现的四个阶段

image-20230913205626233

  • 反映现实情况

    image-20230913205906373

  • 监控关键指标

image-20230913205956112

  • 辅助决策制定

image-20230913210032249

  • 实现自动决策

image-20230913210210078

1.6 数据分析的四种类型和六个方向

image-20230913210450566

image-20230913210538301

更多推荐

安卓埋点策略+Retrofit上传埋点数据

安卓埋点在企业级安卓项目中,埋点是一项重要的技术,用于收集用户行为数据以进行分析和改进产品。以下是一个常见的安卓企业级项目开发中使用的埋点方案:定义埋点事件:首先,确定需要埋点的关键事件,如页面访问、按钮点击、数据提交等。为每个事件定义唯一的标识符或名称。埋点代码插入:在关键事件的代码位置插入埋点代码,以便在事件发生时

Windows【工具 04】WinSW官网使用说明及实例分享(将exe和jar注册成服务)实现服务器重启后的服务自动重启

官方Github;官方下载地址。没有Git加速的话很难下载,分享一下发布日期为2023.01.29的当前最新稳定版v2.12.0网盘连接。包含文件:WinSW-x64.exesample-minimal.xmlsample-allOptions.xml链接:https://pan.baidu.com/s/1sN3hL5

GaussDB OLTP 云数据库配套工具DAS

目录一、前言二、DAS的定义1、DAS的定义2、DAS功能特点三、DAS应用场景1、标准版2、企业版四、操作示例(标准版)1、登录华为控制台登录,输入账号密码2、新增数据库实例链接3、新建对象4、SQL操作5、导入导出五、小结一、前言传统的数据库管理软件,不仅需要下载安装、功能还比较单一,而且已经滞后于云服务的发展模式

让项目顺利上线:做好转测试与上线准备

转测试转测试是项目上线前最后一道坎,需求全部做完并自测后,项目就进入了转测试阶段。很多没想到的问题都会在这个阶段涌现出来,这个阶段大家都会很辛苦,通常都会加班加点。为了缓解这个阶段的压力,我们需要做以下几个改进:一、提前做测试把一些可提前做的事情放到转测试之前做。比如:UI设计师正常是在转测试后来验收视觉效果。但项目周

一文读懂SQL的增删改查(基础教程)

前言一、一些最重要的SQL命令二、查询(SELECT)1、查询所有列2、查询指定列3、查询并去重(DISTINCT)4、按条件查询where5、SQLAND&OR运算符6、SQLORDERBY关键字7、SQLLIMIT关键字8、SQLLIKE操作符9、SQLIN操作符9、SQLBETWEEN操作符三、插入(INSERT

黑马JVM总结(十七)

(1)G1_简介下面介绍一种Grabageone的垃圾回收器,在jdk9的时候称为默认的回收器,废除了之前的CMS垃圾回收器,它的内部也是并发的垃圾回收器我们可以想到堆内存过大,肯定会导致回收速度变慢,因为要涉及到对象的复制、标记,内存过大,对速度会产生影响,划分为小的区域进行管理,可以进行一些优化,标记和复制的速度在

GaussDB之应用无损透明(ALT)

1.背景GaussDB作为一款企业级分布式数据库,提供了“同城跨AZ双活、两地三中心、双集群强一致”等极致的高可用容灾能力。当某个数据库节点由于故障无法对外提供服务时,为了继续保证数据库服务的可用性,JDBC驱动会将业务后续的数据库连接请求发送到其它可用节点上。但故障发生后,已经与故障节点建立会话的连接无法自动切换到可

手撕排序之堆排序

一、概念:什么是逻辑结构、物理结构?逻辑结构:是我们自己想象出来的,就像内存中不存在一个真正的树物理结构(存储结构):实际上在内存中存储的形式。堆的逻辑结构是一颗完全二叉树堆的物理结构是一个数组之前讲过二叉树可以用两种结构进行表示。第一种就是链式结构,将一个一个结点进行链接。第二种就是用数组表示。数组表示意味着我们就是

Godot配置C#语言编写脚本(使用VSCode作为外部编辑器)

文章目录Godot部分查看VSCode的所在位置配置外部编辑器配置VSCode编写脚本中文注释其他文章字符编码Godot部分打开编辑器-编辑器设置;查看VSCode的所在位置右键单击你的VScode快捷方式,选择属性。这里的目标就是你的VSCode所在的位置。配置外部编辑器在编辑器设置里找到.NET-编辑器-Exter

全国职业技能大赛云计算--高职组赛题卷②(容器云)

全国职业技能大赛云计算--高职组赛题卷②(容器云)第二场次题目:容器云平台部署与运维任务1DockerCE及私有仓库安装任务(5分)任务2基于容器的web应用系统部署任务(15分)任务3基于容器的持续集成部署任务(15分)任务4Kubernetes容器云平台部署与运维(15分,本任务只公布考试范围,不公布赛题)需要环境

全国职业技能大赛云计算--高职组赛题卷⑤(私有云)

全国职业技能大赛云计算--高职组赛题卷⑤(私有云)第一场次题目:OpenStack平台部署与运维任务1基础运维任务(5分)任务2OpenStack搭建任务(15分)任务3OpenStack云平台运维(15分)任务4OpenStack云平台运维开发(15分,本任务只公布考试范围,不公布赛题)需要环境私信博主!!!第一场次

热文推荐