Flink中的批和流

2023-09-13 16:28:02

批处理的特点是有界、持久、大量,非常适合需要访问全部记录才能完成的计算工作,一般用于离线统计。
流处理的特点是无界、实时, 无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。
而在Flink中,一切都是由流组成的,Flink认为有界数据集是无界数据流的一种特例,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。
无界流:意思很明显,只有开始没有结束。必须连续的处理无界流数据,也即是在事件注入之后立即要对其进行处理。不能等待数据到达了再去全部处理,因为数据是无界的并且永远不会结束数据注入。处理无界流数据往往要求事件注入的时候有一定的顺序性,例如可以以事件产生的顺序注入,这样会使得处理结果完整。
有界流:也即是有明确的开始和结束的定义。有界流可以等待数据全部注入完成了再开始处理。注入的顺序不是必须的了,因为对于一个静态的数据集,我们是可以对其进行排序的。有界流的处理也可以称为批处理。

实时数仓
数据的额实时清晰,归并,结构化
数仓的补充和优化
实时监控
对用户行为或相关事件进行实时监测和分析,基于风控规则进行预警
用户行为预警,app crasn预警,服务器攻击预警
实时报表
双11,双12等活动直播大屏
对外数据产品,生意参谋等
数据化运营
流数据分析
实时计算相关指标反馈及时调整决策
内容投放,无线智能推送,实时个性化推荐等;

更多推荐

【JavaEE】多线程(一)

多线程(一)文章目录多线程(一)进程操作系统进程PCB属性进程的状态进程的优先级进程的上下文CPU寄存器进程的记账信息虚拟地址空间线程线程与进程的区别Java进行多线程编程在了解多线程之前,我们先聊聊进程进程而了解进程前,我们还需聊聊操作系统~操作系统简单来理解就是搞管理的软件。对下:管理好各种硬件设备对上:要给应用程

什么是HTML5中的Web存储API,包括LocalStorage和SessionStorage?它们的区别是什么?

聚沙成塔·每天进步一点点⭐专栏简介⭐Web存储API和区别⭐LocalStorage(本地存储)⭐SessionStorage(会话存储)⭐区别⭐写在最后⭐专栏简介前端入门之旅:探索Web开发的奇妙世界欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的

机器学习——贝叶斯(三种分布)/鸢尾花分类分界图/文本分类应用

0、前言:机器学习中的贝叶斯的理论基础是数学当中的贝叶斯公式。这篇博客强调使用方法,至于理论未作深究。机器学习中三种类型的贝叶斯公式:高斯分布(多分类)、多项式分布(文本分类)、伯努利分布(二分类任务)贝叶斯算法优点:对小规模数据表现好,能处理多分类任务,常用于文本分类。缺点:只能用于分类问题。1、高斯分布的贝叶斯算法

长安汽车:基于云器Lakehouse一体化数据平台,建立智能互联时代的领先优势丨案例研究

长安汽车智能化研究院是中国长安汽车集团有限责任公司旗下专注于汽车智能化技术研究和创新的研发机构。其愿景是通过持续创新和技术突破,实现汽车智能驾驶、智能网联和智能交通的全面发展,提供更安全、更便捷、更智能的出行体验,并成为中国汽车智能化领域的领军企业。智能化是汽车工业发展近百年来对汽车功能的一次重新定义,它旨在利用大数据

利用python工具提取多个word中的图片和表格

1.前言由于工作因素,经常要对多个文档内容进行查重,文字类可以借助查重工具辅助,但图片和表格只能依靠鼠标滚轮还有笔者的打工眼。久而久之,眼睛废了,肩颈也吃不消了(-.-)。于是乎,就想用脚本批量导出,从而提高效率。笔者非软件专业,所以只能请ChatGPT当导师了,经过多次修改,总算达到了预期效果。大佬们如果有更好的办法

基于STM32设计的温室大棚种植监测系统(onenet+GPRS通信)

一、设计简述基于STM32设计的温室大棚种植监测系统(OneNet+GPRS通信)1.1设计需求随着社会经济的快速发展和人们对食品质量安全的日益关注,温室大棚越来越受到人们的青睐。温室大棚可以提供良好的生长环境,使得蔬菜、水果等植物获得更好的生长条件,从而提高产量和质量。然而,在温室大棚内,温度、湿度、二氧化碳含量、光

肖sir___环境的讲解__001

环境的讲解一、搭建环境此测试环境主要用于功能测试、寻找bug、编写后台测试点、熟悉环境的架构,搭建流程二、搭建多有米前后台所需要的工具包1、虚拟机(centos6.5)2、数据库3、代码包4、服务器5、数据库脚本6、jdk三、搭建测试环境实战1、将本地的服务器上传到linux中,并解压tar-zxvf服务器包名2、上传

利用cms主题构造木马(CVE-2022-26965)

简介CVE-2022-26965是PluckCMS4.7.16版本存在一个远程shell上传执行漏洞。攻击者可利用此漏洞通过构造恶意的主题包进行上传并执行,未经授权访问服务器,造成潜在的安全隐患。过程1.打开环境,查看源码,发现login.php2.进入查看,登陆页面,弱口令admin进行登录,全英文界面,可以翻译的哈

Hyperopt:分布式异步超参数优化(Distributed Asynchronous Hyperparameter Optimization)

1、概述在深度学习的训练模型过程中,参数的优化是一个比较繁琐的过程,一般使用网格搜索Gridsearch与人工搜索Manualsearch,所以这个参数优化有时候看起来就像太上老君炼丹,是一个有点玄的东西。那有没有一种可以自动去调优的工具呢?恩,本节介绍的这个Hyperopt工具就是这个用途。Hyperopt是一个Py

下一代实时数据库:Apache Doris 【一】简介

文章目录第1章Doris简介1.1Doris概述1.2Doris架构后记第1章Doris简介1.1Doris概述ApacheDoris由百度大数据部研发(之前叫百度Palo,2018年贡献到Apache社区后,更名为Doris),在百度内部,有超过200个产品线在使用,部署机器超过1000台,单一业务最大可达到上百TB

下一代实时数据库:Apache Doris 【二】编译与安装

文章目录第2章编译与安装2.1安装Docker环境2.2使用Docker开发镜像编译后记第2章编译与安装安装Doris,需要先通过源码编译,主要有两种方式:使用Docker开发镜像编译(推荐)、直接编译。直接编译的方式,可以参考官网:https://doris.apache.org/zh-CN/installing/c

热文推荐