StarRocks 社区:从初生到两周年的进化之路

2023-09-20 16:48:56

2021 年 9 月 8 日,StarRocks 开源社区诞生。从第一天开始,我们怀揣着“打造世界一流的数据分析产品”的梦想,踏上了星辰大海的征途。 两年间,StarRocks 在 GitHub 上收获了 5.4K Stars,产品共迭代发布了 90 余个版本,288 家市值超过 10 亿美元的头部用户在生产环境中上线运行。“不止步于极速”,StarRocks 更是在短短一年内完成了从全场景 OLAP 分析进化到云原生湖仓分析的进化。

StarRocks 突飞猛进的发展都要得力于社区用户的使用反馈和开发者们不断地帮 StarRocks 添砖加瓦,使其生态体系更加完善。在过去一年内,StarRocks 发布了 v2.5、v3.0、v3.1 三个重大的里程碑版本,其中存算分离、湖仓分析、物化视图等重量级特性, 为极速统一湖仓分析新范式的落地奠定了坚实基础。 alt

进化,永不止步

从诞生之初,StarRocks 就不断在探索关于“极速统一”之道。全面向量化引擎、CBO 查询优化器、实时更新数据模型、Pipeline 执行引擎相继发布,将 OLAP 分析性能提升到了新的高度,也引领了当前大数据分析的发展趋势。 随着各项重要功能历经 2 年、近 300 家各行业头部用户在生产环境中的打磨与完善,StarRocks 完成从 OLAP 到云原生湖仓的快速进化,通过湖仓一体让企业能基于一份数据,满足 BI 报表、多维分析、Ad-hoc 查询、实时分析等不同场景的数据分析需求, StarRocks 往 "One data,all analytics" 的目标不断前行。

湖仓一体化极速查询引擎

Presto/Trino/Impala 一直以来都是行业最好的数据湖(Hive/Hudi/Iceberg/Deltalake 等)查询引擎。但是其性能无法和将数据导入到 ClickHouse 或是 StarRocks 此类极速 OLAP 数据库/数仓相媲美,用户通常会组合使用,运维和使用都会比较复杂,StarRocks 期望彻底改变这种“组合”模式,推出更一体化的方案。StarRocks 的湖仓一体化极速查询引擎的理念是可以同时极速查询数据湖数据和 StarRocks 本地数据。从 StarRocks 2.0 到 StarRocks 3.0 版本, 经过一年半的时间和 7 个大版本的持续打磨,StarRocks 终于发布了业内第一个成熟完善的湖仓一体化极速查询引擎,让数据湖查询和本地数据查询基本持平,并且数据湖查询达到了 Presto/Trino/Impala 等系统的 3-6 倍以上的性能水平。

基于物化视图(MV)的轻量化数据建模

当前数据工程师进行数据建模时,需要通过预先构建大量 ETL 任务来生成 ODS/DWD/DWS/ADS 数据表。这种数据建模方法比较重,周期长,而且会存在很多无用 ETL。StarRocks 基于 MV 的轻量化数据建模方法提供了全新模式,将逻辑建模与物理建模分离:

  1. 无需预先大量 ETL,只需要用 view 来建立各层数据模型,快速交付 view 给业务查询使用
  2. 在业务查询使用中,随需创建多表/单表 MV 实现透明查询加速

业内 Clickhouse、Doris、Snowflake 等打造了比较好的单表 MV,缺乏完善的多表 MV 支持,不足以支持轻量级数据建模方法的落地。StarRocks 在 2.4 版本发布了多表 MV,之后经过 12 个月的时间和三个版本—— StarRocks 2.5、 StarRocks 3.0 和 StarRocks 3.1 版本的打磨,已经成为业内第一个可以同时支持复杂查询、数据湖外表和异步构建的多表 MV,可以很好的支持轻量化建模方法落地,成为用户针对数据建模和 ETL 进行降本增效的大杀器。

此外,物化视图也成为 StarRocks 3.0 的核心功能,物化视图通过声明式的方式降低了传统 ETL 中 Transform 的复杂度,通过外表物化视图可以无缝连接湖仓,通过查询改写可以透明加速,通过 spill 和分区增量刷新可以进行稳定的物化视图构建和细粒度的物化视图刷新策略。帮助用户的湖仓建模更容易。

极简存算分离架构

Snowflake 打造出了全球最好的存算分离架构,让很多云服务用户受益匪浅。但是其架构组件复杂,无法简单部署到用户的各类私有化环境。StarRocks 在存算分离上的创新初心是打破这种限制,让任何社区用户都可以将存算分离架构轻松部署到各类私有环境,获取更多降本增效的收益。StarRocks 3.0 版本发布的全新极简存算分离架构,基于原创的云原生操作系统 StarOS,整个新架构只有 FE 和 CN 两个模块,无需任何外部组件依赖,部署运维和非存算分离版本一样简单,性能一样出色。用户可以随时随地部署使用 StarRocks 存算分离架构,实现降本增效。

更加引人注目的是,3.0 版本的存算分离架构不仅学习了 Snowflake 的优点,通过内置的 StarOS,StarRocks 实现了完全无需外部组件的部署,大大简化了用户的操作。让用户在各种云上云下的环境都可以通过存算分离架构来接口存储介质,提升更好的弹性能力,实现多 AZ 甚至多云的高可用能力。大量用户的实践也证明了 StarRocks 存算分离架构已经走向成熟,将逐渐变成 StarRocks 的默认架构。

产品能力进化时间线

alt

一文了解 StarRocks 物化视图、湖仓分析和存算分离: 重新定义物化视图,你必须拥有的极速湖仓神器! 当打造一款极速湖分析产品时,我们在想些什么 兼顾降本与增效,我们对存算分离的设计与思考

进化,不止代码

创建一个健康的开源项目需要整个社区的共同协作,在开源生态系统中,每个参与者都有机会塑造和改进软件,用户可以识别所需功能并贡献代码或用户案例。只有当整个社区和相关社区积极参与时,一个开源项目才能成功发展为一个繁荣的生态系统,这包括代码贡献者、用户、文档编写者、软件和平台供应商以及集成者等各方。

StarRocks 社区始终相信开放协作的力量,信奉 “Code is power. Community is strength. And Openness is everything. ”。代码是改变世界的力量,社区给了我们无限的可能,而这一切都只有通过开放才能实现。StarRocks 社区的价值观具体体现在:

  • 对极速统一的云原生湖仓一体技术的持续探索:用户能更快、更低成本且更简单地在海量数据中挖掘数据的价值,助力业务成功。

  • 与用户共同成长,彼此成就:建立产品文档、新手教程、产品特性解析、FAQ 、最佳实践和丰富的用户案例知识库,并且通过 StarRocks 城市行、开源集市、线上线下会议和微信/Slack/GitHub 等渠道与用户零距离交流。 alt

  • 开放生态,无缝衔接上下游组件:2022 年底,StarRocks 项目正式捐献给 Linux 基金会,更加中立、开放;并与开放的数据生态产品,如 Apache Flink、Apache SeaTunnel、Apache Paimon、Apache Hudi、Apache Icerberg 等社区共建现代数据栈。 alt

蓬勃发展的用户社区

StarRocks 发展至今已有超过 288 家估值超过 10 亿美元的行业头部用户。这些用户遍布各行业,许多用户也在使用 StarRocks 后积极向社区分享了使用场景和实践经验。以下是一些具有代表性的用户案例:

互联网:芒果 TV滴滴万物新生贝壳同程旅行得物小红书携程美团餐饮 SaaS360微信 物流:顺丰跨越速运京东物流达达 金融:中信建投中欧财富众安保险中原银行信也科技 游戏:波克城市37 手游腾讯游戏游族网络 汽车: 理想汽车蔚来汽车、吉利汽车首汽约车汽车之家 制造/零售:大润发华润万家TCL华米科技百草味

完整的用户案例合集请见 StarRocks 公众号“StarRocks 用户案例合集” 和 StarRocks B 站

深度参与社区共建的伙伴

StarRocks 各个代码仓库下已有超过 300 名贡献者,其中有许多人贡献了文档、函数、connector、周边生态等功能。我们由衷感谢每一位为 StarRocks 贡献力量的朋友们。特别要感谢以下深度参与社区的伙伴们,他们为 StarRocks 提供了备受用户欢迎的重要特性。 alt

最后,感谢每一位为 StarRocks 添砖加瓦的小伙伴们:https://github.com/StarRocks/starrocks/graphs/contributors

总结与展望

过去的一年对于 StarRocks 来说是至关重要的一年,我们在产品、用户规模和社区治理模式方面不断进化,取得了飞跃式的成长。

  • 产品:从原本的 OLAP 分析引擎到现在的湖仓一体,再从存算一体到存算分离,StarRocks 已发展成为极速统一云原生湖仓分析的新范式
  • 用户规模:经过短短一年的时间,我们从千人规模的社区成长为超过万人的社区,拥有来自世界各地的众多知名用户积极参与并支持 StarRocks
  • 社区治理:StarRocks 的社区治理也越来越开放,更多开发者能通过不同的兴趣小组(SIG)参与研发工作 ,专家们能加入技术指导委员会(TSC, Technical Steering Committee)参与 StarRocks Roadmap 的制定和培养社区优秀人才

未来, StarRocks 社区也将保持着合作、开放、共赢的信念,与用户们一同探索新一代的云原生湖仓,共同打造极速统一湖仓分析的新范式!让我们期待更加精彩的下一周年!

本文由 mdnice 多平台发布

更多推荐

python文件(概念、基本操作、常用操作、文本文件的编码方式)

嗨喽,大家好呀~这里是爱看美女的茜茜呐👇👇👇更多精彩机密、教程,尽在下方,赶紧点击了解吧~python源码、视频教程、插件安装教程、资料我都准备好了,直接在文末名片自取就可1.文件的概念1.1文件的概念和作用计算机的文件,就是存储在某种长期储存设备上的一段数据长期存储设备包括:硬盘、U盘、移动硬盘、光盘…文件的作

清水模板是什么材质?

清水模板是建筑施工中常用的一种模板,用于浇筑混凝土结构的形成和支撑。它是指没有进行任何装饰和涂层处理的模板,通常由木材制成,如胶合板、钢模板等。下面是关于清水模板的详细介绍。清水模板的材质多样,其中最常见的是胶合板。胶合板是由多层薄木板通过交错堆叠、胶合而成的板材。由于其具有较高的强度、稳定性和耐久性,因此在建筑施工中

Java-根据模板生成PDF

文章目录前言一、准备模板二、代码实现三、源代码总结前言在有些场景下我们可能需要根据指定的模板来生成PDF,比如说合同、收据、发票等等。因为PDF是不可编辑的,所以用代码直接对PDF文件进行修改是很不方便的,这里我是通过itext和AdobeAcrobat来实现的,以下就是具体实现方法。一、准备模板AdobeAcroba

这些PLC串口通讯和通讯接口知识,你都了解吗?

在使用PLC的时候会接触到很多的通讯协议以及通讯接口,最基本的PLC串口通讯和基本的通讯接口你都了解吗?一、什么是串口通讯?串口是一种接口标准,是计算机上一种非常通用设备通信的协议。它规定了接口的电气标准,没有规定接口插件电缆以及使用的协议。典型的串口通讯标准常见有如下三种。EIARS232(通常简称“RS232”):

【视觉SLAM入门】7.4.后端优化 --- 基于位姿图和基于因子图

"议论平恕,无所向背”1.位姿图1.1具体做法1.2小结2.因子图2.1具体做法2.1.1贝叶斯网络2.1.2因子图2.1.3更具体的因子图2.1.4增量的求解方法引入:上节BA将位姿和路标都作为优化的节点,H矩阵也告诉我们路标远大于位姿,时长会导致资源等问题。办法:滑动窗口法:保持H固定大小,丢弃历史位姿图:不管路标

【Linux】 OpenSSH_7.4p1 升级到 OpenSSH_9.3p1(亲测无问题,建议收藏)

👨‍🎓博主简介🏅云计算领域优质创作者🏅华为云开发者社区专家博主🏅阿里云开发者社区专家博主💊交流社区:运维交流社区欢迎大家的加入!🐋希望大家多多支持,我们一起进步!😄🎉如果文章对你有帮助的话,欢迎点赞👍🏻评论💬收藏⭐️加关注+💗文章目录文章声明前述安装一些必要的命令(需要用到的)Centos服务

VUE3写后台管理(3)

VUE3写后台管理(3)1.环境1.node2.vite3.Element-plus4.vue-router5.elementicon6.less7.vuex8.vue-demi9.mockjs10.axios11.echarts2.首页1.布局Main2.头部导航栏CommonHeader3.左侧菜单栏CommonL

【半监督光谱退化约束网络:Spectral Super-Resolution】

SemisupervisedSpectralDegradationConstrainedNetworkforSpectralSuper-Resolution(基于半监督光谱退化约束网络的光谱超分辨)最近,已经设计了各种基于深度学习的方法来提高多光谱图像(MSI)的光谱分辨率以获得高光谱图像(HSI)。这些方法通常依赖于

深入实现 MyBatis 底层机制的任务阶段2 - 编写执行器与数据库操作

😀前言本文将继续深入研究自己实现MyBatis底层机制的过程,特别关注任务阶段2-编写执行器与数据库操作。这个任务阶段是自定义MyBatis底层机制的关键一步,它涵盖了执行器的创建和SQL查询操作的实现,为我们的自定义框架提供了重要的数据库操作功能。.在本文中,我们将详细探讨如何编写执行器,如何输入SQL语句,并完成

通信方向预推免经验贴

文章目录背景墙投递选项预推免分析背景墙自己拿到东南移动通信方向1W+引牛导学硕,拒绝了浙大直博之后就变的非常佛系~~其实自己也不知道选择做的对不对,浙大导人品非常好,和蔼可亲,国外资源也挺充足,科研水平是华五比较厉害的副教授范畴,自己感觉是拒绝了人生的另外一种可能性。如果是为了华五文凭,跨界转行的话,似乎自己人生可能会

腾讯云阿里云云服务器 Linux 操作系统 BT 宝塔面板快速建站教程

宝塔面板概述宝塔面板是一款服务器管理软件,支持Windows和Linux系统,可以通过Web端轻松管理服务器,提升运维效率。总体来说,宝塔面板具有操作简单、功能丰富、安全可靠等特点,是一款非常实用的服务器管理软件。宝塔面板官方网站:https://www.bt.cn/宝塔面板特点1.提供了可视化文件管理器和资源监控图表

热文推荐