spark 精华总结

2023-09-16 20:45:32
面试题: Hadoop 的基于进程的计算和 Spark 基于线程方式优缺点?
答案: Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没
有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加
载到每个map task中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行
单位,但缺点是线程之间会有资源竞争。
【扩展阅读】:线程基本概念
线程是 CPU 的基本调度单位
一个进程一般包含多个线程 , 一个进程下的多个线程共享进程的资源
不同进程之间的线程相互不可见
线程不能独立执行
一个线程可以创建和撤销另外一个线程
速度快
由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比
Hadoop的MapReduce快100倍,在硬盘中要快10倍
Spark 处理数据与 MapReduce 处理数据相比,有如下两个不同点:
其一、 Spark 处理数据时,可以将中间处理结果数据存储到内存中;
其二、 Spark 提供了非常丰富的算子 (API), 可以做到复杂任务在一个 Spark 程序中完成
易于使用
Spark 的版本已经更新到 Spark 3.2.0(截止日期2021.10.13),支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。为了
兼容Spark2.x企业级应用场景,Spark仍然持续更新Spark2版本。
通用性强
在 Spark 的基础上,Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,我们可以在一个应用中无缝
地使用这些工具库
Spark Core Spark 的核心, Spark 核心功能均由 Spark Core 模块提供,是 Spark 运行的基础。 Spark Core RDD 为数据抽象,提供 Python Java
Scala R 语言的 API ,可以编程进行海量离线数据批处理计算。
SparkSQL :基于 SparkCore 之上,提供结构化数据的处理模块。 SparkSQL 支持以 SQL 语言对数据进行处理, SparkSQL 本身针对离线计算场景。同
时基于 SparkSQL Spark 提供了 StructuredStreaming 模块,可以以 SparkSQL 为基础,进行数据的流式计算。
SparkStreaming :以 SparkCore 为基础,提供数据的流式计算功能。
MLlib :以 SparkCore 为基础,进行机器学习计算,内置了大量的机器学习库和 API 算法等。方便用户以分布式计算的模式进行机器学习计算。
GraphX :以 SparkCore 为基础,进行图计算,提供了大量的图计算 API ,方便用于以分布式计算模式进行图计算。
Spark提供多种运行模式,包括:
本地模式(单机)
本地模式就是以一个 独立的进程 ,通过其内部的 多个线程来模拟 整个Spark运行时环境
Standalone模式(集群)
Spark中的各个角色以 独立进程 的形式存在,并组成Spark集群环境
Hadoop YARN模式(集群)
Spark中的各个角色 运行在 YARN 的容器内部 ,并组成Spark集群环境
- Kubernetes模式(容器集群)
Spark中的各个角色 运行在 Kubernetes 的容器内部 ,并组成Spark集群环境
- 云服务模式(运行在云平台上)
更多推荐

【小沐学CAD】虚拟仿真开发工具:GL Studio

文章目录1、简介2、软件功能3、应用行业3.1航空3.2汽车3.3防御3.4工业3.5电力与能源3.6医疗3.7空间3.8科技结语1、简介https://disti.com/gl-studio/https://ww2.mathworks.cn/products/connections/product_detail/gl

C语言——贪吃蛇小游戏

目录一、ncurse1.1为什么需要用ncurse:1.2ncurse的输入输出:1.2.1如何使用ncurse:1.2.2编译ncurse的程序:1.2.3测试输入一个按键ncurse的响应速度:1.3ncurse上下左右键获取:1.3.1如何查看宏定义的.h文件:1.3.2ncurse上下左右键获取:二、地图规划2

github一些有趣的使用场景和基本使用方法

文章目录github的使用入门安装Git创建GitHub帐户在本地设置Git克隆仓库进行修改和提交推送更改拉取更新删除Github上废弃的仓库注意github更多有趣的使用场景协作和社交编程文档和知识库学习和教育自动化工作流程数据科学和可视化用来写blogGitHubPagesJekyllHexo第三方集成开发者简历插

eNSP网络学习

一、eNSP1.什么是eNSPeNSP(EnterpriseNetworkSimulationPlatform)是一款由华为提供的免费的、可扩展的、图形化操作的网络仿真工具平台,主要对企业网络路由器、交换机进行软件仿真,完美呈现真实设备实景,支持大型网络模拟,让广大用户有机会在没有真实设备的情况下能够模拟演练,学习网络

ELK部署

一,elk提供了一个分布式多用户能力的全文搜索分析引擎,能对各种类型的数据进行近实时的索引和查询,支持高可用和水平扩展性。作用:1.将日志进行集中化管理2.将日志格式化_(ogstash)并输出到Elasticsearch3.对格式化后的数据进行索引和存储(Elasticsearch)4.前端数据的展示(Kibana)

使用自定义XML配置文件在.NET桌面程序中保存设置

本文将详细介绍如何在.NET桌面程序中使用自定义的XML配置文件来保存和读取设置。除了XML之外,我们还将探讨其他常见的配置文件格式,如JSON、INI和YAML,以及它们的优缺点和相关的NuGet类库。最后,我们将重点介绍我们为何选择XML作为配置文件格式,并展示一个实用的示例。1.背景在.NET桌面程序中,通常使用

Quartz.NET,强大的开源作业调度框架

Quartz.NET是一个强大的开源作业调度框架,专为C#和.NET开发而设计。它允许开发人员在应用程序中调度、执行和管理各种类型的作业,例如定时任务、后台作业、周期性作业等。Quartz.NET具有高度可配置性和灵活性,可以满足各种复杂的调度需求。**作用:**Quartz.NET的作用在于简化作业调度的实现并提供可

高防CDN如何保护电商平台的在线支付系统安全

高防CDN如何保护电商平台的在线支付系统安全?随着移动互联网的快速发展,越来越多的用户选择在手机上进行购物和支付。这种形式的便利性和灵活性推动了电商平台的发展,但同时也给电商平台的安全带来了新的挑战。尤其是在线支付系统,由于其涉及用户的金融信息,成为黑客攻击的重点目标。为了保护电商平台的在线支付系统安全,选择合适的高防

案例实践丨基于SkyWalking全链路监控的微服务系统性能调优实践篇

1背景随着开源社区和云计算的快速推进,云原生微服务作为新型应用系统的核心架构,得到了越来越广泛的应用。根据Gartner对微服务的定义:“微服务是范围狭窄、封装紧密、松散耦合、可独立部署且可独立伸缩的应用程序组件。”微服务之父,马丁.福勒,对微服务概述如下:就目前而言,对于微服务业界并没有一个统一的、标准的定义。但通常

Unity 开发人员转CGE(castle Game engine)城堡游戏引擎指导手册

Unity开发人员的城堡游戏引擎概述一、简介2.Unity相当于什么GameObject?3.如何设计一个由多种资产、生物等组成的关卡?4.在哪里放置特定角色的代码(例如生物、物品)?Unity中“向GameObject添加MonoBehaviour”相当于什么?5.Unity子目录相当于什么Assets?6.支持哪些

git基本使用

一、Git简介Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。Git易于学习,占地面积小,性能极快。它具有廉价的本地库,方便的暂存区域和多个工作流分支等特性。其性能优于Subversion、CVS、Perforce和ClearCase等版本控制工具。1.版本控制的三个阶段版本控制

热文推荐