spark介绍（spark的用处）

by intanet.cn ca 大数据 on 2024-03-20

本篇文章给大家谈谈spark介绍，以及spark的用处对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、spark几种部署模式，每种模式特点及搭建
2、spark安装与运行模式
3、大疆晓Spark的介绍
4、apache spark是什么意思？
5、大疆晓Spark的介绍有哪些特色？
6、Spark的四种运行模式

spark几种部署模式，每种模式特点及搭建

下面对集中部署模式进行详细介绍

该模式运行任务不会提交在集群中，只在本节点执行，有两种情况

运行该模式非常简单，只需要把Spark的安装包解压后，改一些常用的配置即可使用，而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时，州拿才需要这两个角色)，也不用启册喊搭动Hadoop的各服务（除非你要用到HDFS）。

Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地单机模式分三类：

搭建步骤：

（中间有报错：raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)

pyspark.sql.utils.IllegalArgumentException: u'Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.'，网上提示查看jdk版本，发现ubuntu 18.04默认是openjdk-11-jdk包(java -version提示10.0.1)。重新安装openjdk-8-jdk版本不报错）

运行：

使用spark-shell、spark-submit、pyspark

例如使用spark-shell：

local：单机、单核运行

local[k]:启动k个executor

local[ ]：启动跟cpu数目相同的 executor*

上述情况中，local[N]与local[*]相当于用单机的多个线程来模拟spark分布式计算，通常用来检验开发出来的程序逻辑上有渗槐没有问题。

其中N代表可以使用N个线程，每个线程拥有一个core。

这些任务的线程，共享在一个进程中，可以开到，在程序的执行过程中只会产生一个进程，这个进程揽下了所有的任务，既是客户提交任务的client进程，又是spark的driver程序，还是spark执行task的executor

这种运行模式，和Local[N]很像，不同的是，它会在单机启动多个进程来模拟集群下的分布式场景，而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题，或者想使用Spark的计算框架而没有太多资源。

用法：提交应用程序时使用local-cluster[x,y,z]参数：x代表要生成的executor数，y和z分别代表每个executor所拥有的core和memory数。

上面这条命令代表会使用2个executor进程，每个进程分配3个core和1G的内存，来运行应用程序。可以看到，在程序执行过程中，会生成如下几个进程：

spark安装与运行模式

Spark 的运行模式有 Local(也称单节点模式），Standalone(集群模式），Spark on Yarn(运行在Yarn上），Mesos以及K8s等常用模式，本文介绍前三种模式。

Spark-shell 参数

Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上，也可以通过Spark-submit提交指定运用程序，Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的，通过- -help 查看参数：

sparkconf的传入有三种方式：

1.通过在spark应用程序开发的时候用set()方法进行指定

2.通过在spark应用程序提交的时候用过以上参数指定，一般使用此种方式，因为使用较为灵活

3.通过配置spark-default.conf，spark-env.sh文件进行指定，此种方式较shell方式级别低

Local模式

Local 模式是最简单的一种Spark运行方式，它采用单节点多线程（cpu)方式运行，local模式是一种OOTB（开箱即用）的方式，只需要在spark-env.sh导出JAVA_HOME,无需其他任何配置即可使用，因而常用于开发和学习

方式：./spark-shell - -master local[n] ，n代表线程升哗族数

Standalone模式

Spark on Yarn

on Yarn的俩种模式

客户端的Driver将应用提交给Yarn后，Yarn会先后启动ApplicationMaster和excutor,另外ApplicationMaster和executor都装在在container里运行，container默认的内存是1g，ApplicationMaster分配的内存是driver-memory,executor分配的内存是executor-memory.同时，因为Driver在客户端，所以程序的运行结果可以在客户端显示，Driver以进程名为SparkSubmit的形式存在。

Cluster 模式

1.由client向ResourceManager提交请求，并上传Jar到HDFS上

这期间包括吵弊四个步骤:

a).连接到RM

b).从RM ASM(applicationsManager)中获得metric，queue和resource等信息。

c).upload app jar and spark-assembly jar

d).设置运行环境和container上下文

2.ResourceManager向NodeManager申请资源，创建Spark ApplicationMaster（每个SparkContext都有一个ApplicationManager）

3.NodeManager启动Spark App Master，并向ResourceManager ASM注册

4.Spark ApplicationMaster从HDFS中找到jar文件，启动DAGScheduler和YARN Cluster Scheduler

5.ResourceManager向ResourceManager ASM注册申请container资源(INFO YarnClientImpl: Submitted application)

6.ResourceManager通知NodeManager分配Container，这是可以收到来自ASM关于container的报告。(每个container的对应一个executor)

7.Spark ApplicationMaster直接和container(executor)进行交互，完成这个分布式任务。

进芦樱入spark安装目录下的conf文件夹

[atguigu@hadoop102 module] mv slaves.template slaves

[atguigu@hadoop102 conf] vim slaves

hadoop102

hadoop103

hadoop104

4）修改spark-env.sh文件，添加如下配置：

[atguigu@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102

SPARK_MASTER_PORT=7077

5）分发spark包

[atguigu@hadoop102 module] sbin/start-all.sh

注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：

export JAVA_HOME=XXXX

官方求PI案例

spark-submit

--class org.apache.spark.examples.SparkPi

--master spark://server-2:7077

--executor-memory 1G

--total-executor-cores 2

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

spark-shell

--master spark://server-2:7077

--executor-memory 1g

--total-executor-cores 2

spark-shell --master spark://server-2:7077 --executor-memory 1g --total-executor-cores 2

参数：--master spark://server-2:7077 指定要连接的集群的master

Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。

yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出

yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AP（APPMaster）适用于生产环境。

安装使用

1）修改hadoop配置文件yarn-site.xml,添加如下内容：

2）修改spark-env.sh，添加如下配置：

[atguigu@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3）分发配置文件

[atguigu@hadoop102 conf] xsync spark-env.sh

4）执行一个程序

spark-submit

--class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode client

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

注意：在提交任务之前需启动HDFS以及YARN集群。

日志查看

修改配置文件spark-defaults.conf

添加如下内容：

spark.yarn.historyServer.address=server-2:18080

spark.history.ui.port=18080

2）重启spark历史服务

[atguigu@hadoop102 spark] sbin/start-history-server.sh

starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-atguigu-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3）提交任务到Yarn执行

spark-submit

--class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode client

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

大疆晓Spark的介绍

看一下大疆晓Spark无人机的正面，一个灵活的平台式摄像头展现在我们面前，这个摄像头可以清晰捕捉视野内的一切物体，非常强大。

将大疆晓Spark无人机转到后边，可以看到是充电孔可电源键及指示灯，我们可以为它进行充电。

转到多功能手柄，我们先给个特写，可以看出这款手柄支持手机槽，可以将手机放到手柄上，达到“合体”效果。

来看一下桥野多功能手柄的正面照，我们可以看到手柄上布满了各种指示无人机运动和操作的按键，有录像，启停，拍照，降落，前后左右上下，应有尽有。

大敏稿喊疆晓Spark无人机的护翼架，这个需要朋友们额外采购，不过这个东东很不错，有了它，新手朋友们就不容易因为控制不好撞墙导致机翼损坏了。

大疆晓Spark无人机支持手机互联，大家可敬禅以用手机下载大疆的APP，然后按照默认步骤连接无人机就可以了。是不是很酷呢，快来一起实践吧。

[img]

apache spark是什么意思？

n.火花燃做敬;火星;电火花;(指皮慎品质或感情)一星，丝毫，一丁胡裂点。

averysmallburningpieceofmaterialthatisproducedbysththatisburningorbyhittingtwohardsubstancestogether。

Asparkisatinybrightpieceofburningmaterialthatfliesupfromsomethingthatisburning.

Asparkofaqualityorfeeling,especiallyadesirableone,isasmallbutnoticeableamountofit.一站式出国留学攻略

大疆晓Spark的介绍有哪些特色？

1、看一下大疆晓Spark无人机的正面

2、将大疆晓Spark无人机转到后边

3、转到多功能手柄键弯

4、来看一下多功能手柄的正面照举棚

5、大疆稿答闷晓Spark无人机的护翼架

6、大疆晓Spark无人机支持手机互联

Spark的四种运行模式

介绍

本地模式

Spark单机运行，一般用于开发测试。

Standalone模式

构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。

Spark on Yarn模式

Spark客户端直接连接Yarn。不需要额外构建Spark集群。

Spark on Mesos模式

Spark客户端直接连接Mesos。不需要额外构建Spark集群。

启动方式: spark-shell.sh(Scala)

spark-shell通过不同的参数控制采用何种模式进行。涉及两个参数：羡汪

对于Spark on Yarn模式和Spark on Mesos模衡纯式还可以通过 –deploy-mode参数控制Drivers程序的启动位置。

进入本地模式：

进入Standalone模式：

备注：测兄拦仔试发现MASTER_URL中使用主机名替代IP地址无法正常连接(hosts中有相关解析记录)，即以下命令连接不成功：

./spark-shell --master spark://ctrl:7077 # 连接失败

Spark on Yarn模式

备注：Yarn的连接信息在Hadoop客户端的配置文件中指定。通过spark-env.sh中的环境变量HADOOPCONFDIR指定Hadoop配置文件路径。

Spark on Mesos模式：

启动方式: pyspark(Python)

参数及用法与Scala语言的spark-shell相同，比如：

关于spark介绍和spark的用处的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

javajsonpath的简单介绍 dockerk8s（dockerk8s集群环境搭建）

spark介绍（spark的用处）

spark几种部署模式，每种模式特点及搭建

spark安装与运行模式

大疆晓Spark的介绍

apache spark是什么意思？

大疆晓Spark的介绍有哪些特色？

Spark的四种运行模式

最近发表

文章归档

标签列表

spark介绍（spark的用处）

spark几种部署模式，每种模式特点及搭建

spark安装与运行模式

大疆晓Spark的介绍

apache spark是什么意思？

大疆晓Spark的介绍 有哪些特色？

Spark的四种运行模式

相关阅读

碧兴物联科技（碧兴物联什么时候上市）

库布里克人工智能（人工智能电影库布里克）

flink是什么（apacheflink是什么）

kafka多线程消费同一个topic（kafka多线程消费同一个分区）

人工智能的社会价值（人工智能的社会价值和挑战优秀作文）

数据安全能力建设（数据安全能力建设实施指南）

最近发表

文章归档

标签列表

大疆晓Spark的介绍有哪些特色？