Spark集群搭建（不常用,一般使用yarn整合）

2022-07-13 00:01:38 阅读：187 来源： 互联网

标签：-- yarn export master examples 集群 Spark spark 2.4

Spark集群搭建（不常用）

1、上传解压，配置环境变量配置bin目录,解压

重命名
tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 
配置环境变量
mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5
环境变量配置完成后记得source一下

2. 修改配置文件

修改配置文件 conf
cp spark-env.sh.template spark-env.sh
增加配置
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

    master相当于RM  worker相当于NM

    增加从节点配置
    cp slaves.template slaves
    
    node1
    node2

    增加从节点

3. 复制到其它节点

scp -r spark-2.4.5 node1:`pwd`
scp -r spark-2.4.5 node2:`pwd`

4、在主节点执行启动命令

    启动集群，在master中执行
    ./sbin/start-all.sh	

    http://master:8080/  访问spark ui

5.spark提供我们测试的任务（测试圆周率），有两种模式client和cluster模式

standalone client模式日志在本地输出，一般用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

提交spark任务
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 10000

提交后查看ui界面

master

node2节点

2.standalone cluster模式上线使用，不会再本地打印日志

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512M --total-executor-cores 1 --deploy-mode cluster spark-examples_2.11-2.4.5.jar 10000

运行后UI界面

master

node1

node2

6.自己编写Java代码放到集群中跑任务

代码如下：

package com.core.day2

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Demo18SparkStandSubmit {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()

    conf.setAppName("submit")

    //我们需要提交到集群上运行，所以不需要这个
    //conf.setMaster("local")
    val sc = new SparkContext(conf)

    val linesRDD: RDD[String] = sc.parallelize(List("java,spark,hadoop", "spark,hadoop,hadoop", "hadoop,java"))

    val wordsRDD: RDD[String] = linesRDD.flatMap(_.split(","))

    val kvRDD: RDD[(String, Int)] = wordsRDD.map((_, 1))

    val countRDD: RDD[(String, Int)] = kvRDD.reduceByKey(_ + _)

    countRDD.foreach(println)

    /**
     * 将项目打包上传到服务器
     *
     * 提交任务
     *
     * spark-submit --class com.core.day2.Demo18SparkStandSubmit --master spark://master:7077 spark-1.0.jar
     */
  }
}

启动命令

spark-submit --class com.core.day2.Demo18SparkStandSubmit --master spark://master:7077 spark-1.0-SNAPSHOT.jar

运行结果如下

标签：--,yarn,export,master,examples,集群,Spark,spark,2.4
来源： https://www.cnblogs.com/atao-BigData/p/16472283.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Spark集群搭建（不常用,一般使用yarn整合）

Spark集群搭建（不常用）

1、上传解压，配置环境变量 配置bin目录,解压

2. 修改配置文件

3. 复制到其它节点

4、在主节点执行启动命令

5.spark提供我们测试的任务（测试圆周率），有两种模式client和cluster模式

提交后查看ui界面

master

node2节点

运行后UI界面

master

node1

node2

6.自己编写Java代码放到集群中跑任务

代码如下：

启动命令

运行结果如下

1、上传解压，配置环境变量配置bin目录,解压