标签:SparkSession Executor 10g yarn executor spark config
关于Executor:
一个executor同时只能执行一个计算任务
但一个worker(物理节点)上可以同时运行多个executor
executor的数量决定了同时处理任务的数量
一般来说,分区数远大于executor的数量才是合理的
同一个作业,在计算逻辑不变的情况下,分区数和executor的数量很大程度上决定了作业运行的时间
初始化SparkSession
scala版本
import org.apache.spark.sql.SparkSession val spark = SparkSession.builder().master("yarn-client").appName("New SS").config("spark.executor.instances","10").config("spark.executor.memory","10g").getOrCreate() import spark.implicits._
在代码中,我们通过配置指明了spark运行环境时的yarn,并以yarn-client的方式提交作业(yarn还支持yarn-cluster的方式,区别在于前者driver运行在客户端,后者driver运行在yarn的container中)。我们一共申请了10个executer,每个10g。
python版本
from pyspark.sql import SparkSession spark = SparkSession.builder.master("yarn-client").appName("New SS").config("spark.executor.instances","10").config("spark.executor.memory","10g").getOrCreate()
标签:SparkSession,Executor,10g,yarn,executor,spark,config 来源: https://www.cnblogs.com/xiao02fang/p/13197877.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。