ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

SparkCore中RDD开发API边缘_广播变量【broadCast】的使用案例

2021-12-19 09:31:52  阅读:187  来源: 互联网

标签:变量 val SparkCore broadCast RDD 广播 executor import String


SparkCore中RDD开发API边缘_广播变量【broadCast】的使用案例

广播变量主要应用于“需要进行map端join”的场合
就是把一份小体量的数据,直接让每个executor持有一份拷贝,在task的计算逻辑中直接可用
而不用通过两个rdd去join

import cn.doitedu.spark.util.SparkContextUtil
import org.apache.spark.SparkContext
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import scala.collection.mutable

/**
* @desc 广播变量主要应用于“需要进行map端join”的场合
* 就是把一份小体量的数据,直接让每个executor持有一份拷贝,在task的计算逻辑中直接可用
* 而不用通过两个rdd去join
*/
object RDD开发API边缘_广播变量 {


  def main(args: Array[String]): Unit = {

    val sc: SparkContext = SparkContextUtil.getSc("广播变量")


    val rdd: RDD[(Int, String)] = sc.parallelize(Seq(
      (1, "北京"),
      (2, "上海"),
      (3, "上海"))
    )

    // 普通对象 ,在Driver程序中创建的
    val mp = Map[Int, String]((1,"张三"),(2,"李四"),(3,"王五"))

    // 将driver端创建的普通集合对象,广播出去
    // 广播的实质是: 将driver端数据对象,序列化后,给每个executor发送一份(每个executor只持有一份广播变量的拷贝)
    // 广播变量的数据传输和闭包引用的数据传输有所不同:
    // 闭包引用的数据,是driver给每个executor直接发送数据
    // 广播变量的数据,是通过bittorrent协议来发送数据的(所有executor遵循了 人人为我,我为人人的原则)
    val bc = sc.broadcast(mp)

    val res = rdd.map(tp=>{
      val dict: Map[Int, String] = bc.value

      val name: String = dict.get(tp._1).get

      (tp._1,tp._2,name)

    })
    res.foreach(println)
    
    sc.stop()
  }
}

标签:变量,val,SparkCore,broadCast,RDD,广播,executor,import,String
来源: https://blog.csdn.net/m0_50186249/article/details/122020482

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有