标签:闭包 val Rdd 算子 序列化 com Serializable
1. 说明
/*闭包检查*/ /* * 1. Scala的闭包 * 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包 * 使用场景 : * 在嵌套函数中,内层函数可以 只用外层函数的任意变量 * * 2. Spark的闭包 * 1. 算子之外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行 * 2. 在Spark中算子内的方法中经常用到 算子外的数据,这样就形参了闭包效果 * * 3. Spark的闭包检查 * 1. 当算子内的方法 使用算子外的数据时,会检查所用的数据是否可以被序列化 * * 4. note * 由于Driver 需要将rdd的算子(计算规则)分发到不同的计算节点(Executor)上去执行 * ,如果被分发的计算规则中,使用到了Driver的对象,就需要将该对象序列化后也分发到 * 相应的Executor上去 * * 5. 对象怎样才能序列化? * 1.继承 Serializable * 2.case 修饰类(样例类) * * 6.关于 Serializable 和 Kryo 序列化框架 * Serializable : Java原生序列化框架,可以序列化任何类,但是比较重(序列化后字节数较多), * 不利于网络io * Kryo : Kryo 速度 是 Serializable 的 10 倍,从Spark2.0开始 shuffle数据时,简单的数据类型 * 和数组和字符串类型已经使用Kryo * note : * 1. 如果自定义的类也想使用Kryo,需要在Driver中注册 * 2. 即是使用Kryo序列化,也要继承 Serializable接口 * * */
2.示例
/*Spark 闭包检查示例*/ object foreachTest extends App { val sparkconf: SparkConf = new SparkConf() .setMaster("local") .setAppName("distinctTest") // 替换默认的序列化机制 .set("spark.serializer","org.apache.spark.serializer.KryoSerializer") .registerKryoClasses(Array(classOf[comString])) // 注册需要使用 kryo 序列化的自定义类 val sc: SparkContext = new SparkContext(sparkconf) //初始化一个Rdd val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello spark", "hive", "java")) //初始化comString 对象 var com = new comString(10, "大王") //检查 参数 com对象是否能够被 序列化 private val rdd1 = rdd.map( (_, com) ) //检查 参数 com.id、com.name 可否被序列化 private val rdd2 = rdd.map( (_, com.id, com.name) ) rdd1.collect().foreach(println(_)) sc.stop() } //1.继承 Serializable class comString(val id: Int, val name: String) extends Serializable case class comStringCase(val id: Int, val name: String)
标签:闭包,val,Rdd,算子,序列化,com,Serializable 来源: https://www.cnblogs.com/bajiaotai/p/16085029.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。