标签:cache MEMORY Cache RDD ONLY 内存 persist Persist Spark
1.为什么要Cache / persist
由于spark中的RDD都是只读不可变的对象,也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。
当迭代使用到一个RDD的时候,我们不希望它重新从头trans一遍遍的计算,所以通过cache / persist的方法给他存到 内存/内&盘 中,下次使用,就直接拿出来就好了。
2.cache persist区别
cache调用了persist(),默认的persist就是MEMORY_ONLY,所以cache就是存在内存里头,而persist有12种,选吧你。
3.persist的时候用什么级别好?
针对占用内存不是很大的中间计算结果优先采用MEMORY_ONLY,它的性能最好(前提是内存要足够),也是RDD的默认策略。如果中间结果数据量稍大,可以采用MEMORY_ONLY_SER策略进行补充。
如果内存无法容纳中间数据,那么建议使用MEMORY_AND_DISK_SER策略,该策略会优先将数据缓存在内存中,只有当内存不够时才会把数据写入磁盘。另外对于分布式任务,IO资源往往比CPU资源更加紧张,序列化后的数据可以节省内存和磁盘的空间开销。
一般不用DIST_ONLY ,读起来慢的一匹,IO本来就很吃紧了,还添乱呢?
标签:cache,MEMORY,Cache,RDD,ONLY,内存,persist,Persist,Spark 来源: https://www.cnblogs.com/tillnight1996/p/12494117.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。