标签:函数 collect RDD sortBy 显式 操作 lambda
一、 RDD创建
- 1.从本地文件系统中加载数据创建RDD
- 从HDFS加载数据创建RDD
启动hdfs
上传文件
查看文件
加载
停止hdfs
- 通过并行集合(列表)创建RDD
输入列表
字符串
numpy生成数组
二、 RDD操作
转换操作
- filter(func)
lambda函数
显式定义函数
- map(func)
lambda函数
字符串分词
显式定义函数
数字加100
lambda函数
显式函数
字符串加固定前缀
lambda函数
显式函数
- flatMap(func)
- 分词
2.单词映射成键值对
- reduceByKey()
- 统计词频,累加
2.乘法规则
- groupByKey()
- 单词分组
2.查看分组的内容
3.分组之后做累加 map
- sortByKey()
- 词频统计按单词排序
- sortBy()
- 词频统计按单词排序
.sortBy(lambda a:a[0]).collect()
.sortByKey().collect()
上面两条语句是一样的效果
.sortBy(lambda a:a[0],False).collect()
.sortByKey(False).collect()
上面两条语句是一样的效果
sortBy()函数里面按照lambda()函数中的指定字符进行排序,sortBy()第二个参数默认为True,即以该字符为首进行降序排序,为False即为以该字符升序排序
- RDD写入文本文件
- 写入本地文件系统,并查看结果
- 写入分布式文件系统,并查看结果
先进行操作一个数据,然后对其进行sortBy(函数,是否降序,设置数据块大小(默认10))
然后通过getNumPartitions()获得块数大小
标签:函数,collect,RDD,sortBy,显式,操作,lambda 来源: https://www.cnblogs.com/tanhaven/p/16071603.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。