ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

***机器学习于数据分析学习笔记之常用函数操作***

2021-04-10 17:33:05  阅读:209  来源: 互联网

标签:数据分析 k3 right NaN 笔记 学习 k2 k1 k0


      ***机器学习于数据分析学习笔记之常用函数操作***

——.Merge函数(用于整合数据)
数据处理中可能经常要对提取的特征进行整合,例如后续实战中会拿到一份歌曲数据集,但是不同的文件存储的特征不同,有的文件包括歌曲名、播放量;有的包括歌曲名、歌手名。现在我们要做的就是把所有特征汇总在一起。
Merge函数就是可以指定索引是谁,按照索引对数据的特征进行整合。
#merge操作,按索引对数据进行整合
left = pd.DataFrame({‘key’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘A’:[‘A0’,‘A1’,‘A2’,‘A3’],
‘B’:[‘B0’,‘B1’,‘B2’,‘B3’]})
right = pd.DataFrame({‘key’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘C’:[‘C0’,‘C1’,‘C2’,‘C3’],
‘D’:[‘D0’,‘D1’,‘D2’,‘D3’]})
merged = pd.merge(left,right,on = ‘key’)//"on="就是在指定索引
例如这里就是将数据按照共同索引key来进行整合。
整合之后打印merged为
key A B C D
0 k0 A0 B0 C0 D0
1 k1 A1 B1 C1 D1
2 k2 A2 B2 C2 D2
3 k3 A3 B3 C3 D3
但是有时候并不是所有的数据集恰好就是共同的索引都存在。比如歌曲集,可能俩个数据集,一个包含曲名,播放量,另一个包含曲名,歌手名。我们想要整和俩个数据集,并以歌曲名作为索引,但是有可能,第一个数据集不含有,《小星星》这首歌,但是第二个数据集含有,此时如果强行整合会发生什么了。
#索引并不完全一样的时候的处理
left = pd.DataFrame({‘key1’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘key2’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘A’:[‘A0’,‘A1’,‘A2’,‘A3’],
‘B’:[‘B0’,‘B1’,‘B2’,‘B3’]})
right = pd.DataFrame({‘key1’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘key2’:[‘k0’,‘k1’,‘k2’,‘k4’],
‘C’:[‘C0’,‘C1’,‘C2’,‘C3’],
‘D’:[‘D0’,‘D1’,‘D2’,‘D3’]})
细心的读者会发现最后一行,left和right的特征并不一样
我们看看结果:
key1 key2 A B C D
0 k0 k0 A0 B0 C0 D0
1 k1 k1 A1 B1 C1 D1
2 k2 k2 A2 B2 C2 D2
发现结果直接舍弃了不一样的数据,只打印了前三行。
但是有时我们想要保留不一样的数据这时候该怎么办呢。
可以在merge函数里面指定一个how参数,它会使merge函数保留那部分数据
merged = pd.merge(left,right,on = [‘key1’,‘key2’],how = ‘outer’)
打印输出看看
key1 key2 A B C D
0 k0 k0 A0 B0 C0 D0
1 k1 k1 A1 B1 C1 D1
2 k2 k2 A2 B2 C2 D2
3 k3 k3 A3 B3 NaN NaN
4 k3 k4 NaN NaN C3 D3
这要我们就保留了不相同部分的数据,而没有指定为索引的特征的那个数据集,就会自动在那一行补上NaN。
但是如果还嫌不够,可以再设置一个索引,使详细是哪一个数据集没有可以打印出来。
merged = pd.merge(left,right,on = [‘key1’,‘key2’],how = ‘outer’,indicator=‘True’)
打印看看
key1 key2 A B C D True
0 k0 k0 A0 B0 C0 D0 both
1 k1 k1 A1 B1 C1 D1 both
2 k2 k2 A2 B2 C2 D2 both
3 k3 k3 A3 B3 NaN NaN left_only
4 k3 k4 NaN NaN C3 D3 right_only
最左侧那一列就是显示的哪一列有没有这个特征。
当然,还可以指定为以哪一列数据为准:
merged = pd.merge(left,right,on = [‘key1’,‘key2’],how = ‘right’)
key1 key2 A B C D
0 k0 k0 A0 B0 C0 D0
1 k1 k1 A1 B1 C1 D1
2 k2 k2 A2 B2 C2 D2
3 k3 k4 NaN NaN C3 D3
以右列为准的话,发现A,B的第三列直接给抹盖了但是C,D没有。

批注:我是按照书上的例子给大家举例的,若作者看到有侵权行为,可以和我联系。
书籍为《跟着迪哥学python数据分析和机器学习实战》

标签:数据分析,k3,right,NaN,笔记,学习,k2,k1,k0
来源: https://blog.csdn.net/sunbogzcollege/article/details/115580820

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有