ICode9

精准搜索请尝试: 精确搜索
首页 > 数据库> 文章详细

【Pandas vs SQL】数据分析代码逐行比对,孰优孰劣?

2022-05-04 05:31:06  阅读:212  来源: 互联网

标签:数据分析 优孰劣 pandas vs SQL 查询 方法 连接 逐行


在数据分析领域,pandas是python数据分析基础工具,SQL是数据库最常用分析语言。二者有相通的地方,也有很大的语法不同,做起数据分析来,谁将更胜一筹呢?

做过业务开发、跟数据库打交道比较多的小伙伴,经常会提到”增删改查“操作,分别对应数据的增加、删除、修改、查询,这4个操作。

下面,我将从查、增、删、改四个维度,依次比对pandas和SQL的实现步骤,比较二者的优劣。

文末含获取Python源码文件方式!

【讲解视频】此文章同步讲解视频:
https://www.zhihu.com/zvideo/1463296616861536256
https://www.zhihu.com/zvideo/1468878502435385344

【准备数据】数据分析对象-B站top100排行榜数据
这里,我采用B站top100排行榜的数据,作为数据分析对象。

想学习如何爬取top100排行榜数据的小伙伴,请移步至:
https://www.zhihu.com/zvideo/1442441321721663488
爬取下来的数据,存到excel:

数据准备完毕,开始数据分析,pandas和SQL进行逐行比对!

一、查询

1.1 查询前3行

pandas查询前3行:

SQL查询前3行:

1.2 查询后3行

pandas查询后3行:

SQL查询后3行:

1.3 查询指定列

pandas方法1(中括号[]):

pandas方法2(loc):

pandas方法3(iloc):

【马哥小贴士】关于loc和iloc的说明:
loc:works on labels in the index.(通过"索引名"定位)
iloc:works on the positions in the index (so it only takes integers).(通过"索引值"定位)

SQL查询指定列:

1.4 按条件查询

pandas单条件查询:

SQL单条件查询:

pandas多条件查询(并且关系):
SQL多条件查询(并且关系AND):
pandas多条件查询(或者关系):
SQL多条件查询(或者关系OR):

二、增加

2.1 增加行

pandas方法1(append):

pandas方法2(loc):

pandas方法3(concat):

SQL增加一行:

SQL增加多行:

2.2 增加列

pandas方法1(中括号[]):

pandas方法2(insert):

SQL增加一列:

三、删除

3.1 删除行

pandas方法1(drop-行名):
pandas方法2(drop-行号):

pandas方法3(drop-删除特定条件的行):

SQL删除多行:

3.2 删除列

pandas方法1(drop):

pandas方法2(del):

SQL删除一列:

四、修改

4.1 pandas方法1(loc):

4.2 pandas方法2(iloc):

4.3 SQL修改一个值

4.4 SQL修改多个值

五、四种连接方法


待分析数据:

5.1 左连接(Left Join)

pandas左连接:

SQL左连接:

5.2 右连接(Right Join)

pandas右连接:

SQL右连接:

5.3 内连接(Inner Join)

pandas内连接1:

pandas内连接2:(注意!根据索引连接)

pandas内连接3:(注意!根据索引连接)

SQL内连接1:

SQL内连接2:

SQL内连接3:

5.4 外连接(Outer Join)

pandas外连接1:

pandas外连接2:

pandas外连接3:

SQL外连接:(注意:MySQL不支持全连接,通过UNION实现)

END:马哥经验总结

怎么选择用哪个工具(Pandas or SQL)

根据数据存储类型,选择用哪个
·如果数据存储在数据库里,直接用SQL分析,比较方便。
·如果数据存储在Excel,或者csv、txt等文本类数据,或者从网页爬取下的结构化数据,存储为pandas的DataFrame格式再分析,比较方便。

根据数据量、性能,选择用哪个
·大部分情况下,Pandas比SQL的运行性能更优。

"文无第一,武无第二 | 没有绝对的谁更好,只有更适合的分析场景!"


同步公号文章:https://mp.weixin.qq.com/s?__biz=MzU5MjQ2MzI0Nw==&mid=2247484154&idx=1&sn=c4f629b5bd1df12e3ea857284ce7d7f7&chksm=fe1e161ac9699f0c925713b6a679ccb28095e5b773f77b915ea01be1457a87bd71860bbe8b8b&token=928226833&lang=zh_CN#rd

标签:数据分析,优孰劣,pandas,vs,SQL,查询,方法,连接,逐行
来源: https://www.cnblogs.com/mashukui/p/16220251.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有