我使用Python生成一个非常大的数据文件,主要由0(假)和少数1(真)组成.它有大约700,000列和15.000行,因此大小为10.5GB.第一行是标题.
然后需要在R中读取和显示该文件.
我正在寻找合适的数据格式从Python导出我的文件.
如here所述:
HDF5 is row based. You get MUCH efficiency by having tables that are
not too wide but are fairly long.
由于我有一个非常宽的表,我认为,HDF5在我的情况下是不合适的?
那么什么数据格式最适合此目的?
压缩(zip)它也有意义吗?
我的文件示例:
id,col1,col2,col3,col4,col5,...
1,0,0,0,1,0,...
2,1,0,0,0,1,...
3,0,1,0,0,1,...
4,...
解决方法:
压缩不会帮助你,因为你必须解压缩它来处理它.如果您可以发布生成文件的代码,那可能会有很大帮助.
另外,你想在R中完成什么?在Python中可视化它可能更快,避免读取/写入10.5GB?
也许重新思考一下你如何存储数据的方法(例如:如果只有很少的话,存储1的坐标)可能是一个更好的角度.
例如,我可能只存储元组(600492,10786)并在R中实现相同的可视化,而不是存储一个700K×15K的全零表(除了600492第10786行中的1).
标签:python,r,csv,bigdata 来源: https://codeday.me/bug/20190623/1270601.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。