在python中转换大文件

2019-11-21 17:05:30 阅读：254 来源： 互联网

标签：large-data large-files python database

我有一些大约64GB的文件,我想将其转换为hdf5格式.我想知道这样做的最佳方法是什么？逐行阅读似乎要花费超过4个小时,因此我一直在考虑顺序使用多处理,但希望在不求助于hadoop的情况下,找到最有效的方法.任何帮助将不胜感激. (并预先感谢您)

解决方法:

对于此类问题,我通常转而使用Python.没错,多处理/并行化是一个很好的解决方案,但是Python在该领域不能令人满意.考虑在JVM上尝试一些操作.我喜欢Clojure的core.async,但还有针对JRuby的peach(“并行”)或celluloid库,它们与Python更加接近.

这种方法不必像Hadoop那样“繁重”,但是我仍然会在文件上使用类似的映射/缩减模式.有一个线程正在从源文件逐行读取并分派到多个线程. (使用core.async,我将有多个队列,这些队列将被不同的线程占用,然后将“完成的”信号反馈到看门狗线程中.)最后,您应该能够从CPU中获得很多性能.

标签：large-data,large-files,python,database
来源： https://codeday.me/bug/20191121/2053495.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

在python中转换大文件