ICode9

精准搜索请尝试: 精确搜索
  • python – 用于读取行的最佳HDF5数据集块形状2019-09-16 22:56:23

    我有一个合理的大小(18GB压缩)HDF5数据集,我希望优化读取行的速度.形状是(639038,10000).我将在数据集中多次读取选择的行(比如说〜1000行).所以我不能使用x:(x 1000)来切片行. 使用h5py从内存不足的HDF5中读取行已经很慢了,因为我必须传递一个已排序的列表并采用花哨的索引.有没有

  • python – 使用pandas的“大数据”工作流程2019-09-11 00:56:20

    在学习大熊猫的过程中,我试图解决这个问题的答案已有好几个月了.我使用SAS进行日常工作,这非常适合它的核心支持.然而,由于其他许多原因,SAS作为一款软件非常糟糕. 有一天,我希望用python和pandas替换我对SAS的使用,但我目前缺乏大型数据集的核心工作流程.我不是在谈论需要分布式网

  • 将hdf5文件读取到c中的动态数组2019-08-31 21:05:33

    由于堆栈的大小限制,我试图将大型3D hdf5文件读入动态数组.我已经尝试了几种不同的方法,并通过分段错误失败了.下面是显示我的问题的示例代码.我非常感谢一些帮助!! //This example was based on several examples which came in the c++ examples directory of the hdf5 package.

  • c – 读取未正确关闭的HDF5文件2019-08-30 23:07:55

    如果HDF5文件没有用H5close()关闭,或者hdfview无法读取.在常规应用程序中,HDF5文件正确关闭,但有时,代码会发生某些事情(例如段错误),文件未关闭.在这些情况下,查看HDF5文件中可能包含的内容可能会提供对错误原因的深入了解. 有没有办法实现这个目标?解决方法:您可以通过遵循standar

  • python – 如何在Pandas中更好地管理我对内存的使用?2019-08-30 22:57:37

    我正在使用Pandas来存储,加载和操纵财务数据.典型的数据文件是6000×4000 DataFrame(6000股x 4000交易日),如果说一半股票在给定日期具有价值N / A,则将以CSV格式大小为200MB.我一直在使用具有16GB内存的工作站,这足以将这个大小的整个CSV加载到内存中,执行各种计算,然后存储结果.

  • python – 从大文件中读取而不使用h5py将整个内容加载到内存中2019-08-28 17:08:22

    以下是否从数据集中读取而不将整个事物一次性加载到内存中[整个事物将不适合内存]并获取数据集的大小而不使用python中的h5py加载数据?如果没有,怎么样? h5 = h5py.File('myfile.h5', 'r') mydata = h5.get('matirx') # are all data loaded into memory by using h5.get? part_of_m

  • python – 获取pandas HDF5查询的最后一行2019-08-24 16:57:14

    我试图得到存储在HDF5中的pandas数据帧的最后一行的索引,而不必将整个数据集或索引拉入内存.我正在寻找这样的东西: from pandas import HDFStore store = HDFStore('file.h5') last_index = store.select('dataset', where='index == -1').index 除了在我的情况下,最后一个索引

  • python – 按日期和时间范围查看的Pandas read_hdf查询2019-07-25 04:55:54

    我有一个关于如何在pd.read_hdf函数中过滤结果的问题.所以这里是设置,我有一个pandas数据帧(带有np.datetime64索引),我把它放入hdf5文件.这里没有任何花哨的东西,所以没有使用层次结构或任何东西(也许我可以合并它?).这是一个例子: Foo Bar

  • python – 使用HDF5和Pandas通过Chunking读取数据2019-07-22 10:59:19

    当在内存中查询数据形成CSV的子集时,我总是这样做: df = pd.read_csv('data.csv', chunksize=10**3) chunk1 = df.get_chunk() chunk1 = chunk1[chunk1['Col1'] > someval] for chunk in df: chunk1.append(chunk[chunk['Col1'] >someval]) 我最近开始使用HDF

  • Linux安装HDF5及遇到的问题总结(xy)2019-07-12 10:04:43

    一、下载网址: 官网链接 https://support.hdfgroup.org/ftp/HDF5/releases/hdf5-1.10/ 百度云链接 https://pan.baidu.com/s/1rIIjuO-40Dy_LTiZnBzTrA 二、安装步骤: 1、上传到服务器某个目录下 比如/usr/local 2、解压安装包 tar -xvf hdf5-1.8.3.tar.gz 3、切换目录到hdf5-

  • python – 使用h5py随机播放HDF5数据集2019-07-06 14:08:46

    我有一个大的HDF5文件(~30GB),我需要在每个数据集中随机输入(沿0轴).通过h5py文档查看我无法找到randomAccess或shuffle功能,但我希望我错过了一些东西. 是否有人熟悉HDF5,想到一种快速随机播放数据的方法? 这是我用我有限的知识实现的伪代码: for dataset in datasets: unshuff

  • c# – 如何在现有HDF5文件上创建组? (HDF5)2019-07-05 04:06:47

    我有一个用C编写的第三方实用程序,它创建一个包含单个数据组的HDF5文件. 我想导入两个H5文件,每个文件都有一个唯一的数据组,并输出一个带有两个数据组的H5文件. 有没有人有在C#中使用HDF5的经验?解决方法:我最后只编写了一个驱动预编译HDF5实用程序的命令行实用程序.使用H5Copy,您

  • 如何在Python中取消引用HDF5引用?2019-07-02 10:43:22

    有时我从HDF5文件中获取以下数组: val1 = {ndarray} [<HDF5 object reference> <HDF5 object reference> <HDF5 object reference>] 如果我尝试用HDF5文件对象取消引用它 f[val[0]] 我收到一个错误 Argument 'ref' has incorrect type (expected h5py.h5r.Reference, got numpy

  • 对于python,安装hdf5 / netcdf42019-07-02 09:44:12

    在Linux Mint 17.1上执行此操作. 当我尝试: pip install hdf5 我收到了错误 “找不到满足要求hdf5的版本(来自版本:) 找不到匹配的hdf5发行版“ 我正在尝试从长远来看安装netcdf4但是在我安装hdf5之前不能这样做.据说当我上周试图用netcdf4做这个时,我应该使用pip install netcdf4,e

  • python – 你能在pycharm中查看hdf5文件吗?2019-07-01 12:43:29

    是否有方法/插件可以在pycharm中查看hdf5文件,这样您就不必安装HDFVIEW来手动检查文件?解决方法:您可以使用h5py库. 您可能事先不知道HDF5文件的结构.如果是这种情况,您可以使用函数迭代HDF5文件中的所有路径.这是一个例子: def traverse_datasets(hdf_file): """Traverse all

  • 在pyspark中加载大于内存的hdf5文件2019-06-23 18:45:43

    我有一个以HDF5格式存储的大文件(比如20 Gb).该文件基本上是一组随时间演变的3D坐标(分子模拟轨迹).这基本上是一个形状的数组(8000(帧),50000(粒子),3(坐标)) 在常规的python中,我只需要使用h5f或pytables加载hdf5数据文件,并将数据文件索引,如果它是一个numpy(该库懒惰地加载它需

  • 如何解决HDFStore异常问题:无法找到正确的原子类型2019-06-20 13:44:35

    我正在寻找关于什么类型的数据场景可能导致此异常的一般指导.我试过以各种方式按摩我的数据无济于事. 我已经用Google搜索了这个例外几天,经历了几次谷歌小组讨论,并没有找到调试HDFStore异常的解决方案:无法找到正确的原子类型.我正在阅读混合数据类型的简单csv文件: Int64Index: 4

  • python – HDF5-DIAG:在HDF5中检测到错误(1.8.11)2019-06-12 04:42:55

    我试图在caffe中加载hdf5,它不起作用.我检查了路径,甚至能够使用viewer查看hdf文件.一切都很好,但似乎无法加载. 我使用像这样的python脚本编写hdf5,其中X和标签是numpy数组. f = h5py.File("facialkp.hd5", "w") f.create_dataset("data", data=X, compression="gzip", compress

  • python – 为什么在使用Pandas写入时,CSV文件小于HDF5文件?2019-06-12 03:45:28

    import numpy as np import pandas as pd df = pd.DataFrame(data=np.zeros((1000000,1))) df.to_csv('test.csv') df.to_hdf('test.h5', 'df') ls -sh test* 11M test.csv 16M test.h5 如果我使用更大的数据集,那么效果会更大.使用如下的HDFStore不会改变任何东西. store

  • python – 压缩文件在h5py中更大2019-06-11 21:44:27

    我正在使用h5py从python中保存HDF5格式的numpy数组.最近,我试图应用压缩,我得到的文件的大小更大…… 我从事物(每个文件都有几个数据集)就像这样 self._h5_current_frame.create_dataset( 'estimated position', shape=estimated_pos.shape, dtype=float, data

  • python – HDF5中的XML文件,h5py2019-06-10 02:46:58

    我正在使用h5py来保存数据(浮点数).除了数据本身,我还需要在hdf5中包含一个附加文件(包含必要信息的.xml文件).我该怎么做呢?我的方法有误吗? f = h5py.File('filename.h5') f.create_dataset('/data/1',numpy_array_1) f.create_dataset('/data/2',numpy_array_2) . . 我的h5树应

  • python – 切割ndarray的最快方法2019-05-29 01:44:13

    我有一些来自HDF5文件的事件数据: >>> events <class 'h5py._hl.dataset.Dataset'> 我得到这样的数组数据: >>> events = events[:] 结构如下: >>> type(events) <type 'numpy.ndarray'> >>> events.shape (273856,) >>&

  • 将使用-v7.3(HDF5)保存的Matlab稀疏矩阵加载到Python中并对其进行操作2019-05-21 13:46:02

    我是python的新手,来自matlab.我有一个以matlab v7.3(HDF5)格式保存的大型稀疏矩阵.到目前为止,我已经找到了两种使用h5py和tables加载文件的方法.然而,在矩阵上运行似乎非常缓慢.例如,在matlab中: >> whos Name Size Bytes Class Attribu

  • python – 将包含Numpy数组的整个HDF5读入内存的最快方法2019-05-17 09:46:31

    我用 : import h5py f = h5py.File('myfile.h5', 'r') d = {} for k in f.iterkeys(): d[k] = f[k][:] 将整个HDF5文件读入内存(2 GB,1000个numpy数组,每个2 MB). 有没有更快的方法将HDF5的所有内容加载到内存中? (也许这里的循环在文件中做了很多“移动”(搜索?),因为每个f [k

  • h5文件(.h5和.hdf5)2019-04-14 10:50:56

    HDF5 (.h5, .hdf5) HDF 是 Hierarchical Data Format(分层数据格式)的缩写 HDF 版本 5不与 HDF 版本 4 及早期版本兼容。 HDF5 (.h5, .hdf5)—Wolfram 语言参考资料 https://reference.wolfram.com/language/ref/format/HDF5.html     利用matlab读取.h5文件内容 - doublechenche

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有