HDF5

python – 用于读取行的最佳HDF5数据集块形状2019-09-16 22:56:23

我有一个合理的大小(18GB压缩)HDF5数据集,我希望优化读取行的速度.形状是(639038,10000).我将在数据集中多次读取选择的行(比如说〜1000行).所以我不能使用x：(x 1000)来切片行. 使用h5py从内存不足的HDF5中读取行已经很慢了,因为我必须传递一个已排序的列表并采用花哨的索引.有没有
python – 使用pandas的“大数据”工作流程2019-09-11 00:56:20

在学习大熊猫的过程中,我试图解决这个问题的答案已有好几个月了.我使用SAS进行日常工作,这非常适合它的核心支持.然而,由于其他许多原因,SAS作为一款软件非常糟糕. 有一天,我希望用python和pandas替换我对SAS的使用,但我目前缺乏大型数据集的核心工作流程.我不是在谈论需要分布式网
将hdf5文件读取到c中的动态数组2019-08-31 21:05:33

由于堆栈的大小限制,我试图将大型3D hdf5文件读入动态数组.我已经尝试了几种不同的方法,并通过分段错误失败了.下面是显示我的问题的示例代码.我非常感谢一些帮助!! //This example was based on several examples which came in the c++ examples directory of the hdf5 package.
c – 读取未正确关闭的HDF5文件2019-08-30 23:07:55

如果HDF5文件没有用H5close()关闭,或者hdfview无法读取.在常规应用程序中,HDF5文件正确关闭,但有时,代码会发生某些事情(例如段错误),文件未关闭.在这些情况下,查看HDF5文件中可能包含的内容可能会提供对错误原因的深入了解. 有没有办法实现这个目标？解决方法:您可以通过遵循standar
python – 如何在Pandas中更好地管理我对内存的使用？2019-08-30 22:57:37

我正在使用Pandas来存储,加载和操纵财务数据.典型的数据文件是6000×4000 DataFrame(6000股x 4000交易日),如果说一半股票在给定日期具有价值N / A,则将以CSV格式大小为200MB.我一直在使用具有16GB内存的工作站,这足以将这个大小的整个CSV加载到内存中,执行各种计算,然后存储结果.
python – 从大文件中读取而不使用h5py将整个内容加载到内存中2019-08-28 17:08:22

以下是否从数据集中读取而不将整个事物一次性加载到内存中[整个事物将不适合内存]并获取数据集的大小而不使用python中的h5py加载数据？如果没有,怎么样？ h5 = h5py.File('myfile.h5', 'r') mydata = h5.get('matirx') # are all data loaded into memory by using h5.get? part_of_m
python – 获取pandas HDF5查询的最后一行2019-08-24 16:57:14

我试图得到存储在HDF5中的pandas数据帧的最后一行的索引,而不必将整个数据集或索引拉入内存.我正在寻找这样的东西： from pandas import HDFStore store = HDFStore('file.h5') last_index = store.select('dataset', where='index == -1').index 除了在我的情况下,最后一个索引
python – 按日期和时间范围查看的Pandas read_hdf查询2019-07-25 04:55:54

我有一个关于如何在pd.read_hdf函数中过滤结果的问题.所以这里是设置,我有一个pandas数据帧(带有np.datetime64索引),我把它放入hdf5文件.这里没有任何花哨的东西,所以没有使用层次结构或任何东西(也许我可以合并它？).这是一个例子： Foo Bar
python – 使用HDF5和Pandas通过Chunking读取数据2019-07-22 10:59:19

当在内存中查询数据形成CSV的子集时,我总是这样做： df = pd.read_csv('data.csv', chunksize=10**3) chunk1 = df.get_chunk() chunk1 = chunk1[chunk1['Col1'] > someval] for chunk in df: chunk1.append(chunk[chunk['Col1'] >someval]) 我最近开始使用HDF
Linux安装HDF5及遇到的问题总结（xy）2019-07-12 10:04:43

一、下载网址：官网链接 https://support.hdfgroup.org/ftp/HDF5/releases/hdf5-1.10/ 百度云链接 https://pan.baidu.com/s/1rIIjuO-40Dy_LTiZnBzTrA 二、安装步骤： 1、上传到服务器某个目录下比如/usr/local 2、解压安装包 tar -xvf hdf5-1.8.3.tar.gz 3、切换目录到hdf5-
python – 使用h5py随机播放HDF5数据集2019-07-06 14:08:46

我有一个大的HDF5文件(~30GB),我需要在每个数据集中随机输入(沿0轴).通过h5py文档查看我无法找到randomAccess或shuffle功能,但我希望我错过了一些东西. 是否有人熟悉HDF5,想到一种快速随机播放数据的方法？这是我用我有限的知识实现的伪代码： for dataset in datasets: unshuff
c# – 如何在现有HDF5文件上创建组？ (HDF5)2019-07-05 04:06:47

我有一个用C编写的第三方实用程序,它创建一个包含单个数据组的HDF5文件. 我想导入两个H5文件,每个文件都有一个唯一的数据组,并输出一个带有两个数据组的H5文件. 有没有人有在C#中使用HDF5的经验？解决方法:我最后只编写了一个驱动预编译HDF5实用程序的命令行实用程序.使用H5Copy,您
如何在Python中取消引用HDF5引用？2019-07-02 10:43:22

有时我从HDF5文件中获取以下数组： val1 = {ndarray} [<HDF5 object reference> <HDF5 object reference> <HDF5 object reference>] 如果我尝试用HDF5文件对象取消引用它 f[val[0]] 我收到一个错误 Argument 'ref' has incorrect type (expected h5py.h5r.Reference, got numpy
对于python,安装hdf5 / netcdf42019-07-02 09:44:12

在Linux Mint 17.1上执行此操作. 当我尝试： pip install hdf5 我收到了错误 “找不到满足要求hdf5的版本(来自版本:) 找不到匹配的hdf5发行版“ 我正在尝试从长远来看安装netcdf4但是在我安装hdf5之前不能这样做.据说当我上周试图用netcdf4做这个时,我应该使用pip install netcdf4,e
python – 你能在pycharm中查看hdf5文件吗？2019-07-01 12:43:29

是否有方法/插件可以在pycharm中查看hdf5文件,这样您就不必安装HDFVIEW来手动检查文件？解决方法:您可以使用h5py库. 您可能事先不知道HDF5文件的结构.如果是这种情况,您可以使用函数迭代HDF5文件中的所有路径.这是一个例子： def traverse_datasets(hdf_file): """Traverse all
在pyspark中加载大于内存的hdf5文件2019-06-23 18:45:43

我有一个以HDF5格式存储的大文件(比如20 Gb).该文件基本上是一组随时间演变的3D坐标(分子模拟轨迹).这基本上是一个形状的数组(8000(帧),50000(粒子),3(坐标)) 在常规的python中,我只需要使用h5f或pytables加载hdf5数据文件,并将数据文件索引,如果它是一个numpy(该库懒惰地加载它需
如何解决HDFStore异常问题：无法找到正确的原子类型2019-06-20 13:44:35

我正在寻找关于什么类型的数据场景可能导致此异常的一般指导.我试过以各种方式按摩我的数据无济于事. 我已经用Google搜索了这个例外几天,经历了几次谷歌小组讨论,并没有找到调试HDFStore异常的解决方案：无法找到正确的原子类型.我正在阅读混合数据类型的简单csv文件： Int64Index: 4
python – HDF5-DIAG：在HDF5中检测到错误(1.8.11)2019-06-12 04:42:55

我试图在caffe中加载hdf5,它不起作用.我检查了路径,甚至能够使用viewer查看hdf文件.一切都很好,但似乎无法加载. 我使用像这样的python脚本编写hdf5,其中X和标签是numpy数组. f = h5py.File("facialkp.hd5", "w") f.create_dataset("data", data=X, compression="gzip", compress
python – 为什么在使用Pandas写入时,CSV文件小于HDF5文件？2019-06-12 03:45:28

import numpy as np import pandas as pd df = pd.DataFrame(data=np.zeros((1000000,1))) df.to_csv('test.csv') df.to_hdf('test.h5', 'df') ls -sh test* 11M test.csv 16M test.h5 如果我使用更大的数据集,那么效果会更大.使用如下的HDFStore不会改变任何东西. store
python – 压缩文件在h5py中更大2019-06-11 21:44:27

我正在使用h5py从python中保存HDF5格式的numpy数组.最近,我试图应用压缩,我得到的文件的大小更大…… 我从事物(每个文件都有几个数据集)就像这样 self._h5_current_frame.create_dataset( 'estimated position', shape=estimated_pos.shape, dtype=float, data
python – HDF5中的XML文件,h5py2019-06-10 02:46:58

我正在使用h5py来保存数据(浮点数).除了数据本身,我还需要在hdf5中包含一个附加文件(包含必要信息的.xml文件).我该怎么做呢？我的方法有误吗？ f = h5py.File('filename.h5') f.create_dataset('/data/1',numpy_array_1) f.create_dataset('/data/2',numpy_array_2) . . 我的h5树应
python – 切割ndarray的最快方法2019-05-29 01:44:13

我有一些来自HDF5文件的事件数据： >>> events <class 'h5py._hl.dataset.Dataset'> 我得到这样的数组数据： >>> events = events[:] 结构如下： >>> type(events) <type 'numpy.ndarray'> >>> events.shape (273856,) >>&
将使用-v7.3(HDF5)保存的Matlab稀疏矩阵加载到Python中并对其进行操作2019-05-21 13:46:02

我是python的新手,来自matlab.我有一个以matlab v7.3(HDF5)格式保存的大型稀疏矩阵.到目前为止,我已经找到了两种使用h5py和tables加载文件的方法.然而,在矩阵上运行似乎非常缓慢.例如,在matlab中： >> whos Name Size Bytes Class Attribu
python – 将包含Numpy数组的整个HDF5读入内存的最快方法2019-05-17 09:46:31

我用： import h5py f = h5py.File('myfile.h5', 'r') d = {} for k in f.iterkeys(): d[k] = f[k][:] 将整个HDF5文件读入内存(2 GB,1000个numpy数组,每个2 MB). 有没有更快的方法将HDF5的所有内容加载到内存中？ (也许这里的循环在文件中做了很多“移动”(搜索？),因为每个f [k
h5文件（.h5和.hdf5）2019-04-14 10:50:56

HDF5 (.h5, .hdf5) HDF 是 Hierarchical Data Format（分层数据格式）的缩写 HDF 版本 5不与 HDF 版本 4 及早期版本兼容。 HDF5 (.h5, .hdf5)—Wolfram 语言参考资料 https://reference.wolfram.com/language/ref/format/HDF5.html 利用matlab读取.h5文件内容 - doublechenche

首页 < 1 2 3 4 > 尾页

ICode9

python – 用于读取行的最佳HDF5数据集块形状2019-09-16 22:56:23

python – 使用pandas的“大数据”工作流程2019-09-11 00:56:20

将hdf5文件读取到c中的动态数组2019-08-31 21:05:33

c – 读取未正确关闭的HDF5文件2019-08-30 23:07:55

python – 如何在Pandas中更好地管理我对内存的使用？2019-08-30 22:57:37

python – 从大文件中读取而不使用h5py将整个内容加载到内存中2019-08-28 17:08:22

python – 获取pandas HDF5查询的最后一行2019-08-24 16:57:14

python – 按日期和时间范围查看的Pandas read_hdf查询2019-07-25 04:55:54

python – 使用HDF5和Pandas通过Chunking读取数据2019-07-22 10:59:19

Linux安装HDF5及遇到的问题总结（xy）2019-07-12 10:04:43

python – 使用h5py随机播放HDF5数据集2019-07-06 14:08:46

c# – 如何在现有HDF5文件上创建组？ (HDF5)2019-07-05 04:06:47

如何在Python中取消引用HDF5引用？2019-07-02 10:43:22

对于python,安装hdf5 / netcdf42019-07-02 09:44:12

python – 你能在pycharm中查看hdf5文件吗？2019-07-01 12:43:29

在pyspark中加载大于内存的hdf5文件2019-06-23 18:45:43

如何解决HDFStore异常问题：无法找到正确的原子类型2019-06-20 13:44:35

python – HDF5-DIAG：在HDF5中检测到错误(1.8.11)2019-06-12 04:42:55

python – 为什么在使用Pandas写入时,CSV文件小于HDF5文件？2019-06-12 03:45:28

python – 压缩文件在h5py中更大2019-06-11 21:44:27

python – HDF5中的XML文件,h5py2019-06-10 02:46:58

python – 切割ndarray的最快方法2019-05-29 01:44:13

将使用-v7.3(HDF5)保存的Matlab稀疏矩阵加载到Python中并对其进行操作2019-05-21 13:46:02

python – 将包含Numpy数组的整个HDF5读入内存的最快方法2019-05-17 09:46:31

h5文件（.h5和.hdf5）2019-04-14 10:50:56