首页 > 其他分享> 文章详细

Tensorflow数据读取之tfrecord

2019-06-16 17:52:23 阅读：340 来源： 互联网

标签：tfrecord 读取 shape train tf Tensorflow feat fm

文章目录

tfrecord

tfrecord的使用流程

写入tfrecord文件
读取tfrecord文件

tfrecord中的数据格式
tfrecord中对于变长数据和定长数据的处理

tfrecord

~~这次只记录我在实验中遇到的情况和略懂的几点，多余的我没有怎么看【笑哭】，一个是因为懒，一个是因为官网介绍页太少了8，有点心塞~~~~
开门见山，关于Tensorflow读取数据，官网给出了三种方法，分别是：
1.供给数据(Feeding)：在TensorFlow程序训练或者测试的每一个epoch，在tf.Session().run()函数中，以字典的形式通过feed_dict参数进行赋值。
2.从文件读取数据：在TensorFlow图的起始，让一个输入管线从文件中读取数据。
3.预加载数据：在TensorFlow图中定义常量或变量来保存所有数据(仅适用于数据量比较小的情况)。

截止到目前为止，由于我使用tensorflow的时间不长，次数不多，所以只是尝试过第一种和第三种方法。最近刚刚尝试了第三种方法，使用的是tensorflow内定的标准读取数据的格式—tfrecord，在这里记录一下。（好像并没有开门见山，尴尬脸）

TFRecords是一种二进制文件，这个格式我真的理解无能，据说它不对数据进行压缩,所以可以被快速加载到内存中，要复制和移动的时候也是咻的一下就搞定，所以说人家作为内定格式是有原因的，嗯，没错，凭实力内定。但是这种格式不支持随机访问，因此它适合于大量的数据流，但不适用于快速分片或其他非连续存取。

tfrecord的使用流程

写入tfrecord文件

TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。我们可以写一段代码获取你的数据，将数据填入到Example协议内存块(protocol buffer)，将协议内存块序列化为一个字符串，并且通过tf.python_io.TFRecordWriter 写入到TFRecords文件。

上面这段话是从别人那里复制来的。用更通俗的话来解释一下。分两种情况来说：
1.一次往tfrecord文件中存储一个样本数据
2.一次往tfrecord文件中存储一个bacth的样本数据
对于第一种情况（一次往tfrecord文件中存储一个样本数据），每一个样本的特征构造一个dict={‘特征1’：“value1”,"特征2”：“value2”，…，“特征n”:“value n”}。
首先通过tf.python_io.TFRecordWriter函数打开要写入的tfrecord文件。

writer = tf.python_io.TFRecordWriter(outfile)

然后通过下面这种形式把样本特征存到example中。

example = tf.train.Example(
                    features=tf.train.Features( #构造每个样本的信息键值对
                        feature={
                            'fm_feat_indices': tf.train.Feature(
                                bytes_list=tf.train.BytesList(value=[fm_feat_indices_str])),
                            'fm_feat_values': tf.train.Feature(
                                float_list=tf.train.FloatList(value=fm_feat_values)),
                            'fm_feat_shape': tf.train.Feature(
                                int64_list=tf.train.Int64List(value=fm_feat_shape)),
                            'labels': tf.train.Feature(
                                bytes_list=tf.train.BytesList(value=[labels_str]))
                        }
                    )
                )

然后在对example进行序列化。

serialized = example.SerializeToString()

最后将序列化好的样本特征写入tfrecord文件。

writer.write(serialized)

这样就能成功写入tfrecord文件啦【转圈圈】。但是呢，在深度学习中要使用的时候通常是用batch_size作为使用单位的，每次取出一个batch的数据。所以在读的时候要自己构造batch生成器。个人感觉这样会麻烦一些。所以想省事的童鞋第二种情况就比较适合你们啦。

对于第二种情况（一次往tfrecord文件中存储一个batch样本数据），步骤也是和上面一样。唯一的差别是存入feature的每一项特征不再是每一个样本的特征，而是一个batch中的样本的所有特征组成的list或者array。这样之后读取的时候，每次读取一个样本值，所得到的就是batch的内容。

读取tfrecord文件

从TFRecords文件中读取数据，可以使用tf.TFRecordReader的tf.parse_single_example解析器。这个操作可以将Example协议内存块(protocol buffer)解析为张量。

 def get_iterator(self, src_dataset):
     src_dataset = src_dataset.map(self.parser)
     iterator = src_dataset.make_initializable_iterator()
     # 所需数据格式
     _fm_feat_indices, _fm_feat_values,  _fm_feat_shape, _labels = iterator.get_next()
     self.initializer = iterator.initializer
     self.fm_feat_indices = _fm_feat_indices
     self.fm_feat_values = _fm_feat_values
     self.fm_feat_shape = _fm_feat_shape
     self.labels = _labels

 def parser(self, record):
     keys_to_features = {
         'fm_feat_indices': tf.FixedLenFeature([], tf.string), # （batch_size,）
         'fm_feat_values': tf.VarLenFeature(tf.float32), # （batch_size）
         'fm_feat_shape': tf.FixedLenFeature([2], tf.int64), # （batch_size,2）
         'labels': tf.FixedLenFeature([], tf.string), # （batch_size,）
     }
     parsed = tf.parse_single_example(record, keys_to_features)
     fm_feat_indices = tf.reshape(tf.decode_raw(parsed['fm_feat_indices'], tf.int64), [-1, 2])  # （batch_size,2）
     fm_feat_values = tf.sparse_tensor_to_dense(parsed['fm_feat_values'])
     fm_feat_shape = parsed['fm_feat_shape']
     labels = tf.reshape(tf.decode_raw(parsed['labels'], tf.float32), [-1, 1])
     return fm_feat_indices, fm_feat_values, fm_feat_shape, labels,

由于从 tfrecord 文件中导入的样本是刚才写入的 tf_serialized 序列化样本，所以我们需要对每一个样本进行解析。这里就用 dataset.map(parse_function) 来对 dataset 里的每个样本进行相同的解析操作。
注：dataset.map(输入) 中的输入是一个函数。
解析基本就是写入时的逆过程，所以会需要写入时的信息，上面先列出刚才写入时，所有 feature 的各项信息。
在这个过程中会用到两个函数，tf.FixedLenFeature()和 tf.VarLenFeature()，前者是取固定长度的特征的，后者是针对不定长的特征的，关于这两个函数的具体使用情况可以参照官方文档。但是需要注意的一个地方是，这两个函数都有一个参数是shape，除了字符串类型的特征在取的时候用tf.FixedLenFeature()不用指定要取的特征的shape,其余类型的特征在取的时候要标明取得shape。

tfrecord中的数据格式

接上面一部分，上面一部分中的feature里面的特征只能有三种类型。

int64：tf.train.Feature(int64_list = tf.train.Int64List(value=输入))
float32：tf.train.Feature(float_list = tf.train.FloatList(value=输入))
string：tf.train.Feature(bytes_list=tf.train.BytesList(value=输入))

注：输入必须是 list(向量)，向量的嵌套是不合法的，比如输入=[[1,2],[2,3]]
这里必须要提一下，tfrecord文件中能存储任何类型的数据，不管是标量，向量，还是矩阵，tensor，都能被成功存储到文件中去。但是在存之前要先将矩阵和tensor通过tostring函数转成字符串形式，然后再存成striing类型的数据。对，就是这样，万物皆可存，万物皆可字符串化。

fm_feat_indices_str = fm_feat_indices.tostring()
labels_str = labels.tostring()

tfrecord中对于变长数据和定长数据的处理

对于定长数据，可以把它转化成int,float,byte三种类型之一，然后存储，在读取的时候使用tf.FixedLenFeature()来获取。
对于变长数据，首先也要转化成int,float,byte三种类型之一，存储的时候如果是把他压成字符形式来存储，这样会丢失数据的维度信息，所以不仅要存储数据本身的内容，还要另外再加一个特征字段用来存储数据的shape,方便后面用tf.VarLenFeature()，这个字段一般用int类型就可以。
读取出来再转换数据形状。

# 变长数据存储
'inp_mask': tf.train.Feature(bytes_list=tf.train.BytesList(value=[inp_mask])),
'inp_shape': tf.train.Feature(int64_list=tf.train.Int64List(value=inp_shape))

好了，这篇先到此结束。

标签：tfrecord,读取,shape,train,tf,Tensorflow,feat,fm
来源： https://blog.csdn.net/AZHAOYUEA/article/details/91902537

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9