ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

2021-07-11 15:30:03  阅读:301  来源: 互联网

标签:Information layer attention based RNN 模型 Attention OCR


Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。

本文主要结构如下:

一、Abstract

       介绍提出attention-based OCR模型的优势

1. 论文提出基于attention模型取得更高的准确率

2. 模型结构简单,通用性更高

3.充足的实验给出有效结论

二、Introduction

       介绍当前OCR领域研究的主流方法,分别有不同的缺点,文末提出模型优点及创新

三、The Proposed Network Architecture

       提出OCR模型分模块介绍,包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练

模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征,然后通过attention特征输入到RNN中

CNN layer: 本文采取三种CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示,i,j表示图像上的位置,c表示channel的索引

RNN layer: 

     1. Ut,c 表示at权重值和图片的特征值对应相乘加和

     2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值 与 参数矩阵 对应相乘 ➕ t-1时刻的Ut-1,c与 参数矩阵的乘积(下面公式2)

      3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出

      4. RNN模型的输出: Ot, St

      5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值,值最大的表示label

Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)

四、Dataset

        主要介绍两种数据集-FSNS Dataset、Google Street View 

五、Experiment

        统领全文、再次重申提出的attention模型优势,实验结果表明使用location aware attention可以提升9个百分点,并且证明了特征提取网络深度对准确率的影响,最后进行错误分析以及可视化展示

六、Conclusion

        结论及展望

 关键点: 

        1. 特征提取: CNN

        2. 语言模型: RNN

        3. 自回归: Attention

创新点:

        1. 基于Attention机制实现OCR模型

        2. 模型自回归

其发点:

        对于图像特征提取而言,网络深度不是越深越好,过于深反而会引入噪音

七、Code

      https://github.com/tensorflow/models/tree/master/research/attention_ocr

标签:Information,layer,attention,based,RNN,模型,Attention,OCR
来源: https://blog.csdn.net/weixin_41362649/article/details/118653672

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有