ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

BA-NET论文总结

2021-01-04 17:32:48  阅读:277  来源: 互联网

标签:深度图 LM BA 特征 论文 像素 NET 优化


摘要

输入图像–>基本深度图(end to end)
深度图+BA优化–>基础深度图线性叠加

1.介绍

几乎所有的SfM算法用BA优化场景结构和摄像机运动:LM最小化几何误差或光度误差
深度学习技术解决SfM
学习前馈多层感知器(MLP)预测LM算法中的阻尼因子
BA层最小化CNN特征图之间的距离,输入CNN特征图,优化场景结构和摄像机运动
标准的编码器-解码器(可以联合训练整个网络):任意输入图像生成一组基础深度图,并将结果深度图表示为这些基础深度图的线性组合
编码器-解码器系数在BA层中与相机位姿一起优化,深度图平滑,还减少了未知数
BA层根据CNN特征同时预测深度和摄像机位姿,从而强制执行多视图几何约束

2.BA

最小化图像重投影误差优化场景结构和摄像机运动:
在这里插入图片描述

LM:
迭代中使用LM算法都会通过最小化以下公式来求解最优解ΔX:
在这里插入图片描述
缺点:
仅使用角,斑点或线段等信息
有很多outliers(RANSAC剔除)

直接法(光度BA):

消除特征匹配,并直接最小化对齐像素的光度误差(像素强度差)
在这里插入图片描述
其中d是图像像素的深度,dj·qj将像素qj升级到其3D坐标
因此,优化参数为X = [T1,T2···TNi,d1,d2···dNj]>
直接方法的优点:
使用所有具有足够梯度幅度的像素,在纹理较少的场景中表现良好
缺点:
对初始化敏感:光度误差会增加非凸性
•对照相机曝光和白平衡变化敏感:需要进行自动光度校准
•对异常值(例如移动的物体)更敏感

3. BA-NET结构

特征量度BA算法:
估算深度和相机运动参数,最小化像素的特征量度差异:
在这里插入图片描述
Fi是图像的特征金字塔
使用反向传播算法(更能学习到SfM),而不是预训练CNN图像特征分类器
重要的是设计一个可区分的优化层(BA层)解决优化问题,BA层预测相机位姿T和深度图D在向前通过时进行,并将损耗从T和D反向传播到特征金字塔F进行训练
在这里插入图片描述

DRN-54(提取特征):卷积层替代最大池化层,特征图更加平滑,利于BA
原始的DRN储存效率低:卷积后是高分辨率特征图
解决:使用大步长卷积
DRN-54之后为每个图像构造特征金字塔,同时基础深度图生成器为图像生成多个基础深度图(最终深度图表示为这些基础深度图的线性组合),最小化特征误差来共同优化相机位姿和深度,end to end训练
特征金字塔为BA学习特征(类似于目标检测的特征金字塔FPN):
在这里插入图片描述
在原始RGB,预训练的CNN特征C3,金字塔学习的特征F3上定义的特征距离图:
在这里插入图片描述

可产生更平滑的目标函数
(b)中的RGB距离没有明确的全局最小值,因此光度BA对初始化敏感。
由预训练特征C3测量的距离具有全局和局部最小值
学习特征F3测得的距离具有清晰的全局最小值,这对于基于梯度的优化(例如LM算法)很有帮助

BA层:

最小化特征差来优化相机位姿和地图,使用LM优化迭代找到最小值:
难点:
1.达到指定的收敛阈值时,迭代计算将终止。基于if-else的终止策略使输出解X相对于输入F不可微。
2.在每次迭代中,会根据目标函数的当前值来更新阻尼系数λ。 如果某步未能降低目标,则将提高λ; 否则减小λ。 该if-else决策也使X相对于F是不可微。
F不可微,因此无法反向传播
解决:
在这里插入图片描述

软化if-else决策,产生可微分的LM算法:将当前目标值发送到MLP网络预测λ
在前向传递过程中,我们根据特征金字塔F和当前解决方案X计算解决方案更新ΔX:
1.计算特征度量误差E(X),X是前一次迭代的解;
2.计算雅可比矩阵,Hessian矩阵,对角矩阵D(X);
3.预测阻尼系数λ,我们使用全局平均池化来汇总每个特征通道所有像素上E(X)的原始值,并获得特征向量,再将其发送到MLP子网以预测λ
4.更新ΔX
在这里插入图片描述
将λ视为中间变量,并将每个LM步骤表示为有关特征金字塔F和前一次迭代的解X的函数g,∆X = g(X; F)。 因此,第k次迭代后的解决方案是:
在这里插入图片描述

◦表示参数更新(深度的加法和相机姿势的SE(3)指数映射)
等式相对于特征金字塔F是微分的,可以进行反向传播以进行特征学习
堆叠了四个全连接层,以根据输入的128D向量预测λ
ReLU作为激活函数,以确保λ为非负值

基础深度图生成

卷积网络用于单目图像深度估计作为紧凑的参数化(不是初始化)
使用标准的编解码器架构进行单目深度学习:DRN-54作为编码器,与特征金字塔共享相同的主要特征。 解码器是最后的卷积特征图,并使用这些特征图作为优化的基础深度图。
最终深度图由基本深度图的RELU组合生成
在这里插入图片描述
w是这些基本深度图的线性组合权重, w将在我们的BA层中进行优化
B代表从网络生成的128个基本深度图
D是包含所有像素的深度值的深度图
特征误差变为:
在这里插入图片描述
初始权重w0为任意图像的一维卷积滤波器,即D0 = ReLU(w0T B)

测试

在这里插入图片描述

标签:深度图,LM,BA,特征,论文,像素,NET,优化
来源: https://blog.csdn.net/weixin_44682965/article/details/112171432

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有