人群计数Bayesian Loss for Crowd Count Estimation with Point Supervision文章解读

2021-06-08 20:57:42 阅读：364 来源： 互联网

摘要

当前的人群计数大多是基于密度图估计，使用高斯核将标注点生成真值（Ground Truth）密度图，以真值密度图为监督信号，通过网络生成的密度图计数求和获得人群计数，以及计算损失。然而由于密集人群的重叠、遮挡和透视等原因，以高斯核生成的真值密度图很难使人群计数达到最佳效果。
本文中提出了贝叶斯损失，从标注点中构造了密度贡献概率模型，将贡献概率和每个像素点的估计密度的乘积相加，计算出每个标注点的期望计数，由真值1进行监督。我们的损失函数是对每个像素点的计数期望进行监督。
引用1

论文地址：link
GitHub：link

介绍

传统方法中，使用高斯核将标注点转换为真值密度图。

其中D(x_m）是密度图，x_m是像素的位置，m={1,2,…M}，M是密度图中的像素总数。y_n是标注点的标签，n={1,2,…N}，z_n是与y_n相关联的像素位置。

表示在x_m处的二维高斯分布，平均值为z_n。如果σ采用固定高斯核，则假设数据集中所有人具有相同的头部大小及形状，由于遮挡、不规则人群分布、透视效果等原因，这显然是不正确的。另一种解决方案是对每个n：σ_n∝d_n使用自适应高斯核，其中d_n是一个距离，取决于在空间域中的最近邻居。
在大多数方法中，使用上述真值密度图作为学习目标，并使用以下损失函数训练估计密度图，

其中F(·)是距离函数，D^gt为真值密度图，D^est是神经网络预测所生成的估计密度图。

贝叶斯损失

训练过程
引用2

x表示空间位置的随机变量，y表示标注点的随机变量。我们构造出以下似然函数来替代传统方法中真值密度图的生成。表示为当标签为y_n时，它出现在位置x_m的概率，

x_m是任意像素的位置，y_n是任意标注点的标签，z_n是与y_n相关联的标注点的像素位置。
该公式表示y_n对x_m的影响，即似然概率。使用高斯分布来表示，x_m离z_n越近，受到影响越大，即似然概率越大。
为了简化符号，我们在下面的公式中省略了随机变量x和y，

根据贝叶斯定理，给定x_m，x_m具有y_n的后验概率用以下公式计算，

该公式表示了x_m对y_n的贡献，x_m对y_n的贡献总值和都为1。
理解：结合上一个公式来理解就是，每个y_n对z_n的周边位置的影响是高斯分布的似然概率。反过来说，图片中x_m对y_n的贡献，则是x_m受到y_n影响的似然概率。

我们假设y_n的先验概率p(y_n)相等，即p(y_n)=1/N，由此第三个等式成立。
相关先验概率、后验概率与似然函数等参考博客link

利用后验概率p(y_n|x_m)和D^est，我们得出如下的贝叶斯损失。
设c_n^m表示为x_m对y_n贡献的计数。c_n是与y_n相关联的总计数，则c_n的期望为（即为出现y_n的期望），

理解：c_n表示为所有位置处对y_n的贡献的总数，即为使用求和∑求出x_m从m={1,2,…M}的位置处对y_n的贡献总和，表示为c_n^m。计算c_n的期望，可先计算c_n^m的期望，再进行求和运算。c_n^m的期望是x_m对y_n贡献（即为p(y_n|x_m) ）与D^est(x)(即为在x_m出现人的概率密度）中在x_m的密度值相乘。
已知真实情况下，所有位置对某个标注点的贡献和为1。则我们有以下损失函数，

其中F(·)是一个距离函数，在实验中采用了l1距离函数（曼哈顿距离，两数相减求绝对值），将每个标注点的损失相加。
特殊情况，当训练图像中没有标注点时，直接强制密度图的和为零。
我们的损失函数可以很好的被应用在使用标准的误差逆传播算法的卷积神经网络上。

在推断阶段，我们不需要预先知道后验概率p(y_n|x_m)，因为当我们对估计的密度图求和时，公式如下，

理解：交换求和公式后，p(y_n|x_m)表示x_m对y_n的贡献，根据贝叶斯公式的原理可知，对p(y_n|x_m)从m={1,2,…M}求和，即求所有位置对某个标注点的贡献和为1。即可得到最后简化后的公式。我们只需要对输入图片的人群密度估计图D^est(x)求和，即可得到该图片的预测目标计数，保证了我们方法具有好的可推广性。

背景像素建模

对于远离任何标注点的背景像素，将其指定给任意的标注点是没有意义的。通过上述计算将会得到一个较高的后验概率，表明该方法对于这些背景像素不太理想。为了解决该问题，更好的模拟背景像素，我们引入一类特殊的背景标签y₀。
引用3
图中x_m表示密度图中的某个像素位置，z_n^m表示为距离x_m最近的标注点y_n的位置z_n，z₀^m是定义的虚拟背景点。
为了定义背景的可能性，我们为每个像素构造一个虚拟背景点，

其中d是控制标注点和虚拟背景点之间的边距的参数。在上图中，对于定义的虚拟背景点，对于远离标注点的像素x_m，可以将x_m指定给背景标签y₀（z₀^m表示为背景标签y₀对应的像素位置）。
同样的，我们使用高斯核来定义以下公式，表示为当标签为y₀时，它出现在位置x_m的概率，

那么根据贝叶斯定理，后验概率可以重写为，

最后一个方程简化，我们假设p(y_n)=p(y₀)=1/(N+1),不失一般性，我们有以下后验概率，

该公式表示了x_m对标签y₀的贡献。
那么我们同样可以得到背景标签y₀的期望定义，

在引入背景像素后，整个密度图D^est的期望总和包括E[c_n]和E[c₀]。显然我们希望背景期望计数为0，每个标注点的期望计数为1。于是提出了以下增强的损失函数，

实验结果

使用MAE和MSE指标对四个基准人群计数数据集进行的基准评估，使用VGG-19进行训练，结果如下，

贝叶斯+在所有四个基准数据集上都达到了最先进的精确度。在最新和最困难的UCF-QNRF数据集上，它将最佳方法（CL-CNN）的MAE和MSE值分别降低了43.3和36.2。值得一提的是，我们的方法不使用任何外部检测模型或多尺度结构。
基准算法，贝叶斯损失，增强贝叶斯损失函数产生的概率密度图对比如下，颜色越暖，密度越高。

在稀疏区域，基线不能很好地识别每个人，而我们的方法在计数估计和定位方面预测的结果更准确。

文中我们还对似然高斯的标准差以及间隔值d进行了参数敏感度测试，并且评估了不同网络等因素对性能的影响。详情请见文章4.5节。

部分图文来源link

标签：Count,Loss,Crowd,yn,xm,像素,计数,密度,标注
来源： https://blog.csdn.net/Melancholia_/article/details/114520959

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

人群计数Bayesian Loss for Crowd Count Estimation with Point Supervision文章解读

摘要

介绍

贝叶斯损失

背景像素建模

实验结果