首页 > 其他分享> 文章详细

论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015

2019-07-13 19:42:03 阅读：331 来源： 互联网

标签：模态人名检测人脸聚类 2015 FCM 标注

期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀，张翌翀
文末附人脸标注相关论文下载链接

文章目录

摘要
技术

人脸检测与特征表示（与2012年吴伟硕士论文《跨模态间的人脸与人名对齐方法研究》方法一样）

**人脸检测**

人名检测与聚类

人名检测
人名聚类

基于FCM聚类的标注

数据集
实验和分析
参考文献

摘要

论文提出基于模糊 C 均值（Fuzzy C-Means，FCM）聚类算法的跨模态人物图像标注方法，使用相关的人脸特征及文本语义，结合具有问题针对性的算法，建立有效的跨模态人物图像标注机制，进而对人物类图像进行标注。

论文的贡献在于将人脸-人名匹配作为一种双模态媒体语义映射的问题进行处理，在双模态媒体（人脸图像与人名）的语义表达之间建立相应的关联分布，通过评估这种双模态媒体语义表达之间的相似关联性，进而针对人物图像标注最终衡量人脸与人名之间各种匹配方式的相对好坏。

技术

人脸检测与特征表示（与2012年吴伟硕士论文《跨模态间的人脸与人名对齐方法研究》方法一样）

人脸检测

在人物图像中找到人脸所在的位置，检测出里面出现的人脸；
针对人脸检测，首先把人物图像转为灰度图，再进行直方图均衡化去除光照影响后，然后采用 Viola-Jones 检测器来进行人脸检测，最后把检测出的人脸图像统一尺寸以灰度图形式进行保存
###人脸特征表示
将人脸图像转化为特征向量。
。针对人脸特征表示，通过利用差分高斯滤波器弥补低频率的光照变化和抑制噪声，以此来对提取出的人脸进行归一化预处理。采用脸部特征点定位方法定位出人脸的 9 个脸部特征点（每只眼睛的左右角、嘴巴的左右角、鼻子的左右鼻孔以及鼻尖），并额外增添 4 个脸部特征点（两只眼睛的各自中心、嘴巴的中心、两只眼睛之间的中点）来更大程度上覆盖整个人脸区间。最后，从归一化处理后的人脸中分别为这 13 个脸部特征点在同一尺度中计算 Sift 算子，最终将每张人脸表示为 13*128=1,664 维的特征向量，并利用两张人脸对应的 13 个特征点的 Sift 算子间的平均欧式距离作为此两张人脸在该特征空间下的距离度量方式，进而实现有效的人脸相似性度量。

人名检测与聚类

人名检测

在相关联文本中找到人名信息。
针对人名检测，需要在每段相关联文本中检测里面出现的人名。考虑到文本中人名出现的特点，即全称人名一定会至少出现一次，而且有一些人名机构包含并非想要的人名。因此，采用 Stanford NLP 包来进行人名检测，具有很高的正确人名检测率。

人名聚类

将同一人物的不同人名表达形式合并。
针对人名聚类，由于在同一段文本中，一个人名可能出现多次，如“Barack Obama”、“The president、Barack Obama”和“Obama”都属于同一个人，因而需要把一段文本中指向同一个人的名词实体进行聚类。为此，采用两种方法共同来进行人名聚类，首先利用 Ling PipePackage 来获得部分名词之间的共指性来解决，然后考虑到对于 Stanford NLP 包进行人名检测时，有时会把单独出现人名的部分名称，比如“Obama”检测为机构或组织，所以在检测人名之后，再用检测为机构和组织的名词对检测为人名的名词进行字符匹配，如果完全匹配上，则是指向同一个人的部分人名，也加入到该人名类中，进而能对文本中的人名进行准确的检测与聚类。

基于FCM聚类的标注

FCM 聚类的问题可描述为：给定 F 个数据样本，将这些数据聚为 C 个类。而这里所介绍的算法是在经典的模糊 C 均值聚类算法上，相对于跨模态人物图像标注问题的特殊性进行优化后得到。针对人物的特别聚类问题可描述为：给定 F 个人脸特征向量，将这些数据分为 C 类，每一类代表一个新闻人物，且分配过程具有一些约束，限制人脸特征与人名出现在同一篇新闻中才进行聚类。

数据集

Labeled Yahoo! News Data
该数据集总共包括 20,071 条人物新闻数据，所有的这些新闻数据总共包括 31,147 张人脸图片，而这些人脸图像属于 10,397 个不同人。

实验和分析

Guillaumin等和 [14] Pham等在论文中提出的用于处理同样问题的方法，基于整体数据集分别获得 54.41%和 55.61%的跨模态人物图像标注准确率。相比较而言，本文所提出的方法取得了相对较好的标注性能，最高的标注准确率值达到70.62%，在一定程度上优于当前这两种方法。

参考文献

论文提到的两人的论文：
[13] Guillaumin, M., Mensink, T., Verbeek, J., and Schmid, C.2008. Automatic face naming with caption-based supervision[C]. Proc. of CVPR 2008: 1-8.
[14] Pham, P.T., Moens, M.F., and Tuytelaars, T. 2010. Cross-media alignment of names and faces[C]. IEEE Transactions on Multimedia, 12(1): 13-27.

标签：模态,人名,检测,人脸,聚类,2015,FCM,标注
来源： https://blog.csdn.net/lingpy/article/details/95779439

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9