基于深度神经网络的服装关键点检测和类别属性分类思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:vicky 点击次数:
论文字数:32522 论文编号:sb2021081016363036850 日期:2021-08-22 来源:硕博论文网
笔者认为随着互联网和网上购物的快速发展,服装作为人们日常生活中的必需品,服装视觉分析是具有很大研究价值的。虽然我们在服装关键点检测和属性分类上取得了不错的成果,但是依然存在一些不足,对于细粒度的属性分类,仍然需要更为有效的方法提高召回率。在建模特征之间的关系上,可以考虑图神经网络,并且在特征提取上不仅仅局限于卷积神经网络一种范式。

第 1 章  绪论

1.1  研究背景和意义
由于电子商务的迅猛发展,在线购物带来了极大便捷,让人们足不出户就能买到日常生活的必需品,对社会经济的增长和个人生活均产生了巨大的影响。根据 2018 年国家统计局公布数据显示,服装是电子商务销售品类中的第一大类目,服装鞋帽针纺织品的零售额排在前列,占实体商品在线零售额的 25.2%,服装在线交易额逐年增长。由此看出,服装电子商务市场潜力巨大,且依然处于上升阶段。   正是由于处在这个信息大爆炸时代,人们无法一下子处理所有的信息,这就需要我们在海量的数据中快速地找到需要的信息。基于这个需求,在服装视觉分析领域中,服装图像检索和服装搭配推荐等逐渐发展成熟,但是在电商平台的“以图搜图”应用和时尚推荐系统中,这些应用远达不到人们的预期。
服装关键点检测和属性分类是服装视觉分析领域的基础性工作,做好基础研究是推进服装视觉领域发展的重要一环,对计算机理解时尚具有重大意义。目前,服装视觉分析领域面临的主要难点是:第一,衣服的款式,质地和剪裁通常会大相径庭。第二,衣物经常变形和咬合出现遮挡问题。第三,同样服装在不同场景下拍摄的图像通常表现出严重的差异,例如自拍照与在线购物照片。这些困难一直是服装视觉分析领域难点问题。
本文研究的内容是服装关键点检测和属性分类。该领域所用到的图像处理方法主要有两种,一种是传统手工特征,需要人工设计特定特征来提取,缺点是耗费人力物力且效果不佳。第二种是基于深度神经网络的图像特征提取方法,该方法通过反向传播来学习逼近目标,它能够提取到更高层的语义特征,从而使得分类更为精确。本文基于深度神经网络对服装的关键点检测和属性分类进行研究,探讨最新的技术,促进计算机理解时尚。
.....................

1.2  国内外研究现状
随着服装电子商务的快速发展,服装视觉分析应用引起了越来越多的关注。服装关键点检测和属性分类是服装视觉分析领域中的基础且具有挑战的研究问题,做好基础研究对上层应用具有很大的推进作用。上层的应用比如服装图像检索,分类,服装搭配推荐以及虚拟试衣等。在服装视觉分析领域中,基于传统人工设计特征的图像处理方法,主要的缺点是耗费人力,并且这些人工选取的特征还只是浅层特征,并不是高级语义特征,因此传统图像处理方法还满足不了现实需求。近些年来,计算机的性能和计算能力的不断提升,一种模拟人类大脑的神经网络技术,以更深的网络层数提取深层语义特征,将图像分类精度提升到了人类视觉水平,自此,基于深度神经网络的图像特征提取成为研究热潮。
1.2.1  传统图像处理
计算机处理图像的技术在不断更新,但在工业界,针对简单,快速,准确,小众的图像检测,传统图像处理方法依然是工业视觉中主要技术。传统图像特征有颜色特征、纹理特征、SIFT 特征等。
颜色特征是基于图像像素点的特征,描述了图像中对应目标的表面性质,同时它是图像的一种全局特征,适合表征无需考虑空间位置关系的图像。最常用的描述颜色的方法有颜色直方图、颜色矩等。颜色直方图最早是由 Swain 和 Ballard 等[1]提出的,它描述了整个图像中三个 RGB 元素的比例,而与每种颜色的像素位置无关。这种统计分布方法对幅值较小的图像旋转,平移,缩放和其他几何变换不敏感,并且对于模糊图像也具有一定的鲁棒性。
纹理特征也是描述图像中相应对象的表面属性的全局特征。纹理特征提取和匹配方法主要包括统计方法,几何方法,模型方法和信号处理方法等。统计方法与颜色特征不同,纹理特征计算统计的是某个像素及其领域内的灰度属性,它忽略了空间变换的影响,对噪声具有很强的鲁棒性。但是,在不同像素大小的图像上计算出的纹理可能会存在较大的偏差,并且还会受到照明和反射的影响。
.............................

第 2 章  相关技术研究

2.1  卷积神经网络的发展历程
2.1.1  卷积神经网络概述
自 2012 年的 AlexNet 以来,卷积神经网络(Convolutional Neural Network,CNN)就被证明是在计算机视觉领域中的一种重要技术。CNN 主要用于处理二维图像,其思路是通过一系列参数可调的卷积核对输入的二维图像进行卷积操作,继续将卷积在深度上进行级联,从而实现网络连接的局部化,减少参数量。另外,深层的神经网络通过逐步扩大感受野,可以提取输入图像中不同层次的模式特征,用于处理不同类型的任务。下面展示一个最简单的用来做图像分类的 CNN 模型的网络结构,如图 2.1 所示。
图 2.1 CNN 模型的网络结构
图 2.1 CNN 模型的网络结构
其中,卷积层是利用卷积操作来提取图像特征,池化层用来降低特征图的尺寸,保留更加重要的特征,并增加模型对于输入的平移不变性。最后的全连接层用来将特征图转换为一维的特征向量并进行 MLP 形式的连接,输出最终的预测结果。
...............................

2.2  结构特征学习
很多研究在设计网络结构上,使得模型变得越来越复杂。然而太过局限于设计神经网络,忽略了研究目标对象本身。我们应该深入对问题的观察和理解,增加先验信息的学习。这就需要我们给现有的深度神经网络模型增加人类的先验知识来帮助计算机理解图像。
结构特征学习是在深度神经网络的基础上引入高层的人类知识的一种方法,人类能够获得有关先验知识,并利用这些知识来推理计算机视觉中的知识。近年来,一些研究工作将先验知识建模为图形或树,以挖掘图像中标签或对象之间的相关性。例如在基于单目摄像头得到深度信息的预测任务中[56],基于图形模型的深度估计,是对不同尺度特征进行结构化建模,以学习它们之间的相关性。如图 2.7 所示。
图 2.7  不同分辨率特征的结构化建模
图 2.7  不同分辨率特征的结构化建模
........................

第 3 章  基于双向树结构模型的关键点检测.......................20
3.1  研究背景和动机....................20
3.2  基于双向树结构模型的服装关键点定位...................20
第 4 章  基于混合注意力的服装类别属性分类.........................30
4.1  研究背景和动机........................30
4.2  混合注意力...................30
第 5 章  总结与展望..........................40

第 4 章  基于混合注意力的服装类别属性分类


4.1  研究背景和动机
如今,服装视觉分析在产业界和学术界得到了迅速发展,同时也在电子商务和在线购物中得到了越来越多的应用。许多研究者在该领域做了很多的工作,如服装识别[83]、服装检索[84]、服装推荐[85]以及时尚趋势预测[87]等等。深度神经网络的快速发展以及大量服装标注数据的支持,极大地推动了这些研究的发展。本章的研究目标是服装的类别分类和属性识别,这个任务是服装视觉分析应用的基础问题和关键问题,改进其性能将会促进上层应用的发展,如服装推荐,同时可以帮助计算机很好的理解时尚。
在研究服装类别分类和属性识别过程中,以往的工作都意识到了关键点先验信息的重要性,并取得了一定的成功。如 Liu 等[43]利用带有标注关键点的服装数据集,提出了一种模型同时预测服装关键点和服装属性,并展示了服装关键点和属性预测的联系,如图 4.1 所示,表明了通过联合学习关键点和属性标签有助于提升衣服的识别,同时,图 4.1 (a)表明了加入关键点先验信息,提升了衣服识别的性能。图 4.1(b)展示了大量的属性可以更好的划分服装特征空间,从而有利于服装识别和跨域服装检索。
图 4.1  关键点与属性的联系
图 4.1  关键点与属性的联系

.............................

第 5 章  总结与展望


仅仅局限于深度学习模型的网络结构设计,很难解决服装图像复杂多变的问题,利用先验知识来促进深度神经网络的发展是一种趋势。先验知识与深度神经网络的结合需要考虑多种因素,如何利用先验知识来解决服装关键点检测和属性分类是一个需要研究的问题。
本文以研究服装关键点检测和属性分类为目标,主要创新性的成果如下:
(1)针对服装图像关键点检测遮挡问题,我们充分利用服装丰富的先验信息,提出了一种基于双向树结构模型。该方法首先利用卷积神经网络提取服装特征,接着在特征层上设计一种树状结构来建模关键点之间的空间位置信息和对称关系,树状结构中的信息流的传递方法可以通过卷积实现,使得关键点特征可以接收来自其他关键点信息,关键点自身特征与空间位置和对称关系是端到端联合学习的。最后,采用上采样网络恢复特征分辨率,利用底层特征可以很好的对深层语义特征进行补充,进一步优化关键点特征。该模型的核心思想是在关键点检测中,利用关键点之间的联系和相互作用,从而能够准确预测被遮挡的关键点。实验结果证明了,我们的方法有效提高了关键点的检测精度。
(2)对于服装类别与属性分类,本文利用人类大脑成像机制,结合注意力机制在计算机视觉中的最新成果,提出了一种混合注意力模型。该模型将衣服先验、通道与空间以及自注意力三种注意力模型相结合,衣服先验主要是利用服装关键点信息指导属性分类,通道注意力主要是对特征通道进行权重学习,空间注意力即是学习服装的空间位置信息,自注意力通过建模长距离依赖,以捕捉全局特征信息,最后将三种注意力模型得到的特征进一步融合学习。注意力模块的作用是让模型学习集中到服装区域,丢弃无用或无关特征,得到更加鲁棒的服装特征表达。该方法充分利用大脑成像机制,并利用深度神经网络良好的扩展性,有效缓解了服装图像背景复杂多样和衣服种类繁多的问题。
参考文献(略)


上一篇:基于Node.js的Web服务端框架思考与实现
下一篇:基于知识图谱的档案智能语义检索关键技术研究与实现