基于部件检测与分割的服装图像检索探讨与推广

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:33023 论文编号:sb2021121822251641330 日期:2021-12-21 来源:硕博论文网
本文是一篇计算机研究生论文,本文通过对服装实例分割数据集 iMaterialist Fashion 进行转换,在较大样本服装图像标注数据集的基础上,训练 Mask R-CNN 以建立服装图像检测与分割的深度学习模型,从而实现服装图像的检测与分割。利用自训练的 Mask R-CNN 模型提取服装主体图像、衣领图像、衣袖类别、口袋位置,并对衣袖类别、口袋位置进行编码以便于相似性比较。

第 1 章  绪论

1.1  研究背景及意义
近年来,随着互联网技术和电子商务的不断发展,网上购物[1]已经成为了人们日常生活中不可或缺的一部分。用户通过在线购物平台选择自己心仪的商品,不用担心时间、地点等条件的限制,为我们的生活带来了很大的便利。据数据统计,2019 年全球零售额为 25.0 万亿美元,其中 3.5 亿万美元为网络零售,比上一年增长 20.73%,预计到 2021 年全球网络零售总额将会突破 5 万亿美元,未来仍有持续增长的趋势。同样的在中国,由于新冠疫情的影响,网上购物进一步火热,2020 年国内网络零售额为 117601 亿元,同比增长 10.9%。由此可见,网上购物凭借其所提供快速、便捷以及全天候的服务,将会变得越来越流行。在巨大的互联网零售市场中,服装领域占有相当大的比重。如下图 1.1 智研咨询[2]数据统计所示,2011 年中国纺织服装电商交易总额为 1.4 万亿元,2018 年增至为 5.97万亿元,而 2019 年则为 6.69 万亿元,同比增长 12.06%,服装电商近几年一直处于快速增长的姿态。
计算机研究生论文怎么写
计算机研究生论文怎么写
随着服装电子商务的广泛流行,越来越多的人通过电商平台购买日常生活中必备的服装,如何在众多的服装商品中快速准确的挑选出消费者喜爱的服装,成为了热门的研究方向。为了能够让消费者在电商平台中高效准确的找到自己心仪的服装,基本上国内主流的电子商务平台都会提供检索功能,比如淘宝、京东等。消费者在电商平台购买服装时,需要在检索引擎内输入想要购买的服装的相关关键字或文本信息,则会出现大量的服装,消费者花费一定的时间浏览这些服装便可找到自己心仪的服装。
................................

1.2  国内外研究现状
1.2.1  服装图像分割
图像分割是图像处理中的非常重要的一项技术,同时也是一个经典的难题。图像分割就是将图像中具有相同性质的区域分割开来,并对图像中感兴趣的目标进行标记和定位,同时将目标和其他伪目标分离开来,为接下来要进行的目标识别和检索提供依据。目前,图像分割技术已经被应用于很多领域中。服装图像分割是进行服装检测和检索的预处理过程,其主要目的是从服装图像中提取目标区域(如衣服区域),去除与服装无关的信息。
早期的服装图像分割主要是基于人体相关部位检测来实现的,要求服装图像中必须存在人体。Yang 等[5]根据检测监控视频中人脸信息来对人体位置进行定位,从而实现前景分割。这种利用人脸和躯干之间的位置关系进行服装分割的方法,虽然能够实现服装分割,但仅适用于人物直立的图像,具有局限性。Huang等[6]提出了一种将 Hog 特征和 E-SVM 分类器相结合的服装分割方法,该方法虽然不依赖于服装之外的其他信息,但在服装款式和样式繁多的情况下分割准确率较低。Liu 等[7]提出了一种基于多目标服装图像的协同分割方法,该方法第一步是利用辅助数据集对服装图像的显著区域特征进行提取,并对图像做初步分割;然后对初步分割结果得到的可能区域图结构进行协同分割,得到多区域服装特征;最后,根据多区域服装特征的相似度以及共同对象分割,得到服装图像分割结果。对于复杂场景下的服装图像,这种方法的分割准确率较低,且存在协同分割方法效率低的问题。
近年来,深度学习凭借其强大的特征提取能力逐渐成为了图像领域的热门研究方向,一些研究人员将深度学习应用于服装图像分割领域。Hrkać 等[8]提出了一种基于改进 U-Net 网络的服装分割方法,该方法使用 CCP 数据集训练 U-Net网络,从而使得该模型可以适用于多种服装类别的分割。Martinsson 等[9]提出了一种基于 ResNeXt-FPN 的服装图像分割方法,该方法使用 FPN 网络和 ResNeXt网络相结合的方式来执行语义分割,并通过实验证明了使用基于 FPN 的方法对服装图像进行分割是可行的。Ihsan 等[10]提出了超像素特征提取器网络(SP-FEN),该以 FCN 为基础,引入超级像素编码器作为辅助网络,将提取的特征送入主分割通道。同时在训练步骤中使用了翻转、旋转和变形等数据增强技术来提高泛化性能。针对柔性服装分割问题,Inácio 等[11]提出了一种基于EPYNET 的服装分割网络,该网络专注于人体属性,如皮肤、头发等,通过 SSD模型分割图像中的人物,并使用特征金字塔网络和 EfficientNet 模型来执行分割任务,同时还使用了数据增强技术和降噪来提高方法的性能,它可以在不同的空间分辨率下进行高质量的分割。
...............................

第 2 章  相关技术介绍 

2.1  卷积神经网络
卷积神经网络(CNN)是深度学习领域中最具代表性的神经网络,也是应用最为广泛的神经网络之一。卷积神经网络的研究最早可以追溯到二十世纪六十年代,由生物学家休博尔研究关于猫大脑中的视觉系统而来。1998 年 Yann Lecun提出了卷积神经网络 LeN et-5[35],他将其应用于手写数字识别中,并取得了不错的效果。2012 年 Hinton 等[36]人提出了一个大型的深度卷积神经网络 AlexNet,它凭借其强大特征提取能力获得了 ImageNet[37]图像识别大赛的第一名。近年来,随着科学技术的不断发展,先后出现了许多经典的网络,如 VGGNet、GoogleNet、ResNet[38]等。目前,卷积神经网络被广泛应用于图像分类、目标检测、场景识别等领域。
2.1.1  网络的结构组成
卷积神经网络具有局部感知、权值共享等特点[39],采用局部感知的方式可以在很大程度上减少网络的参数,降低网络的复杂度,增强网络的抗干扰能力,并且还可以防止过拟合现象的出现。卷积神经网络主要由卷积层、池化层、激活函数[40]及全连接层组合而成。
卷积层的主要作用是利用卷积操作来提取输入数据的特征信息,它是卷积神经网络的核心部分。通常情况下,一个卷积神经网络会包含多个卷积层,每个卷积层都有其各自的作用,低层的卷积主要用于提取图像的低级视觉特征,如颜色、边缘、纹理等,而高层的卷积可以进一步提取图像的高级语义信息。图像在进行卷积操作时用到的参数有卷积核大小、卷积时的步长以及填充层数,卷积层输出的特征图的尺寸由这三者共同决定。卷积核的大小可以为比输入图像尺寸小的任意值,卷积核尺寸越大,则提取的特征就越复杂,常见的二维卷积核尺寸为 3×3或 5×5。 卷积运算过程如图 2.2 所示。输入数据为 5×5 的矩阵,卷积核为一个 3×3的矩阵,一次卷积运算的具体过程为:首先将输入左上角的 3×3 的矩阵与卷积核进行局部连接;然后将对应位置上的元素进行相乘;最后将相乘后的结果相加得到输出结果。在输入矩阵上自上到下,从左到右依次移动卷积核进行上述运算即可得到一个 3×3 的输出矩阵,其中卷积核每次移动的步长为 1。
........................

2.2 Mask R-CNN 算法
基于候选区域(regions proposals)的目标检测算法的核心是首先在图像中生成一系列的候选框;然后使用卷积神经网络提取候选框中的特征;最后在利用分类网络对这些特征进行分类的同时得到目标区域框的位置。最先提出来的基于候选区域的目标检测算法是 R-CNN[44],该算法使用选择性搜索算法来生成多个候选框。由于 R-CNN 大约会生成二千个候选框,并且需要对所有的候选框进行特征提取,计算量较大。同时该算法使用分类器 SVM 不是一个端到端的训练模型,训练比较麻烦。针对这些问题,Girshick 和一些研究者共同提出了 Fast R-CNN[45],相比于 R-CNN,该算法使用卷积神经网络直接提取整张图像的特征得到特征图,然后使用 ROI Pooling 将候选区域在特征图上做映射得到每一个候选区域对应的特征,节省了提取特征的时间。同时,使用 softmax 分类器代替 SVM 分类器,实现了端到端的训练。而 Faster R-CNN[46]在 Fast R-CNN 的基础了又做了进一步的改进,该算法使用区域候选网络(Region Proposal Network, RPN)代替选择性搜索算法,极大的提高了目标检测的速度。
近年来,实例分割已经广泛应用于各个领域,特别是何凯明等人在 2017 年提出的 Mask R-CNN 目标实例分割模型。Mask R-CNN 模型是基于 Faster R-CNN模型进行改进的,Faster R-CNN 模型的输出是目标物体在图像中的位置信息以及具体类别信息,而 Mask R-CNN 模型在此基础上增加了一个 Mask 掩码分支,该分支能够为图像中的各个实例生成高质量的分割掩码,即 Mask R-CNN 模型既可以进行目标检测也可以进行目标实例分割。Mask R-CNN 网络结构图如图 2.9 所示[13],Mask  R-CNN 模型首先利用卷积神经网络和特征金字塔网络[47](feature pyramid  network,  FPN)对输入图像进行特征提取,并将其得到的特征图送入区域候选网络(RPN),从而生成大量的可能包含目标的候选框;然后对区域候选网络生成的候选框进行 ROI Align 操作[48],其目的是将区域候选网络预测的候选框与特征图进行映射,并将感兴趣的区域调整为统一尺寸大小。最后将 ROI Align操作得到的结果送入分类分支、回归分支和 Mask 分支中,其中分类分支的作用是对图像中的目标进行分类,回归分支的作用是对图像进行目标检测,Mask 分支通过全卷积神经网络[49](Fully Convolutional Networks, FCN)采样得到分割掩码。
.........................

第 3 章  基于 Mask R-CNN 的服装检测与分割 .............................. 18
3.1  引言 .............................................. 18
3.2  服装图像检测与分割 ............................ 18
3.3  实验与结果分析 ................................ 20
第 4 章  服装图像检索....................................... 28
4.1  引言 ............................................... 28
4.2 VGG16 特征提取 ................................. 28
4.3  相似性比较 ................................... 30
第 5 章    基于服装图像检索的电商系统................................... 37
5.1  引言 ........................................... 37
5.2  系统需求分析 ........................................ 37
5.3  系统功能模块设计 ................................... 39

第 5 章    基于服装图像检索的电商系统

5.1  引言
近年来,服装图像检索已经成为了研究的热门话题,用户通过上传图片便可快速准确的找到与其相似的对应的商品,与基于文本的检索方式相比,该方法极大的节省了用户检索商品的时间,提高了用户的网上购物体验。前面的章节中已经详细的介绍了本文实现服装检索的方法,本章节主要介绍基于服装图像检索的电商系统的设计与实现。
随着移动互联网的不断普及,手机购物已经逐渐成为了一种主流趋势。微信小程序具有“触手可及,用完即走”的优点,用户不需要下载安装,只需要在微信平台进行搜索或扫描其对应的二维码便可打开使用[55]。同时考虑到应用的跨平台性,为了节约开发成本,本文采用客户端(小程序)和服务端分离的架构,客户端以小程序作为载体,后端使用基于 java 的 web 应用来实现。本系统的整体架构如图 5.1 所示。
计算机研究生论文参考
计算机研究生论文参考
.................................

第 6 章  总结和展望

6.1  工作总结 随着互联网的发展和电子商务的不断普及,网上购物已经成为了人们购物的重要方式之一。由于服装作为人们日常生活中的必需品,并且在网络零售中占据相当大的份额,因此人们在网上购物的过程中对服装检索的需求越来越大。基于文本的服装检索主要是通过用户输入的关键字进行模糊查询的方式实现检索,这种方法需要人工对图像的语义信息进行标注,并且标注信息带有主观性,这些会对检索性能造成影响。近年来,基于内容的服装检索取得了不错的效果,其主要是通过对图像之间的特征进行相似性度量的方式来实现检索。目前,大多数基于内容的服装检索主要是使用图像的颜色、形状等低级特征,无法对图像的高级语义特征进行描述。因此,本文对基于深度学习的服装图像检索方法进行了研究,主要完成了以下工作:
(1)通过对目前比较流行的服装检索方法进行对比,发现了当下的服装检索方法基本上都是依赖于图像的全局特征,并没有考虑服装部件的相似性,因此本文提出了一种综合比较服装主体、衣领、衣袖、口袋四者的相似性的检索方法,并对每个部分的相似性赋予不同的权重。
(2)通过对服装实例分割数据集 iMaterialist Fashion 进行转换,在较大样本服装图像标注数据集的基础上,训练 Mask R-CNN 以建立服装图像检测与分割的深度学习模型,从而实现服装图像的检测与分割。利用自训练的 Mask R-CNN 模型提取服装主体图像、衣领图像、衣袖类别、口袋位置,并对衣袖类别、口袋位置进行编码以便于相似性比较。
(3)得到服装主体图像、衣领部件图像、衣领类别信息、口袋位置信息后,利用 VGG16 卷积神经网络分别提取服装主体、衣领部件图像的 512 维的特征向量。通过计算待检索图像的服装主体、部件(衣领、衣袖、口袋)与数据库中的服装主体、部件之间的相似度得到服装各个部件的相似度,并对其进行加权求和得到总体相似度。根据总体相似度的大小对检索结果进行排序,返回最为相似的服装图像,完成检索。
参考文献(略)

相关计算机论文论文