深度卷积神经网络的迁移学习方法范文研究与应用

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:vicky 点击次数:112
论文字数:36566 论文编号:sb2021042823022035347 日期:2021-05-14 来源:硕博论文网
本文针对迁移学习任务,对如何将深度卷积神经网络应用到迁移学习领域中的小规模数据集识别问题进行了深入的研究。与此同时,针对不同的情况,设计了三种迁移学习算法。本文主要的工作包括了以下几点:对于源域和目标域都有标签但任务不同的情况,现有方法大多采用固有的训练方式,即修改分类器层结合微调,此类方法忽略源域和目标域之间的内容差异性,特征提取主观性强。因此提出一种基于改进 ResNet 的深度迁移学习方法,通过增加网络层数提高模型的特征识别力。该算法对基于迁移学习的模型构建和训练方法进行了有益结合和改造,避免了因数据集的内容差异而导致的目标域特征识别力降低的问题,提高了识别率。

第一章 绪论

1.1课题背景和意义
机器学习算法已经在众多领域取得了巨大的成功。然而,绝大部分机器学习算法都有一个前提:训练集和测试集满足独立同分布的条件。数据分布不同时,需要重新收集数据,并且需要根据新收集的数据重新训练模型。但是,现实中重新收集数据并训练模型需要耗费大量人力和物力。因此,人们希望通过某种方法能够避免重新收集数据或者减少收集数据的成本。在机器学习领域中,迁移学习是解决标记数据难获取这一问题的重要工具,它放宽了训练集和测试集数据必须独立同分布的假设,通过减小源域和目标域之间的分布差异进行知识迁移,从而实现数据的标定。
2006 年,Hilton 等人[1]首次提出深度学习的概念,随后它被应用于各个领域。2012 年,AlexNet[4]在 ImageNet 计算机视觉挑战赛(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)上获得冠军,AlexNet 的成功带来了更多出色的神经网络结构的出现,它们不断被应用于各种机器学习任务中。DCNN 致力于直接提取更具表现力的特征,它依赖海量数据建立有效的算法模型,从而学习到更加高级的抽象特征,它的数据特征可以通过模型学习自动提取或者特征学习获得。数据依赖是 DCNN 中最严重的问题之一,我们需要重新收集数据并进行人工标记才能训练出一个新的 DCNN,整个过程将会耗费大量成本。而迁移学习可以有效缓解标记数据难获取的问题,这就激发了我们利用迁移学习解决深度卷积神经网络的数据依赖问题。因此,探究如何将迁移学习和深度卷积神经网络进行结合成为一个新的研究领域。与非深度卷积神经网络迁移学习方法相比,由于 DCNN 是直接对源域数据进行学习的,因此DCNN 迁移学习方法有两个优点:1)神经网络在训练过程中自动地提取特征,避免复杂的人工提取过程;2)在实际应用中实现端到端的需求。
..........................

1.2国内外研究现状
机器学习领域通常存在标记数据难获取的问题,而迁移学习是解决这一基本问题的重要工具[2]。迁移学习放宽了训练集和测试集必须是独立同分布的假设,利用源域的数据将知识迁移到目标域,这在一定程度上缓解了深度卷积神经网络对标记数据的依赖问题。DCNN 学习到的特征具有较强的鲁棒性,利用迁移学习可以学习到领域无关的特征表示,因此,将 DCNN和迁移学习结合,能充分利用 DCNN 的特征表达能力,有效地缓解数据依赖问题,并学习域不变的特征表示。不同的 DCNN 模型会产生不同的迁移效果,现如今,国内外研究人员提出一些深度卷积神经网络迁移学习方法用于语音识别、目标检测等领域。因此,本文的调研和分析重点主要基于深度卷积神经网络和深度卷积神经网络迁移学习两方面进行展开。
1.2.1 深度卷积神经网络研究现状及分析
在过去的几年中,DCNN 取得了令人瞩目的成果,目前是许多智能系统的基本工具。深度卷积神经网络技术克服了传统机器学习算法基于手工提取特征的缺点,能够自动提取特征,由此吸引了越来越多研究者的兴趣。DCNN 强大的学习能力很大程度上是由于采取了多个非线性特征提取阶段,可以从数据中自动学习分层表征。大量数据的可用性以及硬件技术的改进加快了 DCNN 的研究速度。
目前,DCNN 已被广泛应用于各种机器学习任务中。在更新神经网络参数的过程中,通过使用反向传播算法来获取网络各层的梯度,即为神经网络的链式法则。随着网络层数的增加,不可避免的会出现梯度消失和梯度爆炸问题。为了解决这些问题,许多优秀的 DCNN 模型相继被提出并取得了重大突破。1989 年,LeCun 等人[3]首次提出了一个名为 ConvNet 的多层卷积神经网络,它采用监督训练方法成功解决了灰度手写数字图像相关的识别任务。在此基础上,LeCun 于 1998 年提出了 ConvNet 的改进版本,即著名的 LeNet-5,它被应用于光学字符识别任务中并取得了里程碑式的成功。2012 年,Krizhevsky 等人[4]设计出了一个包括 5个卷积层和 3 个完全连接层的 AlexNet 模型,在百万量级的 ImageNet 数据集上,效果大幅度超过传统方法,从传统的 70%多提升到 80%多,该模型以 16.4%的 Top-5 错误率摘得 ILSVRC-2012 的桂冠,相比于第二名 26.2%的成绩有着显著的优势。AlexNet 开辟了深度学习在计算机视觉领域的里程碑,从此,ILSVRC 每年都不断被深度学习刷榜。
............................

第二章 相关背景知识

2.1迁移学习
所谓迁移学习,就是通过迁移相关领域的信息来提高一个新的领域的学习能力[2]。我们可以从现实世界中汲取经验,以了解为什么可以进行迁移学习。考虑两个想学弹钢琴的人, 一个人以前没有弹奏音乐的经验,而另一个人通过弹奏吉他具有广泛的音乐知识。具有广泛音乐背景的人将以前学习过的音乐知识迁移到学习任务中,将会以更有效的方式学习弹奏钢琴。
在迁移学习中,领域(Domain)和任务(Task)是两个重要概念。将之前学习过的任务叫做“源任务”,对应领域称为“源域”;将准备学习的任务叫做“目标任务”,对应领域称为“目标域”。下面给出相关概念的解释[2]:
2.1.1 迁移学习分类
迁移学习关注的重点是“何时对何内容采用何种方式进行迁移”[2]。其中“何内容”研究的是在源域和源任务中哪些知识是可以进行迁移的。这些知识通常分为两种,一种称为共有知识,即源域和目标域共有的知识;另一种称为特有知识,即源域或目标域所特有的。随后,需要解决的问题是 “采用何种方式”进行知识的迁移,这里的“何种方式”涉及到迁移学习采用的技术。最后考虑的是“何时”进行迁移,需要关注的是迁移的时机,若时机不对,不仅不能提升算法的性能,反而会产生影响,造成负迁移现象。如果源域数据的信息不仅没有用,反而会对目标域上的工作适得其反,便会产生负迁移[25][26]。产生负迁移的主要原因有:1)源域与目标域根本无相似性,没有可迁移的成分;2)源域与目标域具有相似性,但是选择的迁移学习方法不够好,没有找到源域和目标域的共性。为了防止负迁移,我们需要正确选择数据。
根据源域和目标域有无标签以及源任务和目标任务是否相同,可以将迁移学习分为归纳式迁移学习、直推式迁移学习、无监督迁移学习三种[10]。下表给出三种迁移学习下域和任务之间的关系,以及学习场景。
表 2-1 不同迁移学习学习场景
.....................

2.2深度卷积神经网络
CNN 作为优秀的特征提取器,允许从原始图像数据中对特征表示进行端到端的分类学习,从而避免了人类手工提取特征的过程。当处理复杂的大数据问题时,深度 CNN 通常比浅层CNN 具有优势。多层线性和非线性处理单元以分层方式叠加提供了在不同抽象级别学习复杂表示的能力。因此,在包含数百个类别的识别任务中,DCNN 比传统机器学习模型有显著的性能提升。深度架构可以提高 CNN 的表示能力,这一发现提高了 CNN 在机器学习任务中的应用。
2.2.1 深度卷积神经网络特点
DCNN 是一种多层前馈神经网络,每一层使用一组卷积核对进行多次变换。卷积运算有助于从局部相关的数据中提取有用的特征,将卷积核的输出分配给非线性处理单元,这种非线性为不同的反应产生了不同的激活模式,从而有助于学习图像中的语义差异。DCNN 是专门为处理图像而设计的,因此,每层的神经元在高度、宽度和深度这三个维度上被组织起来,就像图像中的像素会区分不同的颜色值。具有自动特征提取能力的 CNN,减少了对单独特征提取器的需求。DCNN 的重要属性是分级学习、自动特征提取、多任务处理和权值共享,主要是由卷积层、激励层、池化层以及完全连接层组成,下图展示了 Yann LeCun[3]应用在手写字体识别的经典 DCNN 结构。
图 2.1 深度卷积神经网络结构
....................

第三章 基于改进 RESNET 的深度迁移学习方法 ...................................... 19
3.1引言 ...............................................19
3.2相关工作 ......................20
第四章 基于 PE 散度实例过滤的深度域适应方法........................... 31
4.1引言 .........................................31
4.2相关工作 ...................................32
第五章 基于属性平衡的深度集成零样本学习方法........................... 44
5.1引言 .........................44
5.2相关工作 ....................................45

第五章 基于属性平衡的深度集成零样本学习方法

5.1引言
域适应任务通常要求测试类别在训练阶段有大量训练数据,并且这些方法将系统限制在一个封闭的类别集合中。然而在实际应用中,训练数据集中没有适用于测试集的样本,出现这种情况主要是由于两个原因,首先,现实世界中的样本通常遵循长尾分布,即大部分事物的数量是很少的,因此很难保证所有类别的存在,特别是那些稀有类别;其次,类别集合在不断增长,不可能使数据集保持最新状态[66]。零样本学习(ZeroShotLearning,ZSL)技术的出现,则在一定程度上解决了标签缺失问题[67],其目的是对未见类的样本进行分类。
零样本学习作为一种特殊的迁移学习,已经在目标识别任务中得到普及应用。ZSL 的目标是将在已见类上训练的分类器应用到这些未见类上,因此 ZSL 面临的关键挑战是如何对不同类别之间的相关性进行建模,以及如何将知识从已见类迁移到未见类。随着深度学习的不断发展,深度卷积神经网络成为各种领域中的先进技术,深度特征也被广泛应用到 ZSL 问题中。目前大部分的零样本学习方法的图像特征提取,都选择使用预训练后的 DCNN 来处理,利用成熟的深度卷积神经网络技术,不仅深层次的特征提取工作效率得到了大幅提高,零样本学习模型的识别准确度也得到了显著提升。
...................

第六章 总结与展望

6.1工作总结
迁移学习作为一个新兴的机器学习方法,能够利用标记样本丰富的源域数据学习有用知识,并迁移到标签数据稀缺的目标域学习预测模型,从而减少人力成本。而现有的迁移学习方法在理论和应用中仍存在较大发展空间。针对源域和目标域是否带有标签,任务是否相同,不同情况下的迁移学习方法有所不同。本文针对迁移学习任务,对如何将深度卷积神经网络应用到迁移学习领域中的小规模数据集识别问题进行了深入的研究。与此同时,针对不同的情况,设计了三种迁移学习算法。本文主要的工作包括了以下几点:
本文简要阐述了课题的研究背景和研究意义,调研国内外关于深度卷积神经网络和迁移学习的研究现状,简要介绍迁移学习的分类和方法,并对本文所用到的深度学习模型等相关技术作简要阐述。
对于源域和目标域都有标签但任务不同的情况,现有方法大多采用固有的训练方式,即修改分类器层结合微调,此类方法忽略源域和目标域之间的内容差异性,特征提取主观性强。因此提出一种基于改进 ResNet 的深度迁移学习方法,通过增加网络层数提高模型的特征识别力。该算法对基于迁移学习的模型构建和训练方法进行了有益结合和改造,避免了因数据集的内容差异而导致的目标域特征识别力降低的问题,提高了识别率。
针对现有深度域适应方法在减小域偏差时仅适配完全连接层,忽视卷积层的空间信息和语义上下文信息造成知识迁移过程中重要信息丢失的问题。提出了基于 PE 散度实例过滤的深度域适应方法,首先利用 PE 散度计算源域样本的相对权值,过滤易造成负迁移的源域样本,然后使用最大均值差异准则,联合匹配卷积层和完全连接层的边缘概率分布以解决欠适配问题,同时引入权值正则项,避免了权值下降为零的问题。
参考文献(略)

上一篇:面向高维删失数据的多任务生存分析模型研究与实现
下一篇:基于软件流水技术的深度卷积神经网络并行化研究