基于深度学习的特定目标情感分类模型探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:vicky 点击次数:
论文字数:33326 论文编号:sb2021102711450039157 日期:2021-11-04 来源:硕博论文网
本文是一篇计算机论文,本文对提出的网络模型均进行了充分的实验,通过 Pytorch 深度学习框架,在公开的 SemEval 数据集上进行训练和实验,结果证明本文提出的特定目标情感分类模型在分类精度上优于传统的方法。

第一章 绪论

1.1  研究背景及意义
随着互联网的高速发展以及网络终端用户的迅猛增长,越来越多的用户倾向于在网络上发表评论、观点、看法,随着这种由用户产出的文本信息爆炸式的增长,依靠人工为主的方法已然不能满足文本分析的需求,亟需通过情感分析模型来挖掘海量信息背后有价值的内容;特定目标情感分类在各个领域都有大量的应用场景,在网购电子商务领域,用户通常会对于商品的体验、质量发表评论,从这些主观的评论中可以看出用户对于商品的情感倾向,从而帮助商家更好的改进商品以及帮助用户进行更好的决策;在社交领域,随着微博、推特、弹幕等社交载体的迅速发展,人们可以很方便的通过这些平台对于热门话题进行讨论,通过对这些社交评论进行分析,可以了解到用户群体对于热点话题的大致情感倾向,从而了解当前的舆论导向。
特定目标情感分类作为情感分析领域中的一项子任务[1-3],其目的在于分析社交网络短文本中用户对于不同事物所发表的观点情感倾向。不同于分析整个句子的情感倾向,特定目标情感分类目的在于分析特定目标背后所包含的情感极性(包括积极、中性和消极)。例如在句子“Great food but the service was dreadful !”中,目标“food”表达的是积极情感,目标“service”表达的是消极情感,所以相较于分析整个句子,特定目标情感分类能更好的挖掘用户对特定事物的观点。
传统的情感分类包括基于人工设计特征和机器学习两种,基于人工设计特征的主要包括词袋模型,语义解析等其他语义特征[4-7]。基于机器学习的方法无需依靠人工设计特征,依靠机器学习模型对训练集拟合,获取在测试集上的泛化能力,在特定目标情感分类任务中相比于人工设计特征的模型得到了优异的结果[8-9]。传统机器学习模型[10-12]由于其浅层设计,无法在更深层次的层面上进行情感特征挖掘,同时传统机器学习模型依旧依靠一些外部如句法分析等语义信息。
.........................

1.2  国内外研究现状
早期的研究工作中使用的是传统的机器学习方法,分为无监督学习方法[18-22]和监督学习方法[23-27]两种,其均需通过使用大量的人工特征来提升模型性能,这些人工特征需要对输入进行大量的预处理和复杂的特征工程,人工特征的设计优劣很大程度上决定了模型的性能。常用的情感分类方法主要包括朴素贝叶斯、支持向量机、决策树等,在情感分析任务中,这类方法通过对数据集的信息提取和特征构建,取得了比基于规则方法更好的分类效果,通过结合文本的词性特征、情感特征等,将文本中的词语映射为多维向量,学习到更多的特征信息。
基于机器学习的方法通常把数据标注为积极、消极两个类别,代表文本的不同极性,在文本情感分析任务中,机器学习方法通过对数据集文本中词语的信息进行信息抽取和特征构建,取得了很好的分类效果,机器学习的方法节省了任务中的人力和花费的时间,在不需要依赖过多特征工程和人工规则的情况下,比使用传统规则的方法有更好的情感倾向性预测效果,但是这类方法需要训练多个分类器并结合各种各样的人工规则来完成输入文本的极性判断,在一定程度上加大了处理任务的难度。
近年来,随着深度学习的发展[28-29],大量使用神经网络的方法被提出[30-33],神经网络需要接收输入信息的向量化特征表示,在 NLP 任务中,主要是文本内容中词语的词向量,词语的向量表示方法有词语的一元词特征、二元词特征等信息,Tang 等[30]提出 target-dependent long short term memory(TD-LSTM),使用两个 LSTM 分别对包含目标的左半部分和包含目标的右半部分建模,再将两部分的输出拼接,以此来充分考虑句子的上下文,同时对上文和下文两部分分别进行语义编码得到两个语义向量, 再用这两个语义向量拼接的向量进行情感分类,该方法通过 LSTM 利用句子的上下文信息,  但 LSTM 对长句表现不佳,这种做法可能丢失远距离词的情感信息。Wang 等[31]提出 attention-based long short term memory with aspect embedding(ATAE-LSTM),通过使用注意力机制[34-35]来关注目标在句子中的重要信息,利用单向 LSTM 获得各个单词的上文信息,再利用注意力机制加权求和获得句子表示,通过该句子表示进行情感预测;其存在的问题主要有两个:(1)单向 LSTM 只能获取上文信息,无法获取下文信息;(2)简单的注意力机制使注意力过于分散,难以获得所有情感信息,且容易引入过量噪声。梁等[32]将卷积神经网络和注意力机制结合来获得目标更深层次的情感特征,提出一种多注意力卷积神经网络用在特定目标情感分类任务中,和基于注意力机制的网络相比,可以接收句子的平行化输入,大大降低了模型的训练时间;同时提出的词性注意力机制可以让模型充分利用和学习输入文本的情感信息,弥补仅仅依赖内容层面注意力机制的不足,以及通过双向扫描算法,能有效标识不同词语在句子中的重要程度,使卷积神经网可以充分利用文本每个词语的位置信息。
...............................

第二章 相关工作

2.1  深度学习
深度学习作为机器学习的一个分支,它以神经网络[50-53]为架构,通过优化器[54-55]与损失函数[56]寻参,再对训练数据进行拟合,从而获得在测试数据上一定程度的泛化能力的算法,相比机器学习而言,深度学习往往有着深层的结构,是由多层非线性函数构成,所以相比浅层机器学习模型而言,深度学习模型往往能学习到更为深层次的数据表征,同时无需人工设计特征,深度学习会根据梯度反向传播从而生成符合数据的特征。
为了处理像语言文字和语音序列这一类的时间序列信息,循环神经网络(Recurrent Neural Network, RNN)[57-58]被提出,RNN 的特点在于有循环路径,利用这种循环路径,无论上下文有多长,RNN 都会记忆上下文中的信息,从而处理任意长度的时间序列信息,即隐层向量表示可以内部不断的循环,一边记忆过去的信息,一边更新最新的信息;所以 RNN 除了在层之间建立连接外,在自右向左时间层之间也建立了连结,将 RNN 循环结构展开后的神经网络架构如图 2-1 所示:
图 2-1 循环神经网展开结构
图 2-1 循环神经网展开结构
............................

2.2注意力机制
注意力机制(Attention Mechanism)[63-64]作为深度学习中最为重要的技术之一,其借鉴了人类利用自身注意力从大量信息中迅速找出自身所需要的信息,人类的注意力机制是自发的,深度学习中的注意力机制参考了人类注意力使用的方式,从而被广泛的应用于的各种应用场景如语音识别,自然语言处理,图像处理中,并取得了突出的结果。
在资源分配不均匀,同时数据量过大的情况下,将有限的计算资源分给更重要的任务显得尤紧要,在深度学习中,随着模型层数的加深,以及模型参数的变多,模型的表达能力随之变得更强,从而模型所存储的信息也会随之增大,在信息过于臃肿的情况下,引入注意力机制可以可以筛选出最为关键的信息,从而让模型专注于该信息,降低对其他无关紧要信息的关注度,忽略其他多余的噪声,从而提高模型的整体性能。 在深度学习模型处理大量输入数据时,使用注意力机制可以做到只处理关键信息,从而提高效率,例如在特定目标情感分类任务中,给定一个句子,要找出能准确表达目标实体的情感特征词,这个时候就可以利用注意力机制筛选出与目标最为相关的词,从而最大程度上提高准确率。
这就像人类平时注意一幅图像时,我们会关注自身需要重点关注的区域,忽略其他不重要的地方,然后对重点区域进行仔细深入的查看,并投入更多的注意力在上面,从而获得该区域一些细节信息,忽略不重要的信息,通过这种机制可以在资源有限的情况,专注于最有价值的信息。
图 2-6  图卷积网络流程图
图 2-6  图卷积网络流程图
.............................

第三章 基于目标特征融合的图卷积网络模型 ........................... 18
3.1  引言 ......................................... 18
3.2  模型设计 ......................................
第四章 基于多目标储存建模的图卷积网络模型................................. 27
4.1  引言 .................................... 27
4.2  模型设计 ................................... 27
第五章 基于改进依存句法树号预训练语言模型的图卷积网络模型............................. 38
5.1  引言 ................................ 38
5.2  模型设计 ............................... 38

第五章 基于改进依存句法树号预训练语言模型的图卷积网络模型

5.1  引言
本文在前两章细致分析了基于图卷积网络的特定目标情感分类模型,从不同的视角对图卷积网络模型进行了改进,从而提升了模型的性能,为了进一步改进模型,本章对第三章提出的网络模型,从进一步提取目标实体特征与词向量的视角进行改进;在本章中,以第三章提出的 AFGCN 为基础模型,对其依存句法树进行改进;同时将原有的 GloVe 词向量改为隐层维度更大、表达能力更强的 BERT 词向量,使改进后的模型的拥有面向目标的依存句法树以及更为符合上下文语境的词向量。
在第三章提出的 AFGCN 模型中,该模型虽然充分利用依存句法树上与目标由依存关系的词,来填充目标;但其依存句法树使用的是依据句子而生成,而数据集中存在大量存在于同一句子中的目标,此时沿用同一依存句法树会存在无法充分利用目标特征的缺点,从而丢失了一些关键的信息;其中一个解决方法在第四章中,针对同一句子中的多个目标,重新设计了多目标依存图来建模多个目标之间的依存性,从而使不同目标之间可以依据依存度的高低,关注到其他目标上有效的情感特征词,然而,这种做法可能会造成多个目标之间互相干扰的缺点;所以本章据此,根据句子的依存句法树,以目标为中心,重新设计面向目标的依存句法树(Aspect-oriented Dependency Tree, ADT),针对每个目标生成其特有的依存句法树,从而充分利用了目标的特征,也避免了目标之间交互时引入干扰噪声的问题。
为了增强模型的表达能力,同时拥有句子在特定语境下不同隐层表示的词向量,本章使用 BERT 词向量来替代原先的 GloVe 词向量,使句子中每个词在高维空间中有更加准确且符合语境的隐层表示,本章模型相较于其他模型,有以下几点优势:
(1)使用预训练语言模型 BERT 作为模型的词向量。
(2)针对每一个目标,对其依存句法树进行改进,生成其特有的依存句法树上。
(3)在改进依存句法树中,通过保留不同权重的边来增强目标与情感特征词的关联性,同时去除不必要的噪声。
.......................

第六章 总结与展望

6.1  总结
特定目标情感分类旨在准确识别出句子中目标实体所表达的情感极性,不同于分析整个句子的情感倾向,特定目标情感分类的研究重点在于挖掘目标实体与句中情感特征词的关联。考虑人工设计特征的复杂与繁琐,近年来,随着深度学习的发展,特定目标情感分类中基于深度学习的方法得到了广泛的使用,本文在这个方向上进行了大量的研究与实验,为了更好的挖掘目标实体与情感特征词的关系,从句法依存分析的角度出来,提出了三个以依存句法树为核心的图卷积网络模型 AFGCN、MDGCN 和IBGCN,具体的工作内容与创新点如下:
(1)提出基于目标特征融合的图卷积网络模型(Aspect-feature Fusion with Graph Convolutional Network, AFGCN),该模型将图卷积网络从句法依存分析角度筛选出的特征信息,与注意力机制从整个句子中筛选出的关键信息相融合,从而充分挖掘了目标实体与句中情感特征词的关联;在编码部分,根据句子中各个词离目标的距离的远近,分别乘上对应的位置权重参数,同时将目标实体的隐层表示置零,从而扩大了目标实体周边词对目标的影响,减少了远距离词的噪声引入和目标自身的干扰,提高了分类精度。
(2)提出基于多目标依存建模的图卷积网络模型(model Multi-aspect Dependencies with Graph Convolutional Network, MDGCN),考虑到同一句子多个目标之间,往往存在关联,为了能够有效构建同一句子中多个目标之间的依存性,本文提出提出多目标依存图来构建多个目标之间的依存性,从而缓解了单个目标受限于依存句法树的限制而无法找到更有效的情感特征词的局限性,同时根据多目标依存图中的不同边权重大小的选择,可以提高对包含特定数量的句子的准确性,从而提高了模型的性能。
参考文献(略)