结合全局词向量特征的循环神经网络语言模型_李华

基于主题模型的文本情感和话题建模的研究

基于主题模型的文本情感和话题建模的研究随着互联网的快速发展以及社交媒体的崛起,用户生成的大量文本等数据日积月累,其中,包含篇幅较长的新闻文本、篇幅不一的评论文本以及篇幅较短的社交媒体文本,例如,微博、推特文本。新闻文本之类的文本一般描述重大事件、科学发现等内容,虽然单一文档中包含信息量大,但是文档涉及话题比较固定。评论文本中包含大量用户对评价对象的主观评价,虽然文本长度不一,但是包含的信息相对丰富。不同于新闻之类的文本和评论数据,虽然单条微博文本长度较短且信息量少,但是更新速度快,数据规模大,涉及领域广。这些海量的文本数据中包含大量有实用价值的信息。但是如何挖掘这些文本中隐藏的语义结构信息是目前自然语言处理和文本检索领域的一大研究难点。主题模型是一种比较热门且有效的方法,该方法通过词语之间在文档中的高阶共现模式挖掘文本中的语义结构信息。主题模型的技术已经应用到各个研究领域并且取得了不错的成果。本文以新闻文本、评论文本、微博文本三种不同的文本为实际应用背景,对于话题建模以及情感相关的话题建模展开了研究。因为新闻文本中一般包含客观的话题信息,而评论文本和微博文本中包含大量的情感信息,因此,本文针对新闻文本只建模话题信息(不考虑文本的情感信息),而针对评论数据和微博文本则建模话题和情感两种信息。本文的工作主要基于生成式主题模型,用改进的生成主题模型抽取文本的话题或者情感相关的话题。其中,现有的针对新闻文本的主题模型和针对评论文本的情感主题模型,并没有合理地考虑文本中词语或者实体之间包含的语

义知识。同时,现有的工作并没有针对短文本的情感和话题建模提出有效的模型。为了解决上述的问题,本文重点研究话题建模或者情感相关的话题建模中的三个重要的问题:融合知识库中的语义知识建模新闻文本的话题,融合词语之间的语义知识建模评论数据中的情感和话题以及融合用户和时间信息建模微博短文本的情感和话题。具体研究内容如下:(1)本文分析现有的话题建模方法在新闻文本中的不足,即单纯依靠语料中词语之间的高阶共现模式建模话题。当语料中的有些词语没有充分的共现模式,主题模型不能很好地挖掘它们的语义信息。为了克服这一问题,本文研究一种融合维基百科知识到新闻文本中的主题模型,也就是利用外界知识库中的概念和分类知识弥补文本中词语共现模式不足的问题。本文提出一种维基百科知识主题模型(WCM-LDA)。WCM-LDA模型同时建模文本中的词语和实体,并且引入了实体在知识库中对应的概念和分类知识,因此WCM-LDA模型可以缓解建模话题时词语共现模式不足的问题。另外,WCM-LDA模型输出每个话题的词语、概念和分类,可以更加直观地展示每个话题。(2)在评论数据中词语之间的先验语义关系对于情感相关的话题建模同样尤为重要,但是现有的情感主题模型只能通过共现模式挖掘词语之间的语义关系,有些词语在小规模的数据集中没有充分的共现模式同样会导致情感和话题建模的质量不佳。不同于前面的新闻文本中包含了大量实体,可以引入实体对应的知识。评论数据中更多的是评论对象的属性词或者评价词,建模评论文本的情感和话题时,更需要引入的知识是属性词或者评论词语之间的语义关系。因此,本文研究一种引入外

【CN110083833A】中文字词向量和方面词向量联合嵌入情感分析方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910312290.6 (22)申请日 2019.04.18 (71)申请人东华大学地址 201600 上海市松江区人民北路2999 号 (72)发明人周武能　何学辉　 (74)专利代理机构上海申汇专利代理有限公司 31001 代理人翁若莹　柏子雵 (51)Int.Cl. G06F 17/27(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称中文字词向量和方面词向量联合嵌入情感分析方法(57)摘要本发明公开一种中文字词向量和方面词向量联合嵌入CNN -LSTM情感分析模型。包括：字词向量联合嵌入表示，词向量和方面词联合嵌入表示，卷积神经网络整合句子特征和方面词特征，句子特征和方面词特征联合输入LSTM神经网络，利用LSTM的时序记忆功能对文本特征进行排序，并且添加基于方面词的注意力机制，最后用全连接层与soft -max函数判断情感类别。由于词语中的汉字对词语的意思具有一定的表征作用，中文字词向量结合嵌入可以使共享汉字的词语之间产生了联系。方面词和评论中的词向量组合输入神经网络训练，可以提高评论内容主题情感判断的准确度。卷积神经网络将二者特征融合，进一步提高情感分析模型的准确度。权利要求书1页说明书3页附图2页CN 110083833 A 2019.08.02 C N 110083833 A

权　利　要　求　书1/1页CN 110083833 A 1.一种中文字词向量和方面词向量联合嵌入情感分析方法，其特征在于，包括如下步骤：步骤一、载入中文商品评论语料库，并将语料库按比例进行分割，分为训练集和测试集；步骤二、利用jieba分词工具对训练集和测试集分别进行分词处理；步骤三、利用神经网络模型进行字词向量联合预训练，得到词语的初始化词向量和汉字的初始化字向量表示，即得到字词向量联合嵌入表示；步骤四、利用LDA模型对主题aspects进行建模，提取商品评论中的方面词，并且线性的将方面词与词向量结合，得到词向量和方面词联合嵌入表示；步骤五、将步骤三中得到的字词向量联合嵌入表示输入到卷积神经网络一提取出不同维度的特征，然后经过池化操作得到字词向量联合嵌入表示的低维特征向量；步骤六、将步骤四中得到的词向量和方面词联合嵌入表示输入到卷积神经网络二提取出不同维度的特征，然后经过池化操作得到词向量和方面词联合嵌入表示的低维特征向量；步骤七、将步骤五得到的低维特征向量和步骤六得到的低维特征向量组合加权，即分别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模，得到拼接建模向量；步骤八、利用LSTM神经网络，将步骤七得到的字词向量和方面词向量的拼接建模向量输入到LSTM中，利用LSTM的时序记忆功能对文本的特征进行排序，得到隐藏层当前的隐状态H；步骤九、LSTM输出的隐层表示与主题aspects向量拼接后作为输入，经过一层神经网络得到的新的隐层表示，给当前的隐状态添加注意力机制，通过自动加权的方式决定输入文本需要关注的部分，分别得到句子向量的概率分布；步骤十、最终的句子向量经过softmax函数判断情感类别的概率，得到情感结果。 2.如权利要求1所述的一种中文字词向量和方面词向量联合嵌入情感分析方法，其特征在于，步骤三中，在进行词向量训练的时候，将词语中把组成词语的汉字单独抽取出来和词语一起进行训练，使那些共享汉字的词语之间产生了联系，词语中的汉字对词语的意思具有一定的表征作用。 2

融合词向量及BTM模型的问题分类方法

2019年2月计算机工程与设计 Feb.2019 第％〇卷第 2 期 COMPUTER ENGINEERING ANDDESIGN Vol.40 No.2融合词向量及BTM模型的问题分类方法黄贤英，谢晋+，龙姝言 (重庆理工大学计算机科学与工程学院，重庆400054) 摘要：针对传统短文本分类算法对问题分类效果不佳的问题，提出一种融合词向量及B T M模型的问题分类方法。使用 Word2vec对问题语料库进行训练得到词向量；对语料进行基于吉布斯采样的B T M主题模型构建，得到文本主题扩展向量；将文本主题扩展向量与词向量拼接得到新的问句扩展文本，利用S V M进行文本分类。实验结果表明，该方法在准确率、召回率及F值上的表现均有提高。关键词：问答系统'问题分类；词向量'B T M主题模型；问句扩展中图法分类号！TP391 文献标识号：A文章编号$ 1000-7024 (2019) 02-0384-05 doi: 10. 16208!. issnl000-7024. 2019. 02. 015 Q u estio n classification m ethod com bining w ord vector and B T M m odel H U A N G X ia n-y in g,X IE J in+ &L O N G S hu-yan (College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054, China) Abstract：As the traditional short text classification algorithms do not work well in classification,a problem classification method based on the fusion of word vector and B TM model was proposed.Word2vec was used to train the corpus and word vector was obtained.The B TM t opic modd was constructed based on Gibbs sampling of data.The text topic extension vector and the word vector were spliced to ge t the new ques t ion extension text and text classification was implemented based resu1t s show t h a t using t h e proposed me t hod improves t h e accuracy,recall rat e and F valu.. Keywords:Q A#question classification;w ordvector;B TM m odel;questionexpansion /引言问答系统（Q A)的任务是快速的为用户提出的问题提供一个用户满意的答案[1],而在回答问题的过程中蕴含着许多信息检索领域息息相关的技术。通常来说，问答系统包括三个重要模块：对用户所提出问题的分析、对信息进行检索和抽取出最优答案集合)]。问题分析作为问答系统的第一项关键技术，其主要工作是分析用户问句所包含的信息，而分析问句的关键环节就是对问题进行分类，所以从某种程度上来说，问题分类效果影响着问答系统的工作效率)]。问题文本指的是要求问答系统回答或者解释的文本，一般来说问题文本的长度较短且重复的词项较少，所以问题分类不可以看作为一般的文本分类任务)]。与文本分类相比，问题分类存在不少难题，首先问题文本长度较短，形成的特征向量空间存在较大的稀疏性；其次，问题文本难以找到合适的方法或者模型来表示；再次，由于问题文本中的重复的词项较少，那么词频就不能作为问句特征的衡量标准)5]。目前在问题分类研究领域，使用的工具和方法与短文本分类相似，大致分为两个方向，第一种是基于规则的分类方式；第二种是基于数理统计的机器学习算法。张栋等[6]在扩充问句特征的过程中，将答案语料融人原始的问句文本；冶忠林等)]利用搜索引擎来扩展知识库，并结合 L D A来进行主题模型的构建；文献）]中引人词向量模型来代替传统的空间向量模型；张青等[9]提出一种优质主题的思想，并使用L D A模型扩展文本的特征项。近些年，随着信息检索、文本表示相关领域的飞速发展，专家学者意识到L D A主题模型对短文本建模的稀疏问题。Yan 等)0]提出中文短文本双词主题模型BTM(biterm topic model),改善了 L D A主题模型的建模缺陷；刘良选等)1] 收稿日期：2017-12-26;修订日期：2019-01-08 基金项目：国家社会科学基金项目（17XXW004);重庆市教委基金项目（15YK790061) 作者简介：黄贤英（1967 -)女，重庆人，硕士，教授，CCF会员，研究方向为信息检索；+通讯作者：谢晋（1993 -)男，湖北十堰人，硕士研究生，研究方向为信息检索、文本挖掘；龙姝言（1992-）女，重庆人，硕士研究生，研究方向为推荐系统。 E-mail：895309382@https://www.360docs.net/doc/3b17349864.html,