内容简介
本书主要从自然语言处理的角度全面地介绍情感分析这个主题先进的研究技术和实用算法,以帮助读者了解通常用于表达观点和情感的问题和语言结构的基本结构。它涵盖了情感分析的所有核心领域,包括许多新兴的主题,如辩论分析、意图挖掘、假民意检测,并提出了可用来分析和总结观点的计算方法。
作者简介
刘兵教授现为伊利诺伊大学芝加哥分校(UIC)教授,获爱丁堡大学获得人工智能博士学位,是Web挖掘研究领域的国际知名专家,在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣,先后在国际学术期刊与重要国际学术会议(如KDD、WWW、AAAI、SIGIR、ICML、TKDE等)上发表关于数据挖掘、Web挖掘和文本挖掘论文100多篇,其中3篇论文单引次数1000以上,著有Web Data Mining和Sentiment Analysis and Opinion Mining等多部计算机精选教材;刘兵教授还担任过多个国际期刊的编辑和多个国际学术会议的程序委员会主席和委员。他目前担任ACM SIGKDD的主席,还是IEEE Fellow。
目录
目 录
Sentiment Analysis:Mining Opinions,Sentiments,and Emotions
译者序
前言
致谢
第1章 引言1
1.1 情感分析应用3
1.2 情感分析研究6
1.2.1 针对不同文本颗粒度的情感分析研究7
1.2.2 情感词典及其问题8
1.2.3 辩论与评论分析9
1.2.4 意图挖掘9
1.2.5 垃圾观点检测与评论质量10
1.3 情感分析是个迷你自然语言处理任务11
1.4 本书撰写方式11
第2章 什么是情感分析13
2.1 观点定义14
2.1.1 观点的定义14
2.1.2 情感对象15
2.1.3 观点中的情感16
2.1.4 简化的观点定义17
2.1.5 观点的理由和限定条件19
2.1.6 情感分析的目标和任务20
2.2 观点摘要定义23
2.3 感情、情绪与心情24
2.3.1 心理学中的感情、情绪与心情25
2.3.2 情感分析中的感情、情绪与心情28
2.4 观点的不同类型30
2.4.1 常规型观点和比较型观点31
2.4.2 主观的和隐含在事实中的观点31
2.4.3 第一人称和非第一人称观点34
2.4.4 元观点35
2.5 作者和读者视角35
2.6 小结36
第3章 文档级情感分类37
3.1 基于监督的情感分类38
3.1.1 基于机器学习算法的情感分类38
3.1.2 使用自定义打分函数的情感分类44
3.2 基于无监督的情感分类45
3.2.1 使用句法模板和网页检索的情感分类45
3.2.2 使用情感词典的情感分类46
3.3 情感评分预测48
3.4 跨领域情感分类49
3.5 跨语言情感分类51
3.6 文档的情绪分类52
3.7 小结53
第4章 句子级主客观和情感分类54
4.1 主观性55
4.2 句子级主客观分类56
4.3 句子级情感分类59
4.3.1 句子级情感分类的前提假设59
4.3.2 分类方法60
4.4 处理条件句61
4.5 处理讽刺句62
4.6 跨语言主客观分类和情感分类64
4.7 在情感分类中使用语篇信息65
4.8 句子级情绪分类66
4.9 讨论67
第5章 属性级情感分类68
5.1 属性级情感分类方法69
5.1.1 基于监督学习的方法69
5.1.2 基于词典的方法70
5.1.3 两种方法的优缺点72
5.2 情感组合规则73
5.2.1 情感组合规则概述74
5.2.2 情感减弱和情感增强表达81
5.2.3 SMALL_OR_LESS和LARGE_OR_MORE表达83
5.2.4 情绪和情感强度86
5.2.5 情感词的含义86
5.2.6 其他方法概述88
5.3 否定和情感89
5.3.1 否定词89
5.3.2 never92
5.3.3 其他常用的情感转换词94
5.3.4 否定词移动现象94
5.3.5 否定范围95
5.4 情态和情感96
5.5 并列连词but100
5.6 非观点内容的情感词102
5.7 规则表示103
5.8 词义消歧和指代消解105
5.9 小结106
第6章 属性和实体抽取108
6.1 基于频率的属性抽取109
6.2 利用句法关系110
6.2.1 利用观点和观点评价对象间的评价关系111
6.2.2 利用部分整体和属性关系116
6.3 基于监督学习的属性抽取118
6.3.1 隐马尔可夫模型118
6.3.2 条件随机场119
6.4 隐含属性的映射121
6.4.1 基于语料库的方法121
6.4.2 基于词典的方法122
6.5 属性聚类124
6.6 基于主题模型的属性抽取126
6.6.1 隐狄利克雷分配127
6.6.2 基于无监督主题模型进行观点属性抽取129
6.6.3 在主题模型中加入领域先验知识133
6.6.4 基于终身学习的主题模型:像人类一样学习135
6.6.5 使用短语作为主题词138
6.7 实体抽取与消解141
6.7.1 实体抽取与消解的问题定义142
6.7.2 实体抽取144
6.7.3 实体链接145
6.7.4 实体搜索和链接147
6.8 观点持有者和观点时间抽取147
6.9 小结148
第7章 情感词典构建149
7.1 基于词典的方法149
7.2 基于语料库的方法152
7.2.1 从语料库中识别情感词152
7.2.2 处理上下文相关的情感词153
7.2.3 词典自适应155
7.2.4 其他相关工作156
7.3 隐含了情感信息(期望或者不期望)的事实型描述156
7.4 小结158
第8章 比较型观点分析159
8.1 问题定义159
8.2 比较句识别162
8.3 比较句中的优选实体集识别163
8.4 特殊类型的比较句164
8.4.1 非标准型比较164
8.4.2 交叉类型的比较166
8.4.3 单实体比较167
8.4.4 带有compare和comparison的句子168
8.5 实体与属性抽取169
8.6 小结170
第9章 观点摘要和检索172
9.1 基于属性的观点摘要172
9.2 基于属性的观点摘要进阶175
9.3 可对照的观点摘要176
9.4 传统摘要177
9.5 比较型观点摘要177
9.6 观点检索177
9.7 现有观点检索技术178
9.8 小结180
第10章 辩论与评论分析181
10.1 辩论中的立场识别181
10.2 对辩论、讨论进行建模184
10.2.1 JTE模型185
10.2.2 JTE-R模型:对回复关系进行建模188
10.2.3 JTE-P模型:考虑作者之间的交互关
前言/序言
前 言Sentiment Analysis:Mining Opinions,Sentiments,and Emotions观点、情感以及与之相关的许多概念,如评价、评估、态度、感情、情绪和心情,与我们主观的感觉和感受密切相关。这些是人类心理活动的核心要素,也是影响人们日常行为的关键因素。我们对于现实世界的感知和感受,包括我们做出的任何选择,在很大程度上受到他人对于当前世界的洞察和观点的影响。也就是说,我们的观点易受他人观点的影响,当我们需要做决定时,常常寻求别人的意见作为参考。这一现象不仅存在于人与人之间,也发生在组织机构之间。因此,从实际应用出发,很显然需要对人们针对任何感兴趣的事物所发表的观点与感受进行挖掘和分析,这便是情感分析的任务所在。更确切地说,情感分析也称为观点挖掘,是一个旨在利用可计算的方法从自然语言文本中提取观点和情感信息的研究课题。
情感分析伴随着网络社会媒体(如评论、论坛、博客与微博)的兴起而快速发展。这是由于现如今在这些网络社会媒体中,我们能够获得有史以来规模巨大的观点数据。这些也被称为用户生成内容的社会媒体数据,能够帮助研究人员发现、挖掘有用的知识。人们在社会媒体平台上发表信息的主要目的是表达他们的意见和观点,因此,社会媒体中的用户生成内容蕴含了大量的用户观点信息。要从中挖掘有用知识自然需要对情感分析与观点挖掘问题进行研究,这已经成为社会媒体分析的核心问题。自2000年年初以来,情感分析已成为自然语言处理领域最活跃的研究问题之一。在数据挖掘、网络挖掘和信息检索领域中,针对情感分析的研究也得到了广泛关注。事实上,由于这一研究对于整个商业和社会的重要性,它已从计算机科学延伸到管理学和社会学领域。近年来,在工业界,情感分析的相关产业也蓬勃发展了起来,许多初创企业不断涌现。除此之外,许多大公司(例如,微软、谷歌、惠普和Adobe)也已经研发了各自的情感分析系统。如今,情感分析系统几乎在每一个企业、卫生机构、政府乃至整个社会都有广泛应用。
虽然目前还没有一个终极算法能够完美地解决情感分析问题,但已经研发的多个情感分析系统在实际生活应用中能够为人们提供有用的信息,发挥作用。因此,我认为现在有必要对我们已取得的研究成果以及在实践中获得的实际经验进行梳理,并整理成书。这并不是说我对工业界在情感分析领域所使用的方法了如指掌,因为多数企业并不发表或公开他们的核心算法。然而,我也曾开办了一家有关情感分析系统研发的创业公司,为客户在多领域大规模社会媒体数据上的项目提供服务。同时,在过去的几年中,许多工业界的研发者也向我大致介绍了他们在其情感分析系统中所用的核心算法。因此,从这几点上来说,我对应用系统开发以及各个算法的实际性能有一定的了解,同时也具有大量解决实际问题的第一手经验。因此,在本书中,对于这些非机密信息、知识和经验,我将尽我所能详细介绍。
在写作这本书时,除了介绍分析和总结观点的可计算方法之外,我也试图从语言学角度看待和探讨情感分析问题,以帮助读者了解这一问题的基本结构和常用于表达观点和情感的语言表达方式。如同许多自然语言处理的任务一样,在情感分析任务中,大多数已发表的可计算方法都采用文本特征结合机器学习或数据挖掘算法的基本处理范式。然而,现有大多数机器学习算法都是黑箱的,模型对于结果缺乏可解释性。当出现错误时,我们很难知道原因,更不清楚如何进行修正。因此,如果我们只关注于这一类可计算方法,将无法深刻理解情感分析问题,从而阻碍该问题的研究发展。
在介绍语言学方面的知识时,我没有遵循语言学的传统来写作。这是因为传统语言学中的知识以及知识的表现方式主要是为了让人来理解,而不是为了让机器去理解、操作并解决实际问题。虽然人类知识和计算机指令有部分交叉,但是它们还是有很大区别的。例如,当我从条件句中挖掘观点时,我阅读了许多关于条件句的语言学书籍。然而,令人意外的是,我发现几乎没有语言学知识能被用来计算并解决这一问题。我认为部分原因是目前的计算技术不够成熟,还不足以拥有和人一样的理解能力;另一部分原因是大多数语言学知识不适用于计算机处理。因此,本书的另一个特点是,它不仅仅同传统语言学书籍一样研究语言本身,帮助人们理解语言;它也关注面向具体应用的实际需求,探讨从自然语言中挖掘情感和观点的实际方法,包括识别观点语句、情感以及情感极性(倾向性),也包括观点情感相关的重要信息抽取。例如与观点情感相关的实体或主题抽取,这些实体或主题通常也称为观点评价(或情感)对象。在实际应用中,观点评价对象抽取非常重要。例如,“我讨厌对穷人增税”,如果我们仅识别出作者在本句中表达了一种负面的情感或是厌恶的情绪,那对于实际应用意义并不大。但是如果我们能够发现该负面情感或情绪表达的对象是“对穷人增税”,那么这样的信息就变得十分有价值了。从这个角度来说,我希望本书能够促使语言学家研究并建立有关观点、情感及相关概念的系统理论。
这本书可以作为情感分析领域的入门读物和研究概览。在书中的诸多章节,我对于入门知识或者已有研究方法进行单独介绍。但是在有些章节,我采用混合介绍的方式。采用这种不同寻常的写作方式的主要原因是:虽然已有许多研究者试图去解决情感分析任务的每一个子问题,但是目前仍然没有成熟的技术与算法。从已发表论文报告的结果中我们可以看到,在许多情况下,已有技术离实用化还尚远。本书采用混合写作风格的另一个原因是:大多数已有的方法均利用机器学习与数据挖掘算法在抽取好的文本特征上进行直接应用。由于已经有许多著作详细介绍了这些机器学习和数据挖掘算法,所以这些算法的细节不是本书介绍的重点。此外,对于一些语言学的基础知识和自然语言处理基本技术,如词性标注、句法分析、浅层句法分析和语法,本书也不做详细介绍。虽然这些技术对于情感分析十分重要,但同样已有很多自然语言处理的书籍对其进行了详细介绍。所以,本书默认读者已经具有了机器学习和自然语言处理的基础知识。
在本书中,我试图介绍情感分析领域所有的主要研究进展。本书引用了来自主流会议与期刊的总共600余篇论文和资料,从这一点上来说,本书涵盖的范围是十分全面的。本书的组织结构具体如下。第1章对于整本书进行概览,并介绍情感分析的研究动机。从该章我们可以看到,情感分析在许多实际系统中都有应用需求。因此,这是一个令人着迷且仍充满挑战的研究问题。第2章给出了情感分析任务的定义,并介绍与之相关的诸多概念。从该章我们可以看到,情感分析虽然是一个自然语言处理问题,但其表示是结构化的。我们的目标是将非结构化文本转换为结构化的表示。基于这一结构化表示,我们可以进行后续的定性和定量分析,这对于实际应用尤为重要。另外,我们也可以看到,情感分析是一个由许多具有挑战性的且相互关联的子问题组合而成的综合问题。
第3章针对文档级文本的情感分类问题进行介绍,这一子任务的目标是识别一篇文档(例如,产品评论)中所蕴含观点的倾向性:褒义或贬义。第4章介绍同样的分类问题,只不过处理对象是句子级文本。与其相关的情感评分预测、迁移学习和多语言情感分类问题,也在这两章中进行讨论。
第5章与第6章更进一步地从细粒度级别来介绍基于属性的情感分析问题,其中最重要的研究不仅包括如何对情感进行分类,还包括如何识别情感或观点评价的对象。绝大多数在工业界实际应用的情感分析或观点挖掘系统都需要在这一粒度下分析文本。第5章着重介绍基于属性的情感分类任务和方法,第6章着重介绍评价属性或对象的提取。
第7章对情感词典构建的相关研究进行了介绍。情感词典是人们在表达褒义或贬义观点时常使用的词与短语(例如,好的、惊人的、坏的、可怕的)的列表。第8章介绍了比较句中观点的表达问题。第9章介绍了观点摘要与观点检索问题。第10章探讨了另一种情感表达的类型,即在线辩论与评论中的情感表达问题(赞同和反对),其中包含大量参与者之间的互动交流。第11章讨论基于文本的用户意图挖掘问题。
第12章介绍另一个不一样的问题:如何检测网络上虚假的或者具有欺骗性的观点信息。第13章介绍基于有用性如何对在线评论进行排序的问题,基于这样的分析,用户可以首先看到那些最有用的评论。第14章对本书进行总结,并讨论了若干未来可能的研究热点与方向。
本书适合对社会媒体分析和自然语言处理,特别是对情感分析和观点挖掘感兴趣的学生、研究人员和从业者。消费者的情感倾向和公众的观点表达是许多管理学和社会科学领域(例如市场营销、经济学、传播学和政治学等)关心的核心问题。因此,本书不仅适合计算机科学领域的读者,也适合管理学和社会学的研究人员或从业者。此外,在校老师可以使用本书作为自然语言处理、社会媒体分析、社会计算、文本和数据挖掘等课程的教材。本书相关的课程幻灯片可在线获取。
� �https://www.cs.uic.edu/~liub/�≈隆⌒籗entiment Analysis:Mining Opinions,Sentiments,and Emotions在编写本书时,许多专家和学者给予了我技术上的帮助。没有他们的帮助,本书可能永远不会完成。首先,我要感谢我在读和已经毕业的学生:Junsheng Chen,Zhiyuan Chen,Xiaowen Ding,Geli Fei,Murthy Ganapathibhotla,Minqing Hu,Nitin Jindal,Abhinav Kumar,Huayi Li,Arjun Mukherjee,Ramanathan Narayanan(美国西北大学),Federico Alberto Pozzi(米兰比可卡大学访问学生),Guang Qiu(浙江大学访问学生),Sathish Ramadoss,Jianfeng Si(香港城市大学访问学生),William Underwood,Andrea Vaccari,Vivek Venkataraman,Zhongwu Zhai(清华大学访问学生)和Lei Zhang。多年来,他们为本书的完成贡献了大量的研究思路。此外,与很多研究者的讨论也非常有助于本书的完成,他们是:Shuanhu Bai,Jim Blomo,Erik Cambria,Malu G.Castellanos,Dennis Chong,Umesh Dayal,Eduard Dragut,Boi Faltings,Ronen Feldman,Christiane D.Fellbaum,Zhiqiang Gao,Alexander Gelbukh,Riddhiman Ghosh,Natalie Glance,Meichun Hsu,Joshua Huang,Minglie Huang,Jing Jiang,Birgit K�塶ig,Xiao-li Li,Qian Li
情感分析:挖掘观点、情感和情绪 epub pdf mobi txt 电子书 下载 2024
情感分析:挖掘观点、情感和情绪 下载 epub mobi pdf txt 电子书 2024