内容简介
《计算机科学丛书·多语自然语言处理:从原理到实践》是一本全面阐述如何构建健壮和准确多语种自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结的实用解决方案。第一部分介绍现代自然语言处理的核心概念和理论基础,展示了现今理解单词和文件结构、分析语法、建模语言、识别蕴含和检测冗余。第二部分彻底阐述与构建真实应用有关的实际考量,包括信息抽取、机器翻译、信息检索/搜索,总结、问答、提炼、处理流水线等。
目录
出版者的话
译者序
前言
关于作者
第一部分 理论
第1章 找出词的结构
1.1 词及其部件
1.1.1 词元
1.1.2 词形
1.1.3 词素
1.1.4 类型学
1.2 问题和挑战
1.2.1 不规则性
1.2.2 歧义性
1.2.3 能产性
1.3 形态模型
1.3.1 查词典
1.3.2 有限状态形态
1.3.3 基于合一的形态
1.3.4 函数式形态
1.3.5 形态归纳
1.4 总结
第2章 找出文档的结构
2.1 概述
2.1.1 句子边界检测
2.1.2 主题边界检测
2.2 方法
2.2.1 生成序列分类方法
2.2.2 判别性局部分类方法
2.2.3 判别性序列分类方法
2.2.4 混合方法
2.2.5 句子分割的全局建模扩展
2.3 方法的复杂度
2.4 方法的性能
2.5 特征
2.5.1 同时用于文本与语音的特征
2.5.2 只用于文本的特征
2.5.3 语音特征
2.6 处理阶段
2.7 讨论
2.8 总结
第3章 句法
3.1 自然语言分析
3.2 树库:句法分析的数据驱动方法
3.3 句法结构的表示
3.3.1 使用依存图的句法分析
3.3.2 使用短语结构树的句法分析
3.4 分析算法
3.4.1 移进归约分析
3.4.2 超图和线图分析
3.4.3 最小生成树和依存分析
3.5 分析中的歧义消解模型
3.5.1 概率上下文无关文法
3.5.2 句法分析的生成模型
3.5.3 句法分析的判别模型
3.6 多语言问题:什么是词元
3.6.1 词元切分、实例和编码
3.6.2 分词
3.6.3 形态学
3.7 总结
第4章 语义分析
4.1 概述
4.2 语义解释
4.2.1 结构歧义
4.2.2 词义
4.2.3 实体与事件消解
4.2.4 谓词 论元结构
4.2.5 意义表示
4.3 系统范式
4.4 词义
4.4.1 资源
4.4.2 系统
4.4.3 软件
4.5 谓词 论元结构
4.5.1 资源
4.5.2 系统
4.5.3 软件
4.6 意义表示
4.6.1 资源
4.6.2 系统
4.6.3 软件
4.7 总结
4.7.1 词义消歧
4.7.2 谓词 论元结构
4.7.3 意义表示
第5章 语言模型
5.1 概述
5.2 n元模型
5.3 语言模型评价
5.4 参数估计
5.4.1 最大似然估计和平滑
5.4.2 贝叶斯参数估计
5.4.3 大规模语言模型
5.5 语言模型适应
5.6 语言模型的类型
5.6.1 基于类的语言模型
5.6.2 变长语言模型
5.6.3 判别式语言模型
5.6.4 基于句法的语言模型
5.6.5 最大熵语言模型
5.6.6 因子化语言模型
5.6.7 其他基于树的语言模型
5.6.8 基于主题的贝叶斯语言模型
5.6.9 神经网络语言模型
5.7 特定语言建模问题
5.7.1 形态丰富语言的建模
5.7.2 亚词单元的选择
5.7.3 形态类别建模
5.7.4 无分词语言
5.7.5 口语与书面语言
5.8 多语言和跨语言建模
5.8.1 多语言建模
5.8.2 跨语言建模
5.9 总结
第6章 文本蕴涵识别
6.1 概述
6.2 文本识别蕴涵任务
6.2.1 问题定义
6.2.2 RTE的挑战
6.2.3 评估文本蕴涵系统性能
6.2.4 文本蕴涵解决方案的应用
6.2.5 其他语言中的RTE研究
6.3 文本蕴涵识别的框架
6.3.1 要求
6.3.2 分析
6.3.3 有用的组件
6.3.4 通用模型
6.3.5 实现
6.3.6 对齐
6.3.7 推理
6.3.8 训练
6.4 案例分析
6.4.1 抽取语篇约束
6.4.2 基于编辑距离的RTE
6.4.3 基于转换的方法
6.4.4 逻辑表示及推理
6.4.5 独立于蕴涵学习对齐
6.4.6 在RTE中利用多对齐
6.4.7 自然逻辑
6.4.8 句法树核
6.4.9 使用有限依存上下文的全局相似度
6.4.1 0RTE的潜在对齐推理
6.5 RTE的进一步研究
6.5.1 改进分析器
6.5.2 发明或解决新问题
6.5.3 开发知识库
6.5.4 更好的RTE评价
6.6 有用资源
6.6.1 文献
6.6.2 知识库
6.6.3 自然语言处理包
6.7 总结
第7章 多语情感与主观性分析
7.1 概述
7.2 定义
7.3 英语中的情感及主观性分析
7.3.1 词典
7.3.2 语料库
7.3.3 工具
7.4 词级和短语级标注
7.4.1 基于字典的方法
7.4.2 基于语料库的方法
7.5 句子级标注
7.5.1 基于字典
7.5.2 基于语料库
7.6 文档级标注
7.6.1 基于字典
7.6.2 基于语料库
7.7 什么有效,什么无效
7.7.1 最佳情况:已有人工标注的语料库
7.7.2 次优情形:基于语料库的跨语言映射
7.7.3 第三优情形:孳衍词典
7.7.4 第四优情形:翻译词典
7.7.5 各种可行方法的比较
7.8 总结
第二部分 实践
第8章 实体检测和追踪
8.1 概述
8.2 提及检测
8.2.1 数据驱动的分类
8.2.2 搜索提及
8.2.3 提及检测特征
8.2.4 提及检测实验
8.3 共指消解
8.3.1 Bell树的构建
8.3.2 共指模型:链接和引入模型
8.3.3 最大熵链接模型
8.3.4 共指消解实验
8.4 总结
第9章 关系和事件
9.1 概述
9.2 关系与事件
9.3 关系类别
9.4 将关系抽取视为分类
9.4.1 算法
9.4.2 特征
9.4.3 分类器
9.5 关系抽取的其他方法
9.5.1 无监督和半监督方法
9.5.2 核方法
9.5.3 实体和关系检测的联合方法
9.6 事件
9.7 事件抽取方法
9.8 超句
9.9 事件匹配
9.1 0事件抽取的未来方向
9.1 1总结
第10章 机器翻译
10.1 机器翻译现状
10.2 机器翻译评测
10.2.1 人工评测
10.2.2 自动评测
10.2.3 WER、BLEU、METEOR等
10.3 词对齐
10.3.1 共现
10.3.2 IBM模型
10.3.3 期望最大化
10.3.4 对齐模型
10.3.5 对称化
10.3.6 作为机器学习问题的词对齐
10.4 基于短语的翻译模型
10.4.1 模型
10.4.2 训练
10.4.3 解码
10.4.4 立方剪枝
10.4.5 对数线性模型和参数调节
10.4.6 控制模型的大小
10.5 基于树的翻译模型
10.5.1 层次短语翻译模型
10.5.2 线图解码
10.5.3 基于句法的模型
10.6 语言学挑战
10.6.1 译词选择
10.6.2 形态学
10.6.3 词序
10.7 工具和数据资源
10.7.1 基本工具
10.7.2 机器翻译系统
10.7.3 平行语料
10.8 未来的方向
10.9 总结
第11章 跨语言信息检索
11.1 概述
11.2 文档预处理
11.2.1 文档句法和编码
11.2.2 词元化
11.2.3 规范化
11.2.4 预处理最佳实践
11.3 单语信息检索
11.3.1 文档表示
11.3.2 索引结构
11.3.3 检索模型
11.3.4 查询扩展
11.3.5 文档先验模型
11.3.6 模型选择的最佳实践
11.4 CLIR
11.4.1 基于翻译的方法
11.4.2 机器翻译
11.4.3 中间语言文档表示
11.4.4 最佳实践
11.5 多语言信息检索
11.5.1 语言识别
11.5.2 MLIR的索引建立
11.5.3 翻译查询串
11.5.4 聚合模型
11.5.5 最佳实践
11.6 信息检索的评价
11.6.1 建立实验环境
11.6.2 相关性评估
11.6.3 评价指标
11.6.4 已有数据集
11.6.5 最佳实践
11.7 工具、软件和资源
11.8 总结
第12章 多语自动文摘
12.1 概述
12.2 自动文摘方法
12.2.1 传统方法
12.2.2 基于图的方法
12.2.3 学习如何做摘要
12.2.4 多语自动摘要
12.3 评测
12.3.1 人工评价
12.3.2 自动评价
12.3.3 自动文摘评测系统的近期发展
12.3.4 多语自动文摘的自动评测方法
12.4 如何搭建自动文摘系统
12.4.1 材料
12.4.2 工具
12.4.3 说明
12.5 评测竞赛和数据集
12.5.1 评测竞赛
12.5.2 数据集
12.6 总结
第13章 问答系统
13.1 概述和历史
13.2 架构
13.3 源获取和预处理
13.4 问题分析
13.5 搜索及候选抽取
13.5.1 非结构化资源搜索
13.5.2 非结构化源文本的候选抽取
13.5.3 结构化源文本的候选抽取
13.6 回答评分
13.6.1 方法概述
13.6.2 证据结合
13.6.3 扩展到列表型问题
13.7 跨语言问答
13.8 案例研究
13.9 评测
13.9.1 评测任务
13.9.2 判断答案正确性
13.9.3 性能度量
13.1 0当前和未来的挑战
13.1 1总结和进一步阅读
第14章 提炼
14.1 概述
14.2 示例
14.3 相关性和冗余性
14.4 Rosetta Consortium 提炼系统
14.4.1 文档和语料库准备
14.4.2 索引
14.4.3 查询回答
14.5 其他提炼方法
14.5.1 系统架构
14.5.2 相关度
14.5.3 冗余
14.5.4 多模态提炼
14.5.5 跨语言提炼
14.6 评测和指标
14.7 总结
第15章 口语对话系统
15.1 概述
15.2 口语对话系统
15.2.1 语音识别和理解
15.2.2 语音生成
15.2.3 对话管理器
15.2.4 语音用户接口
15.3 对话形式
15.4 自然语言呼叫路由选择
15.5 三代对话应用
15.6 持续的改进循环
15.7 口语句子的转录和标注
15.8 口语对话系统的本地化
15.8.1 呼叫流程本地化
15.8.2 提示本地化
15.8.3 文法的本地化
15.8.4 源端数据
15.8.5 训练
15.8.6 测试
15.9 总结
第16章 聚合自然语言处理引擎
16.1 概述
16.2 聚合语音和NLP引擎架构的期望属性
16.2.1 灵活的分布式组件化
16.2.2 计算效率
16.2.3 数据操作功能
16.2.4 鲁棒性处理
16.3 聚合的架构
16.3.1 UIMA
16.3.2 GATE
16.3.3 InfoSphere Streams
16.4 案例研究
16.4.1 GALE 互操作性演示系统
16.4.2 跨语言自动语言开发系统
16.4.3 实时翻译服务
16.5 经验教训
16.5.1 分割涉及延迟和精度之间的权衡
16.5.2 联合优化与互操作性
16.5.3 数据模型需要使用约定
16.5.4 性能评估的挑战
16.5.5 引擎的前向波训练
16.6 总结
16.7 UIMA样本代码
索引
精彩书摘
《计算机科学丛书·多语自然语言处理:从原理到实践》:
为了处理口语间语言动态切换的多语言输入,可以根据单语语料对语言模型进行分别建模,使用了这些模型的系统(例如一个基于语音的报摊或基于电话的对话系统)可以基于第一步的语言识别结果来选择语言模型,或者基于在初始处理之后产生最高分数的语言模型(在语音识别中有时会结合发音模型)来进行动态选择。
Fugen等表明如何通过上下文无关文法将几个单语语言模型合并成一个多语语言模型,其中文法的非终结符包含语言信息,终结符状态与单语n元模型一致。使用明确的文法规则来对现有状态进行扩展(只用匹配语言中的理元组),以避免不合时机的语言切换。构建单个多语语言模型的可选方法是在包含多个单语语料的数据池中训练一个单独多语言模型或训练多个单语语言模型,然后以插值方式来使用。第一种技术降低了系统性能,特别是语料大小不平衡的时候。第二种技术则有轻微的提高,但仍然比不上前面提到基于文法的方法。
……
前言/序言
看起来几乎每个人都在一定程度上受到了信息技术的发展和互联网繁荣的影响。近来,多媒体信息源变得日益普及。不过,未加工的自然语言文本的总量在不断增长,并且地球上各种主要语言都在不断产生大量未处理文本。例如,英语维基百科报导已有 101 种语言的维基百科,而每种语言至少有10 000 篇文章。因此,不管是国家、公司,还是个人,都迫切需要来分析、翻译、综合或者提炼这些海量文本。
以前,要开发鲁棒、精确的多语自然语言处理(Natural Language Processing, NLP)应用,研究者或者开发人员需要查阅若干本参考书、几十个期刊或者会议论文。本书旨在为开发此类应用提供所需的所有背景知识和实际建议。虽然这个要求很高,但我们希望本书至少是本有用的参考书。
过去20年来,自然语言研究者开发了可处理多种语言的大量文本的若干优秀算法。迄今为止,主流的方法是建立可从实例中学习的统计模型。这样的模型能鲁棒地应对其处理文本的类型甚至语言的变化。如果设计适当,同样的模型可用于新的领域或新的语言,只需要提供相应领域或语言的新的训练实例。这种方法也使得研究者没有必要辛苦地写出处理问题的所有规则以及这些规则联合使用的方式。统计系统一般只要研究者提供可能的输入特征的抽象表示,其相对重要性可在训练(training)阶段学习而得,并在解码(decoding)或者推理(inference)阶段应用于新的文本。
统计自然语言处理领域在快速变化,部分变化源于其快速发展。例如,该领域的主要会议之一是计算语言学年会,其参会人数在过去五年已经翻番。另外,IEEE语音和语言处理会议和期刊上自然语言处理的文章数目也在过去十年中翻了一番以上。IEEE是世界上推进技术发展的最大的专业学会之一。自然语言处理研究者不但在解决本领域的问题上取得了内在的进步,也从机器学习和语言学领域的进展中借鉴良多。本书虽注意先进的算法和技术,但主要目的是对该领域的最佳实践进行详尽的阐明。另外,每章会描述所述方法在多语(multilingual)环境下的适用性。
本书分成两部分。第一部分是理论,包括前七章,展示了自然语言处理的各种基础问题以及解决这些问题的算法。头三章关注的是找出各种不同粒度层次的语言结构。第1章引入了一个重要概念——形态学(morphology),研究词的结构,以及世界上各种语言的不同形态现象的处理方法。第2章讨论了多种方法,文档可由此分解为更易处理的部分,如句子,以及通过主题联系的更大的单位。第3章研究了发现句子内部结构的方法,也即句法(syntax)。句法一直都是语言学最重要的研究领域,这种重要性也反映在自然语言处理领域。说其重要,部分原因是句子的结构和句子的意义相关,所以找出句法结构是理解句子的第一步。
找出句子或者其他文本单位的结构化的意义表示,经常称作语义分析(semantic parsing),这是第4章的内容。第4章还特别讨论了近年来引起诸多关注的语义角色标注(semantic role labeling)问题,其目的是找出可作为动词或谓词的论元的句法短语。对动词的论元进行了识别和分类,我们离生成句子的逻辑形式(logical form)又靠近了一步,而逻辑形式是句子意义的一种表示,这种表示方式容易被机器处理,而用于处理逻辑的多种工具人类自古代就开始研究了。
然而,如果我们不需要语义分析生成的深层句法语义结构呢?如果我们的问题只是确定多个句子中哪个句子是人最可能写或者说的呢?解决此问题的一种方法是开发一个可根据语法合法性而为句子打分的模型并以此选取分值最高的句子。给出一个词串的分值或概率估计的问题称为语言模型(language modeling),这是第5章的主题。
表示意义和判断句子的语法合法性只是处理语言前期步骤中的两种。为了进一步理解意义,我们需要一个算法,该算法可对一段文本中表示的事实进行推理。例如,我们想要知道一个句子中提到的事实是否被文档中前面的某个句子所蕴涵,这种推理被称为识别文本蕴涵(recognizing textual entailment),这是第6章的主题。
找出陈述或事实的相互蕴涵显然对文本自动理解很重要,但是这些陈述的性质也有待考究。理解一个陈述是否是主观的,并找出其表述的意见的倾向性是第7章的主题。由于人们经常表达意见,这显然是一个重要的问题,尤其在社交网络已经成为互联网上人际交流的最重要形式的时代,这一点更显重要。本书第一部分以本章作结。
本书第二部分是实践,讲述如何将第一部分描述的自然语言处理基础技术应用于现实世界中的问题。应用开发经常要做权衡,如时间和空间的权衡,因此本书应用部分的章节探讨了在构建一个鲁棒的多语自然语言处理应用时,如何进行各种算法和设计决策的权衡。
第8章描述识别和区分命名实体(named entity)以及这些实体在文本中提及的办法,也描述了识别两个以上的实体提及共指(corefer)的方法。这两个问题一般称为提及检测(mention detection)和共指消解(coreference reso
计算机科学丛书·多语自然语言处理:从原理到实践 [Multilingual Natural Language Processing Applications:From Theory to Practi epub pdf mobi txt 电子书 下载 2024
计算机科学丛书·多语自然语言处理:从原理到实践 [Multilingual Natural Language Processing Applications:From Theory to Practi 下载 epub mobi pdf txt 电子书 2024
计算机科学丛书·多语自然语言处理:从原理到实践 [Multilingual Natural Language Processing Applications:From Theory to Practi mobi pdf epub txt 电子书 下载 2024
计算机科学丛书·多语自然语言处理:从原理到实践 [Multilingual Natural Language Processing Applications:From Theory to Practi epub pdf mobi txt 电子书 下载 2024