驾驭文本:文本的发现 组织和处理

驾驭文本:文本的发现 组织和处理 pdf epub mobi txt 电子书 下载 2025

Grant S. Ingersoll(格兰特·英格索尔),Thomas S. Morton(托马斯·莫顿),Andrew L. Farris(安德鲁·法里斯) 著,王斌 译
图书标签:
  • 文本挖掘
  • 自然语言处理
  • 信息检索
  • 文本分析
  • 数据科学
  • 机器学习
  • 文本处理
  • 知识发现
  • 信息组织
  • 文本工程
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 电子工业出版社
ISBN:9787121252303
版次:1
商品编码:11737329
品牌:Broadview
包装:平装
开本:16开
出版时间:2015-07-01
用纸:胶版纸
页数:340
正文语种:中文

具体描述

内容简介

文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。

作者简介

王斌,博士,中国科学院信息工程研究所研究员,博士生导师,研究方向为信息检索与自然语言处理。主持科研项目20余项,发表学术论文120余篇,译有《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》、《Mahout实战》等书籍。现为中国中文信息学会理事、信息检索专委会、社会媒体处理专委会及语言与知识计算专业委员会委员,《中文信息学报》编委,中国计算机学会高级会员及中文信息处理专委会委员。

目录

第1章 开始驾驭文本 1
11 驾驭文本重要的原因 2
12 预览:一个基于事实的问答系统 4
121 嗨,弗兰肯斯坦医生 5
13 理解文本很困难 8
14 驾驭的文本 11
15 文本及智能应用:搜索及其他 13
151 搜索和匹配 13
152 抽取信息 14
153 对信息分组 15
154 一个智能应用 15
16 小结 15
17 相关资源 16
第2章 驾驭文本的基础 17
21 语言基础知识 18
211 词语及其类别 19
212 短语及子句 20
213 词法 21
22 文本处理常见工具 23
221 字符串处理工具 23
222 词条及切词 23
223 词性标注 25
224 词干还原 27
225 句子检测 29
226 句法分析和文法 31
227 序列建模 33
23 从常见格式文件中抽取内容并做预处理 34
231 预处理的重要性 35
232 利用Apache Tika抽取内容 37
24 小结 39
25 相关资源 40
第3章 搜索 41
31 搜索和多面示例:Amazoncom 42
32 搜索概念入门 44
321 索引内容 45
322 用户输入 47
323 利用向量空间模型对文档排名 51
324 结果展示 54
33 Apache Solr搜索服务器介绍 57
331 首次运行Solr 58
332 理解Solr中的概念 59
34 利用Apache Solr对内容构建索引 63
341 使用XML构建索引 64
342 利用Solr和Apache Tika对内容进行抽取和索引 66
35 利用Apache Solr来搜索内容 69
351 Solr查询输入参数 71
352 抽取内容的多面展示 74
36 理解搜索性能因素 77
361 数量判定 77
362 判断数量 81
37 提高搜索性能 82
371 硬件改进 82
372 分析的改进 83
373 提高查询性能 85
374 其他评分模型 88
375 提升Solr性能的技术 89
38 其他搜索工具 91
39 小结 93
310 相关资源 93
第4章 模糊字符串匹配 94
41 模糊字符串匹配方法 96
411 字符重合度度量方法 96
412 编辑距离 99
413 n元组编辑距离 102
42 寻找模糊匹配串 105
421 在Solr中使用前缀来匹配 105
422 利用trie树进行前缀匹配 106
423 使用n元组进行匹配 111
43 构建模糊串匹配应用 112
431 在搜索中加入提前输入功能 113
432 搜索中的查询拼写校正 117
433 记录匹配 122
44 小结 127
45 相关资源 128
第5章 命名实体识别 129
51 命名实体的识别方法 131
511 基于规则的实体识别 131
512 基于统计分类器的实体识别 132
52 基于OpenNLP的基本实体识别 133
521 利用OpenNLP寻找人名 134
522 OpenNLP识别的实体解读 136
523 基于概率过滤实体 137
53 利用OpenNLP进行深度命名实体识别 137
531 利用OpenNLP识别多种实体类型 138
532 OpenNLP识别实体的背后机理 141
54 OpenNLP的性能 143
541 结果的质量 144
542 运行性能 145
543 OpenNLP的内存使用 146
55 对新领域定制OpenNLP实体识别 147
551 训练模型的原因和方法 147
552 训练OpenNLP模型 148
553 改变建模输入 150
554 对实体建模的新方法 152
56 小结 154
57 进一步阅读材料 155
第6章 文本聚类 156
61 Google News中的文档聚类 157
62 聚类基础 158
621 三种聚类的文本类型 158
622 选择聚类算法 160
623 确定相似度 161
624 给聚类结果打标签 162
625 聚类结果的评估 163
63 搭建一个简单的聚类应用 165
64 利用Carrot2对搜索结果聚类 166
641 使用Carrot2API 166
642 使用Carrot2对Solr的搜索结果聚类 168
65 利用Apache Mahout对文档集聚类 171
651 对聚类的数据进行预处理 172
652 K-means聚类 175
66 利用Apache Mahout进行主题建模 180
67 考察聚类性能 183
671 特征选择与特征约简 183
672 Carrot2的性能和质量 186
673 Mahout基准聚类算法 187
68 致谢 192
69 小结 192
610 参考文献 193
第7章 分类及标注 195
71 分类及归类概述 197
72 分类过程 200
721 选择分类机制 201
722 识别文本分类中的特征 202
723 训练数据的重要性 203
724 评估分类器性能 206
725 将分类器部署到生产环境 208
73 利用Apache Lucene构建文档分类器 209
731 利用Lucene对文本进行分类 210
732 为MoreLikeThis分类器准备训练数据 212
733 训练MoreLikeThis分类器 214
734 利用MoreLikeThis分类器对文档进行分类 217
735 测试MoreLikeThis分类器 220
736 将MoreLikeThis投入生产环境 223
74 利用Apache Mahout训练朴素贝叶斯分类器 223
741 利用朴素贝叶斯算法进行文本分类 224
742 准备训练数据 225
743 留存测试数据 229
744 训练分类器 229
745 测试分类器 231
746 改进自举过程 232
747 将Mahout贝叶斯分类器集成到Solr 234
75 利用OpenNLP进行文档分类 238
751 回归模型及最大熵文档分类 239
752 为最大熵文档分类器准备训练数据 241
753 训练最大熵文档分类器 242
754 测试最大熵文档分类器 248
755 生产环境下的最大熵文档分类器 249
76 利用Apache Solr构建标签推荐系统 250
761 为标签推荐收集训练数据 253
762 准备训练数据 255
763 训练Solr标签推荐系统 256
764 构建推荐标签 258
765 对标签推荐系统进行评估 261
77 小结 263
78 参考文献 265
第8章 构建示例问答系统 266
81 问答系统基础知识 268
82 安装并运行QA代码 270
83 一个示例问答系统的架构 271
84 理解问题并产生答案 274
841 训练答案类型分类器 275
842 对查询进行组块分析 279
843 计算答案类型 280
844 生成查询 283
845 对候选段落排序 285
85 改进系统的步骤 287
86 本章小结 287
87 相关资源 288
第9章 未驾驭的文本:探索未来前沿 289
91 语义、篇章和语用:探索高级NLP 290
911 语义 291
912 篇章 292
913 语用 294
92 文档及文档集自动摘要 295
93 关系抽取 298
931 关系抽取方法综述 299
932 评估 302
933 关系抽取工具 303
94 识别重要内容和人物 303
941 全局重要性及权威度 304
942 个人重要性 305
943 与重要性相关的资源及位置 306
95 通过情感分析来探测情感 306
951 历史及综述 307
952 工具及数据需求 308
953 一个基本的极性算法 309
954 高级话题 311
955 用于情感分析的开源库 312
96 跨语言检索 313
97 本章小结 315
98 相关资源 315

精彩书摘

  这显著地提高了web搜索引擎及更小型搜索引擎的门槛。尽管大的互联网引擎能够访问Google一样的资源,但是小系统往往没法访问大量查询日志或像HTML链接一样的文档结构,也没法使用其他用户相关反馈机制来提供对用户而言很有价值的信息。花时间构建复杂方案之前,我们给出有助于改进结果的两个关键事项。
  1.用户训练:有时需要给用户展示出,通过学习一些关键语法技巧(如短语等)可以将检索结果提高到何种程度。
  2.外部知识:是否存在某个指示信息使得一篇或多篇文档比其他文档更重要?例如,也许该文档是CEO写的,或者100个人中有99人将其标为有用,或者该文档的边缘收益是对比文档的五倍。不管是什么,都要想办法将这个知识编码到系统当中并作为搜索的一个因素。如果搜索系统不容许这么做,那么可能是时候构建一个新系统了!
  除了用户训练和使用索引的先验知识之外,还有很多办法可以提高查询速度和精度。首先,在大部分情况下,查询词项之间应该是AND而非0R的关系。例如,用户输人的是Jumping Jack Flash,那么假设不是搜索短语的话,该查询应该转换成的等价形式为Jumping AND Jack AND Flash而不是。通过使用JAND,所有的查询词项都应该匹配。当然这种做法几乎可以肯定会提高正确率,但是可能会降低召回率。由于采用这种做法只需要对更少的文档进行评分,因此其速度肯定会更快。使用AND可能会导致零结果查询,但是如果想要结果的话之后可以回退到一个0R查询。对于简单查询AND可能不会产生足够的结果的一个唯一可能是文档集非常小(大概来讲,少于200000篇文档)。
  注意 这里的AND使用并不意味着所有的搜索引擎都支持这种语法,但是Solr使用这种语法,因此为简单解释起见我们就保留这样的描述。
  ……

前言/序言


驾驭文本:文本的发现、组织与处理 在信息爆炸的时代,我们每天都被海量的文本信息所包围——从新闻报道、学术论文,到社交媒体上的讨论、个人笔记,再到代码库中的注释和文档。这些文本是知识的载体,是思想的结晶,更是我们理解世界、进行决策的重要依据。然而,文本的浩瀚如烟海,如何才能有效地从中发现所需、将其梳理清晰、并加以灵活运用,成为了一个日益严峻的挑战。 《驾驭文本:文本的发现、组织与处理》正是应运而生,旨在为读者提供一套系统性的方法论和实用的工具,帮助您在纷繁复杂的文本世界中游刃有余,将零散的信息转化为有价值的知识,让文本成为您高效工作、深入学习的强大助推器。本书并非直接提供某个领域的知识干货,而是着眼于“如何处理文本”这个更根本性的问题,它提供的是一套普适性的能力,让您能够更有效地去获取、理解和应用任何领域的文本信息。 第一篇:文本的发现——在信息洪流中定位宝藏 在信息爆炸的今天,获取信息并非难事,难的是找到真正有价值、与您需求契合的信息。本篇将深入探讨文本的发现策略,帮助您从海量的文本数据中精准地“淘金”。 信息需求的界定与提炼: 在开始搜索之前,清晰地界定您到底需要什么信息至关重要。我们将指导您如何将模糊的疑问转化为具体、可操作的搜索目标,理解需求背后的深层动机,从而更有针对性地进行信息搜集。这包括但不限于:从宏观到微观的问题拆解,识别核心关键词,预判信息的来源和类型,以及考虑信息的时效性、权威性等。 高效的搜索策略与技巧: 掌握高效的搜索技巧是发现文本信息的第一道关卡。本书将系统介绍各种搜索工具的运用,从搜索引擎的高级语法(如布尔逻辑、精确匹配、排除关键词)到专业数据库(如图书馆数据库、学术搜索引擎、行业报告平台)的使用方法。我们会深入分析不同搜索场景下的最佳实践,例如如何为学术研究设计搜索关键词,如何为商业决策寻找市场情报,如何为个人兴趣探索相关文献。 信息源的评估与筛选: 并非所有信息都值得信赖。在信息发现的过程中,学会辨别信息源的可靠性、权威性和客观性是必不可少的。本篇将提供一套评估信息源的标准,帮助您区分事实与观点,识别偏见与误导,从而过滤掉低质量、不准确的信息。我们将从作者的专业背景、出版物的声誉、引用的来源、论证的逻辑等方面进行详尽的分析。 主动的信息获取模式: 除了被动搜索,我们还将引导读者建立主动的信息获取习惯。这包括订阅高质量的资讯源、利用RSS Feed、关注行业专家和意见领袖、以及参与专业社群的讨论。通过这些方式,您可以及时获取最新的信息动态,并从中发现潜在的、未被直接搜索到的宝贵内容。 利用新兴技术辅助发现: 随着人工智能技术的发展,一些新的文本发现工具应运而生。本书将探讨如何利用这些工具,例如智能推荐系统、主题建模工具等,来拓展您的信息视野,发现您可能从未主动寻找但却高度相关的内容。 第二篇:文本的组织——构建清晰的知识框架 发现信息只是第一步,如何将这些零散的文本信息有效地组织起来,构建一个清晰、逻辑严谨的知识框架,是提升信息利用效率的关键。本篇将聚焦于文本的组织方法。 核心概念的识别与梳理: 在阅读和整理文本时,首先需要识别出其中包含的核心概念、关键术语和重要观点。我们将介绍系统性的方法来提取这些要素,并理解它们之间的相互关系。这可能涉及到对定义、分类、层级结构的分析。 文本结构的拆解与分析: 不同的文本有其独特的结构,理解并拆解这些结构有助于我们更好地把握内容的逻辑脉络。我们将学习如何分析文章的论证结构、章节划分、段落逻辑等,从而理解作者的写作意图和信息传递路径。 信息分类与标签体系的建立: 为了便于检索和复用,为文本信息建立有效的分类和标签体系至关重要。本书将探讨不同的分类维度(如主题、时间、来源、重要性等),以及如何设计一套个性化的、易于维护的标签系统。我们将介绍层级分类、关键词标签、甚至语义标签等多种方式。 笔记与摘要的有效方法: 学习如何高效地做笔记和写摘要,是巩固理解、提炼精髓的直接手段。我们将介绍康奈尔笔记法、思维导图、以及不同类型的摘要(如描述性摘要、评价性摘要)的技巧,并强调如何根据不同的目的来调整笔记和摘要的侧重点。 知识图谱与关联网络的构建: 对于更复杂的信息体系,构建知识图谱或关联网络能帮助您看到信息之间深层次的联系。本篇将介绍如何从文本中提取实体和关系,并利用工具或手工方式来可视化这些联系,从而形成更宏观的知识视图。 个性化知识库的设计与实践: 最终,我们将引导读者如何将上述方法融会贯通,设计并构建一个属于自己的个性化知识库。这可能是一个数字化的笔记系统,一个精心组织的文档库,甚至是一个个人维基。关键在于,这个知识库能够真正服务于您的学习、工作和思考需求。 第三篇:文本的运用——让信息服务于行动 拥有了发现和组织文本的能力,我们就能更有效地将这些信息转化为实际的行动和产出。本篇将侧重于文本的运用。 信息检索与回顾的高效化: 构建好的知识库,其价值在于能够快速、准确地检索和回顾所需信息。我们将分享高效的信息检索策略,以及如何通过回顾和复习,加深对知识的理解和记忆。 论证与说理的文本构建: 无论是撰写学术论文、项目报告,还是商业计划书,都需要清晰的逻辑和有力的论证。本书将指导您如何从已有的文本信息中提取论据,构建严谨的论证结构,并用清晰、有说服力的语言表达出来。 知识迁移与创新思维的激发: 真正的文本驾驭能力在于将已有的知识进行迁移和重组,从而激发新的想法和创新。我们将探讨如何跨领域地借鉴文本信息,如何通过类比、组合等方式产生新的认知,从而推动个人的学习和工作创新。 解决问题与辅助决策: 文本信息是解决问题和辅助决策的重要依据。本书将展示如何利用收集、组织和理解的文本信息,来分析问题、评估方案,并最终做出更明智的决策。 内容创作与知识分享: 掌握了文本的发现、组织和处理,您就能更自信地进行内容创作,并将自己的知识和见解分享给他人。我们将提供一些关于写作、编辑、甚至内容传播的实用建议,让您的文本产出更具价值和影响力。 持续学习与迭代优化: 文本的处理能力不是一蹴而就的,而是一个持续学习和迭代优化的过程。本书将鼓励读者不断尝试新的工具和方法,反思自己的文本处理习惯,并根据实际需求不断调整和完善自己的能力体系。 《驾驭文本:文本的发现、组织与处理》是一本实践导向的书籍,它不是提供现成的答案,而是赋予您发现和创造答案的能力。通过学习本书,您将不再被海量文本所淹没,而是能够主动地驾驭它们,让信息成为您洞察世界、实现目标的强大工具。无论您是学生、研究人员、企业人士,还是任何渴望提升信息素养的个体,《驾驭文本》都将是您在这个知识时代不可或缺的伙伴。

用户评价

评分

最近我一直在思考,在这个信息爆炸的时代,我们如何才能不被海量的信息所淹没,而是能够主动地去选择、去理解、去利用这些信息。这本书的名字,尤其是“驾驭”二字,让我眼前一亮。我希望它能够提供一些能够帮助我“驾驭”文本的实用技巧和方法。我非常期待“文本的发现”这一部分,它是否会介绍一些能够帮助我们从海量信息中挖掘出有价值内容的策略?例如,如何快速定位文章的核心论点,或者如何辨别信息的真伪?“组织”文本,则让我联想到如何更好地构建自己的知识体系,如何将零散的信息进行归类和整合,形成更有条理的认知。而“处理”文本,则更像是对信息进行加工和提炼,我希望能够学习到一些关于文本分析、信息总结,甚至是如何将文本信息转化为实际行动的技巧。总而言之,我希望这本书能够成为我提升信息素养的得力助手,让我不再被动地接受信息,而是能够主动地去驾驭信息。

评分

我最近一直在思考如何更有效地管理自己的知识体系,尤其是在这个信息爆炸的时代,每天接触到的信息量是惊人的,而如何将这些零散的信息整合、提炼,并最终转化为自己的知识,变成一个持续迭代的循环,一直是我头疼的问题。我希望这本书能在这方面提供一些启发。我特别感兴趣的是“文本的发现”这一部分,它会不会涉及到一些信息检索的技巧,或者如何从大量的文本中快速找到核心要点的方法?“组织”这个词也让我非常期待,是不是会有关于如何构建个人知识库,或者如何进行高效笔记整理的章节?“处理”则更加实用,我希望能学习到一些关于文本分析、信息归纳,甚至是如何利用工具来辅助文本处理的技巧。我并非专业的学者,更倾向于那些能够快速上手、立竿见影的方法,所以如果书中能包含一些案例分析,或者提供一些可操作的步骤,那就更好了。我希望这本书能像一位经验丰富的向导,带领我穿越信息迷雾,找到属于自己的知识宝藏。

评分

我一直觉得,我们生活在一个被文本包围的世界,从社交媒体的碎片化信息,到学术论文的严谨论证,文本无处不在,但我们对它的理解却往往停留在字面意义。这本书的名字,特别是“发现”、“组织”和“处理”这几个关键词,触动了我内心深处的好奇。我很好奇,“发现”文本的奥秘,是否意味着能够看到文字背后的意图、结构和逻辑?“组织”文本,又将如何帮助我构建更清晰的思维框架,或者梳理我杂乱的思路?而“处理”文本,则让我联想到如何更有效地消化信息,甚至是如何通过文本来影响他人。我希望这本书能为我打开一扇新的大门,让我不仅仅是阅读文本,更是与文本进行一场深刻的对话。我期待作者能够分享一些独特的见解,可能是关于文本的演变,可能是关于不同类型文本的解读策略,亦或是关于如何用文本来解决现实问题。我希望这本书能提供一些“干货”,让我读完之后,能够真正感受到自己的认知在提升,能力在增强。

评分

这本书的封面设计非常吸引人,那种沉静的蓝色和金色的字体,仿佛预示着一场深入的知识探索。拿到手中,它的纸张质感也很不错,翻阅时带着一种舒适的沙沙声,这种触感在如今普遍追求轻薄的时代显得尤为难得。我一直对“文本”这个概念感到既熟悉又陌生,每天都在与文字打交道,但真正去思考它的本质、它的生成过程、以及我们如何更有效地利用它,却鲜少有系统的梳理。这本书的名字,尤其是“驾驭”二字,给我一种掌控感,让我觉得读完之后,自己能够更游刃有余地处理信息爆炸的时代。我期待它能提供一些新颖的视角,或者一些实用的方法论,帮助我摆脱在海量信息中迷失方向的困境。我希望作者能够深入浅出地讲解那些看似抽象的理论,并用贴近生活的例子来佐证,这样才能真正打动读者,让我觉得“原来文本还有这一层含义”、“原来处理文本可以这样”。毕竟,知识的学习最终还是要落到应用上,我希望这本书能成为我通往更高效信息处理之路的指路明灯,而不是仅仅停留在理论层面。

评分

坦白说,我买这本书是因为它的名字在书店里特别显眼,那种“驾驭”二字的力度,让我觉得它应该能解决我生活中一些实际的困扰。我平时工作需要阅读大量的报告和资料,经常感到力不从心,信息太多,抓不住重点,而且读完之后很多内容很快就忘记了。我希望这本书能够提供一些思维上的转变,或者一些具体的操作方法,让我能够更聪明地阅读,而不是更辛苦地阅读。我特别想知道,它会不会讨论到如何区分信息的价值,哪些信息是真正重要的,哪些只是噪音?以及,读完一篇很长的文章,如何快速地提取出它的精髓,而不是被细节淹没?“文本的发现”听起来很神秘,我希望它能教我一些“火眼金睛”的本领,快速定位有价值的内容。“组织”和“处理”则更像是“修炼内功”的部分,我希望能够学到一套系统的方法,让自己在面对大量文本时,能够有条不紊,游刃有余。我期待这本书能够给我带来一种“豁然开朗”的感觉,让我真正掌握“驾驭”文本的能力。

评分

书还不错,没有受损,正品吧……

评分

文本挖掘方面的书还是比较少的

评分

专业性很强 值得深究

评分

将文本处理常见任务阐述的很清楚,

评分

一本值得深入学习的书,推荐。

评分

东西不错,大家可以试试~~谢谢京东~~

评分

好评一个

评分

好!!!..........

评分

质量很好哦,你值得拥有。。。。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有