文本挖掘：基于R语言的整洁工具 [Text Mining with R: A Tidy Approach] pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

茱莉亚·斯拉格（Julia Silge），戴维·罗宾逊，[David，Robinson] 著，刘波罗棻唐亮贵译

图书标签:

文本挖掘
R语言
数据科学
自然语言处理
整洁数据
统计分析
机器学习
文本分析
数据挖掘
R语言编程

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.idnshop.cc

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111588559

版次：1

商品编码：12332727

品牌：机工出版

包装：平装

丛书名： O'Reilly精品图书系列

外文名称：Text Mining with R: A Tidy Approach

开本：16

出版时间：2018-04-01

用纸：胶版纸

页数：161

具体描述

内容简介

本书由tidytext创建者亲笔撰写，系统阐述如何使用基于R的整洁工具来进行文本分析。书中首先介绍整洁文本的格式，以及如何获取整洁文本数据集；并通过tidytext中的情感数据集来进行情绪分析；接着介绍如何根据tf-idf统计量来识别特定文档中的重要单词，以及如何利用n-gram来分析文本中的文字网络；之后介绍如何将整洁文本转换为文档词项矩阵和Corpus对象格式，并给出了主题建模的概念；最后通过整合多种已知的整洁文本挖掘方法，给出了一些研究案例，这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通讯信息。总的来说，本书侧重于分析文学、新闻和社交媒体方面的文本，非常适合从事相关文本挖掘的工作人员，也适合自然语言的初学者。与此同时，使用书中提供的大量针对性编程例子，不但可以提高工程实战能力，而且可以在本书提到的整洁框架上建立自己的分析任务。

作者简介

Julia Silge 是Stack Overflow的数据科学家，负责复杂数据集分析及与不同受众进行技术主题交流。她拥有天体物理学博士学位，热爱简·奥斯汀和制作美丽的图表。

David Robinson 是Stack Overflow的数据科学家，普林斯顿大学定量与计算生物学博士。他喜欢开发开源R软件包，包括broom、gganimate、fuzzyjoin和widyr,还喜欢撰写统计、R和文本挖掘等方面的博客。

精彩书评

“David和Julia已经在tidytext包集成了文本分析方法，因此不再需要学习一套全新的工具集，可以应用所有熟悉的数据框方法和可视化方法。”

– Hadley Wickham，RStudio首席科学家，Auckland大学、Stanford大学、Rice大学统计学教授

前言/序言

前言

如果你从事分析或数据科学方面的工作，那么一定熟知这样一个事实：数据正在以前所未有的速度快速生成（也许这样的话有很多人都讲过）。通常培训分析人士来处理数字的表格或规整的数据。但现在大部分新增的数据都是非结构化的文本，而许多在分析领域工作的人都没有接受过乃至简单接受过处理自然语言方面的训练。

尽管我们熟悉许多数据处理和可视化方法，但是将这些方法应用于文本处理并非易事，所以开发了tidytext R包（Silge和Robinson，2016）。我们发现采用数据整洁原则可以使许多文本挖掘任务变得更简单、更有效，并且该原则和广泛使用的工具也是相一致的。把文本当作由单个单词构成的数据框的优势在于：（1）有助于轻松地操作、汇总以及展示文本特征；（2）有助于将自然语言处理整合到有效的工作流程中。

本书介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单，但如何使用这个包则很重要。因此，本书还提供了真实的、极具吸引力的文本挖掘案例。

大纲

本书首先介绍整洁文本格式，一些有关dplyr、tidyr和tidytext包的使用方法则按如下过程来介绍：

第1章概述了整洁文本格式和unnest_tokens()函数，同时介绍了gutenbergr和janeaustenr包，这些包提供了与文学相关的文本数据集，本书会使用这些数据集来进行介绍。

第2章介绍了如何使用tidytext中的sentiments数据集以及dplyr包中的inner_join()函数来对整洁文本数据集进行情感分析。

第3章介绍了tf-idf统计量（词项频率乘以逆文档频率），它可用来识别特定文档中特别重要的词项。

第4章介绍了n-gram以及如何使用widyr包和ggraph包来分析文本中的文字网络。

文本在分析的所有阶段并不是整洁的，能够在整洁和不整洁格式之间进行转换就显得非常重要。

第5章介绍了通过tm包和quanteda包来使文档–词项矩阵和Corpus对象变整洁的方法，以及如何将整洁文本数据集转换为文档–词项矩阵和Corpus对象格式。

第6章介绍了主题建模的概念，并使用tidy()方法对topicmodels包的输出进行解释和可视化。

通过整合多种已知的整洁文本挖掘方法，还给出了几个研究案例：

第7章通过作者自己的Twitter档案展示了整洁文本分析的应用。例如，Dave和Julia的Twitter习惯有什么不同？

第8章通过查看超过32 000个NASA数据集（可用于JSON格式）中的关键字与标题、描述字段的关系来探索元数据。

第9章分析不同新闻组（与政治、曲棍球、技术、无神论等有关的主题）的即时通信消息数据集来了解新闻组中共同的模式。

本书不包括的主题

本书对整洁文本挖掘框架进行了介绍，并给出了一系列的示例，但对于全面研究自然语言处理领域而言，这些依然不够。CRAN Task View on Natural Language Processing（https://cran.rproject.org/view=NaturalLanguageProcessing）提供了其他使用R进行计算语言学研究的详细信息。根据个人需求，你可能还想在以下方面进一步研究：

聚类、分类和预测

文本机器学习是一个广泛的话题，可以轻松地找到很多与之相关的内容。第6章将介绍一种无监督聚类（主题建模）方法，但是还有更多其他的机器学习方法可以用来处理文本。

词嵌入

当前流行的一种文本分析方法是将单词映射为向量，以便能检查单词之间的语言关系并对文本进行分类。尽管这些单词表示并不像我们理解的那样整洁，但已经可以在机器学习方法中得以广泛应用。

更复杂的词条化

tidytext包通过信任词条化包（Mullen，2016）来进行标记，其本身使用统一的界面并包括各种词条化方法，但是在具体的应用程序中还有许多其他的词条化方法。

除英文以外的其他语言

一些用户已经成功地将tidytext应用于除英语以外的其他语言的文本挖掘，但是本书不涵盖这方面的例子。

关于本书

本书重点介绍实际软件示例和数据展示，几乎没有公式，但是有大量的代码。我们重点关注在分析文学、新闻和社交媒体时的深入理解。

本书不需要读者具有文本挖掘知识，而专业语言学家和文本分析师可能会认为本书的示例比较初级，但我们相信，他们也可以在这个框架上建立自己的分析。

本书假设读者至少熟悉R中的dplyr、ggplot2和>（管道）运算符，并且对如何应用这些工具进行文本数据挖掘感兴趣。对于没有这种专业背景的读者，推荐阅读Hadley Wickham和Garrett Grolemund（O'Reilly）的《R for Data Science》一书。若读者有一点背景并对整洁文本感兴趣，即使是R初学者也可以理解和使用本书的示例。

如果你正在阅读本书的纸质版本，那么图像会以灰度而不是彩色的形式呈现。要查看彩色版本的图像，请参阅本书的GitHub页面（http://github.com/dgrtwo/tidytext-mining）。

本书约定

本书使用以下惯例：

斜体（Italic）

表示新的术语、网址、电子邮件地址、文件名和文件扩展名。

等宽字体（Constant width）

用于程序清单，以及段落中引用的程序元素，如变量或函数名称、数据库、数据类型、环境变量、语句和关键字。

等宽粗体（Constant width bold）

展示用户应直接输入的命令或其他文字。

等宽斜体（Constant width italic）

表示应使用用户提供的值来替换或由上下文确定的值。

表示提示或建议。

表示普通注释。

表示警告或注意。

使用代码示例

本书在大部分分析的过程中都给出了代码，但出于篇幅考虑，如果生成图形的代码已经出现过，则不再提供类似的代码。相信读者可以学习并延伸本书示例，另外本书代码可以在GitHub公共库中找到。

本书旨在帮助读者完成工作，一般来讲，读者可以在程序和文档中使用本书提供的示例代码。除非对代码的重要部分进行加工出版，否则不需要与我们联系。例如，使用本书中多个代码块开发程序不需要经过我们许可，但出售或发行O扲eilly书籍示例的CD-ROM则需要许可，引用本书和示例代码来回答问题不需要许可，将本书中重要的示例代码合并到产品文档则需要许可。

如果你引用了本书中的内容，我们希望你能注明出处，包括标题、作者、出版商和ISBN。

Silge and David Robinson, 978-1-491-98165-8”。

如果你认为本书代码示例或上述许可不合理，请随时通过permissions@oreilly.com与我们联系。

Safari�栽谙咄际�

Safari是一个为企业、政府、教育和个人提供的会员制培训、参考平台。

会员可以访问数以千计的书籍、培训视频、学习路径、互动教程以及来自250多个出版社策划的播放列表，包括O'Reilly Media、Harvard Business Review、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett，以及其他在线技术。

更多信息请访问：http://oreilly.com/safari。

联系我们

对于本书，如果有任何意见或疑问，请按照以下地址联系本书出版商。

美国：

O'Reilly Media，Inc.

1005 Gravenstein Highway North

Sebastopol，CA 95472

中国：

北京市西城区西直门南大街2号成铭大厦C座807室（100035）

奥莱利技术咨询（北京）有限公司

要询问技术问题或对本书提出建议，请发送电子邮件至：

bookquestions@oreilly.com

要获得更多关于我们的书籍、会议、资源中心和O'Reilly网络的信息，请参见我们的网站：

http://www.oreilly.com

http://www.oreilly.com.cn

我们在Facebook上的主页：http://facebook.com/oreilly

我们在Twitter上的主页：http://twitter.com/oreillymedia

我们在YouTube上的主页：http://www.youtube.com/oreillymedia

致谢

非常感谢为推进本项目做出贡献、提供帮助和观点的人，这里特别感谢几个人和组织。

感谢Oliver Keyes和Gabriela de Queiroz对tidytext的贡献、Lincoln Mullen在tokenizers软件包方面的工作、Kenneth Benoit在quanteda软件包方面的工作，Thomas Pedersen在ggraph软件包方面的工作，以及Hadley Wickham在制定数据整洁原则和构建整洁工具方面的工作。还要感谢Karthik Ram和rOpenSci，他们在项目之初进行召集，感谢NASA Datanauts项目成员，感谢你们在项目期间对Julia提供的机会和支持。

仔细、彻底的技术审查大大提高了本书的质量。特别感谢Mara Averick、Carolyn Clayton、Simon Jackson、Sean Kross和Lincoln Mullen，感谢你们在技术评论中投入的时间和精力。

本书是以公开方式进行撰写的，有几个人通过提出要求或问题的方式提供了建议。特别感谢那些通过GitHub做出贡献的人：@ainilaha、Brian G. Barkley、Jon Calder、@eijoac、

Marc Ferradou、Jonathan Gilligan、Matthew Henderson、Simon Jackson、@jedgore、

@kanishkamisra、Josiah Parry、@ suyi19890508、Stephen Turner，以及Yihui Xie。

最后，我们想把本书献给各自的爱人——Robert和Dana，千言万语汇成一句发自肺腑的谢谢。

《文本挖掘：基于R语言的整洁工具》—— 深度解析与实践指南在这信息爆炸的时代，海量文本数据如同汪洋大海，蕴藏着无尽的知识与价值。如何有效地从这些非结构化数据中提取洞见，已成为科研、商业分析、社会科学研究等诸多领域亟待解决的关键问题。《文本挖掘：基于R语言的整洁工具》正是这样一本致力于为读者打开文本数据挖掘宝库的著作，它将理论与实践巧妙融合，以R语言及其强大的“整洁数据”理念为核心，系统地引导读者掌握从原始文本到有价值洞见的转化过程。本书并非仅仅堆砌枯燥的算法和公式，而是以一种直观、易懂且高效的方式，层层递进地剖析文本挖掘的每一个重要环节。从最初的文本预处理，到各种高级的分析技术，再到结果的可视化与解读，作者都进行了细致的阐述，并提供了大量贴近实际的R语言代码示例。这使得本书既适合初学者入门，也为有一定基础的文本分析者提供了更深入的探索方向。核心理念：“整洁数据”在文本挖掘中的应用本书最鲜明的特色之一，便是其对“整洁数据”（tidy data）理念的贯彻。在传统的数据分析流程中，文本数据常常以杂乱无章的形式存在，给后续处理带来诸多不便。本书打破这一常规，强调将文本数据转化为“整洁”的格式，即每一行代表一个观察值，每一列代表一个变量。这种结构化的数据表示方式，与R语言中tidyverse等强大的数据处理工具完美契合，极大地简化了数据清洗、转换和分析的过程，使得原本复杂繁琐的文本挖掘任务变得如同操作表格数据一样清晰明了。读者将学会如何将分散的文本片段、文档集合，有效地组织成可以被R语言高效处理的结构化数据框，从而显著提高工作效率和分析的准确性。从基础到进阶：文本挖掘的完整流程本书的结构安排严谨而全面，几乎涵盖了文本挖掘的每一个关键步骤：数据获取与初步探索：如何从各种来源（如网页、社交媒体、文件等）获取文本数据，并进行初步的量化描述，了解数据的基本特征，如文本长度、词汇量、句法结构等。这为后续的深入分析奠定了基础。文本预处理：这是文本挖掘中至关重要的一步。本书将详细介绍如何对原始文本进行清洗，包括但不限于：去除噪声：如HTML标签、特殊字符、数字、标点符号等。大小写转换：将所有文本统一为大写或小写，避免同义词被视为不同词汇。分词（Tokenization）：将文本分割成单词、词组或句子等基本单元。本书将介绍不同语言的分词方法，以及如何处理词语的边界问题。去除停用词（Stop Word Removal）：移除那些在文本中普遍出现但对语义贡献不大的常见词汇，如“的”、“是”、“在”等，以聚焦于更具信息量的词语。词干提取（Stemming）与词形还原（Lemmatization）：将词语还原到其基本形式，例如将“running”、“ran”、“runs”都归结为“run”，从而减少词汇的变体，提高词语的统计效力。词性标注（Part-of-Speech Tagging）：识别词语的语法类别（如名词、动词、形容词等），这在某些高级分析中尤为重要。文本表示与特征提取：经过预处理的文本需要被转化为机器可读的数值表示。本书将深入探讨几种主流的文本表示方法：词袋模型（Bag-of-Words, BoW）：这是最基础也是最常用的方法，它将文本表示为一个向量，向量的每个维度代表一个词汇，值表示该词汇在文本中出现的频率或比例。 TF-IDF（Term Frequency-Inverse Document Frequency）：这种方法能够衡量一个词汇在单个文档中的重要性，同时考虑其在整个语料库中的普遍性。TF-IDF值高的词汇通常对文档具有更好的区分度。词嵌入（Word Embeddings）：如Word2Vec、GloVe等，这些先进的技术能够将词语映射到低维度的向量空间，捕获词语之间的语义关系，从而进行更复杂的语义分析。文本分析技术：在数据被有效表示后，就可以运用各种强大的分析技术来挖掘其中的信息：主题模型（Topic Modeling）：如LDA（Latent Dirichlet Allocation），用于发现文档集合中潜在的主题结构。通过主题模型，我们可以理解文本集合讨论的核心内容，并对文档进行主题分类。情感分析（Sentiment Analysis）：识别文本中所表达的情感倾向（正面、负面、中性），对于理解用户评论、品牌声誉、公众舆论等具有重要意义。文本分类（Text Classification）：将文本分配到预定义的类别中，如垃圾邮件检测、新闻分类、内容推荐等。文本聚类（Text Clustering）：将相似的文本自动分组，用于发现数据中的模式和结构，例如用户评论的相似性分析。命名实体识别（Named Entity Recognition, NER）：识别文本中的人名、地名、组织机构名、时间等具名实体，为信息提取和知识图谱构建提供基础。关系抽取（Relation Extraction）：识别文本中实体之间的关系，构建知识网络。文本可视化：将分析结果以直观的方式呈现出来，是理解和传达信息的重要手段。本书将介绍如何使用R语言中的强大可视化工具，如ggplot2等，创建各种图表来展示：词频分布图：展示最常用的词汇。主题分布图：展示不同主题在文档中的分布情况。词云图（Word Cloud）：以图形化的方式直观展示词汇的频率。网络图：展示词汇之间的关联或实体之间的关系。聚类结果可视化：展示文本的聚类结构。 R语言生态系统与工具：本书充分利用了R语言及其tidyverse生态系统的优势。读者将学习如何使用诸如`dplyr`、`tidyr`、`stringr`、`tidytext`、`tm`、`quanteda`、`topicmodels`、`text2vec`等一系列包，这些包提供了丰富而高效的函数和工具，极大地简化了文本挖掘的各个环节，使得原本可能非常复杂的编程任务变得简洁易懂。面向读者与本书价值《文本挖掘：基于R语言的整洁工具》面向广泛的读者群体，包括但不限于：学生与研究人员：在文学、社会科学、传播学、图书馆学、信息科学等领域的研究者，需要处理和分析大量文本数据，以支持其学术研究。数据科学家与分析师：在商业、市场营销、金融、医疗、政府等行业的专业人士，希望从客户反馈、市场报告、新闻文章、医学文献等文本数据中提取有价值的商业洞见。开发人员与工程师：对自然语言处理（NLP）和文本挖掘技术感兴趣，希望将其应用于产品开发、智能助手、信息检索系统等领域。任何对文本数据分析感兴趣的个人：即使没有深厚编程背景，只要对探索文本数据中的奥秘充满好奇，本书都能提供坚实的入门基础和实用的操作指南。本书的核心价值在于，它不仅提供了知识，更传递了一种解决问题的方法论。通过学习本书，读者将能够：掌握一套系统性的文本挖掘流程：从数据获取到结果解读，形成一套完整的分析思路。熟练运用R语言进行文本分析：掌握一系列强大的R语言包，实现高效的数据处理和模型构建。理解文本挖掘的底层原理：在实践中深入理解各种算法和技术的应用场景与局限性。将文本挖掘应用于实际问题：能够独立完成从原始文本到有价值洞见的转化，解决实际工作中的挑战。培养数据驱动的思维方式：能够从文本数据中发现规律、预测趋势、做出更明智的决策。总而言之，《文本挖掘：基于R语言的整洁工具》是一本集理论深度、实践指导和工具运用为一体的力作。它以“整洁”的理念为导向，以R语言为利器，为读者提供了一条通往文本数据挖掘核心的清晰路径。阅读本书，将是一次充满启发和收获的旅程，帮助您在文本数据的海洋中，精准地捕获那些闪耀着智慧光芒的宝藏。

用户评价

评分☆☆☆☆☆

哇，拿到这本《文本挖掘：基于R语言的整洁工具》真是让我眼前一亮。光看封面就觉得内容会很扎实，而且“整洁”这个词点出了它与众不同之处，我一直觉得数据分析中最耗时也最容易出错的部分就是数据的整理和预处理，如果能有一套系统的方法，并且是围绕着R语言这样强大的工具来展开，那简直是福音。我之前接触过一些文本挖掘的入门知识，但总感觉零散不成体系，很多时候不知道如何将零散的文本数据转化为有价值的信息。这本书的标题暗示着它会提供一个非常连贯和结构化的学习路径，从数据获取、清洗、转换到最终的分析和可视化，应该会有一个非常清晰的流程。我尤其期待看到它如何运用“整洁数据”的理念来处理文本，比如如何将非结构化的文本拆解成一个个可以被R语言轻松操作的单元，然后进行高效的文本特征提取和建模。对于我这样想要深入了解文本挖掘，但又对R语言不是特别精通的读者来说，这本书无疑提供了一个绝佳的学习机会。我已经迫不及待想要翻开它，看看书中是如何将抽象的文本分析过程变得如此“整洁”和易于理解的了。

评分☆☆☆☆☆

读到《文本挖掘：基于R语言的整洁工具》这个书名，我立刻联想到过去在处理文本数据时遇到的种种挑战，比如数据格式不统一、信息冗余、噪音干扰等等，这些都让文本挖掘工作变得异常困难。而“整洁”这两个字，恰恰点出了解决之道。我期待这本书能为我提供一套系统性的方法论，教我如何将混乱的文本数据转化为规范、易于分析的“整洁数据”格式，并利用R语言强大的数据处理和可视化能力，高效地进行文本挖掘。我猜想书中会详细介绍如何使用R语言中那些专门为文本分析设计的包，比如`tidytext`，以及如何将这些包与其他数据科学包（如`dplyr`、`ggplot2`）结合使用，形成一个流畅的工作流程。这对于我来说，不仅能提升文本挖掘的效率，更能让我对整个分析过程有更深刻的理解。我希望这本书能够带领我从零开始，一步步掌握文本挖掘的核心技术，并能独立地解决实际问题。

评分☆☆☆☆☆

对于《文本挖掘：基于R语言的整洁工具》这本书，我充满了高度的期待。我一直认为，在信息爆炸的时代，文本数据是我们理解世界、洞察趋势的关键。然而，如何有效地从这些海量、非结构化的文本中提取有价值的信息，一直是困扰许多人的难题。这本书的标题“整洁”二字，让我看到了一种全新的、更高效的解决方案。我设想它会用一种非常系统和逻辑化的方式，将复杂的文本挖掘过程分解成一个个易于理解和操作的步骤，并且全部围绕着R语言这个强大的工具展开。我期待书中能够提供大量的实践案例，演示如何运用R语言的各种包来完成文本的预处理、特征提取、主题建模、情感分析等任务，并最终通过数据可视化将分析结果清晰地呈现出来。这对于我这样想要深入学习文本挖掘技术，并将其应用于实际项目中的读者来说，无疑是一本宝贵的参考书。

评分☆☆☆☆☆

这本书《文本挖掘：基于R语言的整洁工具》光听名字就觉得非常有吸引力。我一直觉得数据科学的核心在于如何高效地处理和理解数据，而文本数据可以说是最常见也最复杂的数据类型之一。过去在处理文本时，经常会感到无从下手，很多时候都是在尝试各种零散的方法，效率不高，而且容易出错。这本书的“整洁”方法论，让我看到了一个更系统、更规范的学习路径。我期待书中能够详细介绍如何利用R语言的强大功能，对文本数据进行有效的清洗、转换和特征工程，并且能够将这些步骤整合成一个连贯的分析流程。我尤其对如何将文本数据与“整洁数据”的概念结合起来很感兴趣，这听起来可以大大简化分析过程，并提高结果的可解释性。这本书应该能帮助我更好地理解文本挖掘的原理，并且掌握如何在R语言环境中进行实际的文本数据分析。

评分☆☆☆☆☆

这本《文本挖掘：基于R语言的整洁工具》给我的感觉，就像是打开了一扇通往文本数据奥秘的大门，而且是以一种极其友好和现代的方式。我一直对从海量文本中挖掘出隐藏模式和洞察充满好奇，但传统的文本分析方法往往门槛较高，而且很多时候需要花费大量时间在繁琐的代码编写上。这本书的“整洁”理念，让我看到了解决这个问题的希望。我设想它会引入一系列非常优雅且一致的代码风格，让文本处理的过程变得直观易懂，减少不必要的复杂性。特别是对于R语言的初学者，或者那些对数据科学抱有浓厚兴趣但尚未找到合适切入点的人来说，这本书的价值会非常大。我想象中的内容会涵盖从基础的文本清洗（比如去除停用词、标点符号、特殊字符）到更高级的主题，如词袋模型、TF-IDF、主题模型（LDA）、情感分析等，并且所有这些过程都会无缝地集成到R语言强大的生态系统中。我特别期待看到书中是如何通过具体的案例和代码示例来讲解这些概念的，让抽象的理论变得触手可及。