大数据集成 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

董欣著，王秋月译

图书标签:

大数据
数据集成
ETL
数据仓库
数据治理
数据质量
数据分析
云计算
Hadoop
Spark

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.idnshop.cc

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111559863

版次：1

商品编码：12199958

品牌：机工出版

包装：平装

丛书名：大数据管理丛书

开本：16开

出版时间：2017-05-01

用纸：胶版纸

页数：186

具体描述

产品特色

内容简介

本书作者在多年研究传统数据集成的基础上，着重分析了大数据背景下的大数据集成。和传统的数据集成相比，大数据集成具有一些新的挑战，例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章，包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论，系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法，对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。

作者简介

Xin Luna Dong（董欣）， 2013年加入谷歌公司担任高级研究员，研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前，她是AT&T;实验室的研究员。董欣博士硕士毕业于北京大学，本科毕业于南开大学。
Divesh Srivastava AT&T;实验室数据库领域首席科学家.

丛书前言
译者序
前言
第1章大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例：数据源2
1.1.2 航班示例：数据集成7
1.1.3 数据集成：体系结构和三个主要步骤10
1.2 大数据集成：挑战12
1.2.1 “V”维度13
1.2.2 案例研究：深网数据量15
1.2.3 案例研究：抽取的领域数据18
1.2.4 案例研究：深网数据的质量22
1.2.5 案例研究：浅网结构化数据25
1.2.6 案例研究：抽取的知识三元组28
1.3 大数据集成：机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章模式对齐34
2.1 传统模式对齐：快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章记录链接68
3.1 传统记录链接：快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking：修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章大数据集成：数据融合113
4.1 传统数据融合：快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章大数据集成：出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章结论175
参考文献177
索引184

前言/序言

　　前言大数据集成是两大重要工作的结合：一个是相对较老的“数据集成”工作；另一个是相对较新的“大数据”工作。

　　只要存在人们要将多个数据集链接并融合起来以提升它们价值的情况，数据集成就必不可少。早在计算机科学家开始研究这一领域之前，统计学家们就已经取得了许多进展，因为他们迫切需要关联和分析随时间不断积累的普查数据集。数据集成具有很大的挑战性是由多种原因造成的，不仅仅因为我们表示现实世界中实体的方式多种多样。为了有效地应对这些挑战，在过去几十年里，数据集成研究者们已经在一些基础问题（如模式对齐、记录链接和数据融合），尤其是结构化数据的研究上，取得了巨大进步。

　　近年来，我们在将现实世界中的每个事件和交互都捕获成数字化数据方面的能力增长十分显著。伴随着这种能力的增长，我们渴望从这些数据中分析和抽取出价值，从而迎来了大数据时代。在大数据时代，数据的数量和异构性以及数据源的数目，都极大地增长了，而且许多数据源是非常动态的并且质量千差万别。不同数据进行链接和融合会使数据的价值爆炸性地增大，因而大数据要能使我们做出改变社会各方面的有价值的、数据驱动的决策，数据集成是关键。

　　大数据上的数据集成称为大数据集成。本书探讨数据集成研究界在应对大数据集成带来的新的挑战方面已经取得的进展。它的目的是可以作为研究者、从业者和学生想要了解更多关于大数据集成的一个起点。我们试图覆盖该领域内各种各样的研究问题和工作，但显然要全面覆盖这样一个动态发展的领域是不可能的。我们希望本书的读者能对这个重要领域有所贡献，帮助发展大数据的美好愿景。

　　致谢本书在成书过程中得到了许多人的帮助。衷心感谢Tamer?zsu邀请我们写这本书，感谢DianeCerra管理整个出版过程，并感谢PaulAnagnostopoulos制作本书。没有他们温和的提醒、定期的推动和提示编辑，本书的完成将花费长得多的时间。

　　本书的大部分内容从我们在以下学校开的讲习班和会议上做的大会报告演化而来，这些会议和学校包括：ICDE2013、VLDB2013、COMAD2013、苏黎世大学、ADC2014和BDA2014的博士学校。感谢许多同行在报告进行中或之后所给的建设性的反馈。

　　我们也想感谢许多合作者，他们多年来影响了我们对该研究领域的思考和理解。

　　最后，感谢我们的家人，他们持续的鼓励和爱的支持使所有的付出更加值得。

　　XinLunaDong和DiveshSrivastava2014年12月

《数据炼金术：从海量信息中提炼价值的艺术》书籍简介：在信息洪流席卷全球的当下，我们置身于一个前所未有的数据时代。从社交媒体的每一次互动，到物联网设备的每一次读数，再到商业交易的每一个环节，数据正以前所未有的速度和规模爆炸式增长。然而，这些海量的数据本身，往往如同未经雕琢的矿石，其内在的价值如同沉睡的宝藏，等待着被发掘和提炼。仅仅拥有数据，并不能直接转化为洞察和行动。真正的挑战，在于如何有效地收集、清洗、转换、分析和理解这些庞杂的信息，最终从中萃取出具有指导意义的洞见，驱动决策，优化流程，创造新的机遇。《数据炼金术：从海量信息中提炼价值的艺术》并非一本关于技术堆栈或特定软件操作的教科书，它更侧重于 “理解”与“应用”。本书深入探讨的是一种思维模式，一种将零散、原始的数据转化为有意义、可操作知识的 “能力”。它将带领读者踏上一段探索数据本质、理解数据潜能、并掌握提炼数据价值的“炼金”之旅。本书的核心在于，它将 “数据” 视为一种 “原材料”，而将 “洞察” 和 “价值” 视为最终的 “黄金”。我们将剥离数据背后的表象，深入探究其来源、特性、潜在的偏见以及可能隐藏的关联。本书不会罗列枯燥的技术名词，而是通过丰富的案例、生动的比喻和富有启发性的分析，阐述数据处理的精髓。我们将聚焦于那些贯穿始终的核心原则和通用方法论，这些原则和方法论是适用于任何行业、任何规模数据的“普适性真理”。本书将从以下几个关键维度展开论述，层层递进，力求带领读者领悟数据炼金的真谛：第一部分：理解数据的“灵魂”——数据本质与洞察思维在正式开始“炼金”之前，我们需要先理解我们所要处理的“矿石”——数据。这一部分将引导读者超越原始的数字和文本，去理解数据的 “生命周期”：数据的产生、收集、存储、流转以及最终的消耗。我们将探讨不同类型数据的特点，例如结构化数据、半结构化数据和非结构化数据的差异，以及它们各自的优势和局限性。更重要的是，我们将引入 “洞察思维” 的概念。洞察并非简单的统计分析结果，它是一种对数据背后因果关系、趋势演变和潜在规律的深刻理解。我们将讨论如何培养这种敏锐的洞察力，如何从看似无关紧马的数据点中发现联系，如何提出正确的问题来引导分析，以及如何避免常见的思维陷阱，例如过度拟合、选择性偏差和结论跳跃。本书将强调，技术工具只是辅助，真正的炼金术师是拥有批判性思维和敏锐洞察力的人。第二部分：数据的“粹取”与“净化”——预处理与清洗的智慧再完美的矿石也需要经过初步的粹取和净化才能露出其光芒。数据也是如此。海量的数据往往充斥着噪声、错误、缺失值和不一致性。这一部分将聚焦于 “数据预处理” 和 “数据清洗” 的艺术。我们将深入探讨为何数据质量至关重要，以及低质量数据可能导致的灾难性后果。本书将详细讲解各种常见的数据清洗技术，并非以代码示例为主，而是以 “原理” 和 “场景应用” 为核心。例如，如何识别并处理缺失值，是插补、删除还是根据具体情况采取其他策略？如何检测和纠正异常值，区分是真实的数据极值还是错误？如何处理数据格式不一致、单位混乱等问题？我们将通过大量的 “案例分析” 来阐述这些技术在实际工作中的应用，例如，在一个客户关系管理系统中，如何识别和合并重复的客户记录；在一个电子商务平台中，如何处理用户提交的不完整或错误的产品信息。此外，我们还将讨论 “特征工程” 的初步概念。数据中的原始特征往往不足以直接反映其内在价值，如何从原始数据中创造出更有意义、更能捕捉关键信息的 “派生特征”，将直接影响到后续分析的深度和准确性。我们将探讨如何基于领域知识和业务逻辑，构建新的特征，例如，从用户的交易历史中计算出“复购率”或“平均订单价值”。第三部分：数据的“重塑”与“融合”——转换与集成策略数据收集的渠道多种多样，格式各异。将来自不同源头、不同格式的数据进行有效的 “转换” 和 “集成”，是构建统一、可分析数据基础的关键步骤。这一部分将深入探讨数据转换的必要性和方法论。本书将讲解如何进行数据格式转换，例如将XML数据转换为JSON，或将非结构化的文本数据转化为结构化的表格。我们将重点阐述数据标准化和数据归一化的原理与应用场景，理解它们在不同分析模型中的作用。更重要的是，我们将探讨 “数据集成” 的复杂性。当企业拥有多个系统，例如CRM、ERP、营销自动化平台等，如何将这些分散的数据整合起来，形成一个 “统一的数据视图”，是实现跨部门协作和全面洞察的基石。本书将讨论不同的数据集成策略，例如ETL（Extract, Transform, Load）和ELT（Extract, Load, Transform）的核心思想，以及它们各自的优劣。我们还将探讨数据仓库和数据湖的概念，并非技术细节，而是它们在数据集成和管理中的战略意义。本书将强调，数据的融合不仅仅是技术层面的合并，更是业务逻辑和数据治理的协同。第四部分：数据的“解构”与“洞察”——分析与解读的艺术当数据经过初步的粹取、净化、重塑和融合后，我们终于来到了“炼金术”最核心的阶段——数据分析与解读。这一部分将聚焦于如何从整理好的数据中挖掘出有价值的洞察。本书将介绍多种分析方法的“思维模型”，而不是具体的算法实现。我们将探讨描述性分析的重要性，例如如何通过可视化手段（图表、仪表板）来直观地呈现数据概况和趋势。我们将深入理解诊断性分析的价值，即“为什么会发生这种情况？”，学会通过追溯和关联分析来找出问题的根源。本书将引入预测性分析的概念，探讨如何利用历史数据来预测未来。但这并非神秘的魔法，而是基于模式识别和统计模型。我们将讨论一些常见的预测场景，例如销售预测、用户流失预测等，以及在进行预测时需要注意的关键因素。更重要的是，我们将强调 “数据解读” 的艺术。分析结果本身是冰冷的数字，而解读则需要结合业务背景、领域知识和逻辑推理。本书将提供一套“解读框架”，帮助读者将分析结果转化为 actionable insights。例如，如何将统计上的显著性转化为业务上的重要性？如何识别数据中的相关性与因果关系之间的区别？如何将复杂的分析结果清晰地传达给非技术背景的决策者？第五部分：数据的“升华”与“应用”——价值实现与持续优化提炼出的“黄金”需要被有效地应用，才能真正实现其价值。这一部分将聚焦于如何将数据洞察转化为实际的业务行动，并建立一个持续优化的数据驱动闭环。本书将探讨如何将数据洞察应用于战略决策、产品优化、客户体验提升、风险管理等多个业务场景。我们将通过丰富的 “实际案例” 来展示数据炼金术如何在不同行业中创造切实的商业价值。例如，一个零售企业如何利用客户购买行为数据来优化库存和个性化推荐；一个金融机构如何利用交易数据来识别欺诈行为；一个医疗组织如何利用患者数据来改进诊疗方案。此外，本书还将强调 “数据治理” 和 “道德伦理” 的重要性。在追求数据价值的同时，我们必须确保数据的合规性、安全性和隐私性。我们将讨论如何建立负责任的数据使用规范，以及如何在数据分析和应用过程中遵循道德原则。最后，本书将引导读者思考 “持续学习” 和 “迭代改进” 的必要性。数据环境和业务需求都在不断变化，数据炼金术并非一次性的过程，而是一个持续演进的旅程。我们将探讨如何建立反馈机制，不断优化数据处理流程，提升分析能力，从而在日新月异的信息时代保持竞争优势。《数据炼金术：从海量信息中提炼价值的艺术》的目标，是赋能读者，使其能够自信地驾驭数据，将潜藏在海量信息中的宝藏转化为驱动创新和成功的强大动力。它将帮助您理解数据真正的价值所在，掌握提炼洞察的艺术，最终在这个数据驱动的时代，成为一位真正的“数据炼金术士”。

用户评价

评分☆☆☆☆☆

实用指南，解锁数据价值的钥匙。《大数据集成》这本书，于我而言，更像是一本厚实的“工具箱”，里面装满了解决实际问题的“零件”和“说明书”。我是一名从事数据分析工作的从业者，在日常工作中，经常会遇到来自不同源头、不同格式的数据，如何有效地将它们汇集、清洗、转化为可供分析的形态，一直是我的痛点。而这本书，恰恰为我提供了系统性的解决方案。从数据源接入的多样性，到数据模型设计的原则，再到ETL流程的构建和优化，每一个章节都紧密围绕着“如何把数据集成起来并用起来”这个核心。作者提供的不仅仅是理论知识，更多的是一些经过实践检验的“方法论”和“最佳实践”。例如，在描述数据质量问题时，书中列举了多种常见的脏数据现象，并提供了针对性的检测和修复策略，这些内容直接就可以应用到我的日常工作中，极大地提高了效率。我尤其欣赏书中关于数据标准化的部分。在企业内部，不同部门、不同系统的数据标准不一致，是导致数据集成困难的根源之一。这本书详细介绍了如何建立和维护统一的数据字典、命名规范，以及如何通过元数据管理来追踪和控制数据的来源和含义。这对于解决“信息孤岛”问题，建立企业级的数据资产管理体系，有着非常重要的指导意义。此外，书中对于大数据集成架构的选择，也给出了非常实用的建议。无论是基于数据仓库的传统集成，还是利用数据湖进行更灵活的数据管理，作者都深入分析了各种方案的优缺点，并结合实际应用场景，给出了选择的考量因素。这使得我能够根据自身业务需求，做出更明智的技术决策，避免盲目跟风。总而言之，《大数据集成》这本书，是一本真正能够帮助我们解决实际问题的“实战手册”。它不是纸上谈兵，而是充满了可操作性的指导，让我对如何更好地进行大数据集成，以及如何从中挖掘出更多的业务价值，有了更清晰的方向和信心。

评分☆☆☆☆☆

初学者入门，拨开迷雾，见证奇迹。坦白说，在拿到《大数据集成》这本书之前，我对于“大数据”这个概念，更多的是一种听闻，一种模糊的印象。它就像是悬挂在遥远天空中的一颗星球，虽然知道它的存在，却难以触及它的真实面貌。而这本书，就像是一张详细的地图，把我从迷雾重重的入口，一步步引导向了这颗星球的中心。这本书的开篇，并没有用那些让初学者望而却步的技术术语，而是从非常接地气的角度，讲述了大数据是如何渗透到我们生活中的。我读到了一些关于个性化推荐、智能导航、健康监测等方面的例子，这些都让我感觉，原来大数据并非是科学家们才懂的理论，它就发生在我的身边，而且正在让我的生活变得更加便利。作者用一种非常平易近人的语言，消除了我对大数据的初步恐惧感。随着阅读的深入，我开始接触到一些关于数据收集、存储、处理的基础概念。作者并没有一次性将所有东西都抛出来，而是循序渐进，用清晰的逻辑将它们串联起来。我开始理解，原来收集数据只是第一步，更重要的是如何将这些分散、杂乱的数据，变成有用的信息。书中关于数据质量的概念，让我明白，原始数据的“干净”与否，直接影响着后续分析的准确性。让我感到惊喜的是，作者在讲解技术概念时，常常会用一些生活化的比喻。比如，将数据集成比作“大厨房里大厨们如何协调合作，把各种食材变成美味佳肴”，这样的比喻，瞬间就让枯燥的技术概念变得生动有趣起来。我不再觉得自己在死记硬背，而是能够理解这些技术背后的逻辑和目的。这本书就像一位耐心的老师，它没有催促我，而是让我能够按照自己的节奏去理解和吸收。它没有给我带来任何压迫感，反而让我对大数据集成这个领域充满了好奇和期待。我感觉，自己就像是一个刚刚起步的探险家，而这本书，就是我手中最宝贵的指南针，指引着我踏上发现大数据奇迹的旅程。

评分☆☆☆☆☆

深入探索，洞察大数据的脉络。合上《大数据集成》的最后一页，我心中涌起的更多的是一种豁然开朗的畅快感。这本书不仅仅是技术介绍，更像是一次对大数据领域深邃思想的探险。作者在保持技术严谨性的同时，巧妙地融入了对于数据价值、伦理考量以及未来趋势的深刻见解，让我对“集成”这个概念有了更立体、更全面的认识。在技术层面，作者并没有停留在“是什么”的层面，而是着重于“怎么做”以及“为什么这么做”。关于数据清洗、转换、加载（ETL）的详细阐述，让我看到了数据集成背后庞大的工程量和精细的设计。我尤其对数据治理和数据质量控制的部分印象深刻。作者强调，任何再先进的分析工具，如果数据本身是混乱、不准确的，都将是无稽之谈。这一点，在实际工作中常常被忽略，但这本书将其提升到了核心地位，让我警醒。书中的架构设计和技术选型部分，也为我提供了宝贵的参考。从批处理到流处理，从Hadoop到Spark，作者不仅列举了各种技术，更重要的是分析了它们各自的适用场景和优劣势。我不再是盲目地听到某个技术名词就觉得它“高大上”，而是能够理解它们存在的价值和在整个集成链条中的作用。这种对技术演进和生态协同的洞察，是我在其他地方很难获得的。更让我受益匪浅的是，作者并没有回避大数据集成过程中可能遇到的挑战和风险。关于数据安全、隐私保护以及合规性问题，都得到了充分的讨论。这让我意识到，大数据的发展并非一帆风顺，它需要技术、法规和社会共识的协同推进。这本书让我看到了大数据集成不仅仅是技术实现，更是一个复杂的系统工程，需要多方面的智慧和努力。我可以说，《大数据集成》这本书，为我打开了一扇通往大数据集成领域更深层次大门。它让我看到了数据的“来龙去脉”，理解了“整合”的意义，并对未来充满了更清晰的规划。

评分☆☆☆☆☆

初次接触，充满了未知的惊喜。一直以来，我对“大数据”这个词都有一种模糊而敬畏的感觉。它听起来像是科技前沿的代名词，又似乎隐藏着某种神秘的力量。当我翻开这本《大数据集成》，原本以为会是枯燥的技术手册，但很快，我的看法就改变了。作者并没有一开始就抛出复杂的概念和晦涩的术语，而是用一种引人入胜的方式，娓娓道来。就像一位经验丰富的向导，带领我一步步走进大数据的世界。书的开篇，并没有直接深入到技术细节，而是从大数据带来的变革以及它如何影响我们生活的方方面面开始。我读到了一些生动的案例，比如精准营销如何让广告不再令人厌烦，而是变得恰到好处；比如城市交通如何通过数据分析变得更加顺畅；甚至在医疗领域，大数据也展现出了挽救生命的潜力。这些故事让我切实体会到，大数据并非遥不可及，它就存在于我们生活的细微之处，默默地改变着一切。我尤其喜欢作者在描述一些基本概念时所使用的类比。比如，将数据比作河流，将集成过程比作修建水库和运河，将数据分析比作从中提取有用的水资源。这种形象的比喻，让我在理解抽象概念时感到轻松许多。它不像某些教材那样，上来就堆砌定义，而是循序渐进，让读者能够逐步建立起对整个大数据生态系统的认知框架。虽然我还没有深入到具体的技术层面，但这本书已经成功地激起了我对大数据领域的好奇心和探索欲。它没有给我带来压迫感，反而是让我觉得，原来学习大数据并没有那么困难，而且充满了乐趣。我已经迫不及待地想知道，当这些数据被“集成”后，究竟能迸发出怎样的火花。这本书给了我一个非常好的起点，让我相信，在这个数据的时代，我也可以拥有自己的理解和洞察。

评分☆☆☆☆☆

反思与前瞻，数据时代的深度对话。阅读《大数据集成》的过程，更像是一场与作者关于数据未来的深度对话。这本书的独特之处在于，它不仅仅是停留在对现有技术的介绍，而是深入到对大数据集成所带来的社会性、伦理性和战略性影响的反思。它让我跳出了纯粹的技术视角，去思考大数据在更宏观的层面上扮演的角色。在书的后半部分，作者开始探讨大数据集成如何驱动业务创新和战略决策。我读到了关于数据驱动型组织的转型案例，以及大数据在赋能企业竞争力方面的潜力。这让我明白了，大数据集成并非仅仅是IT部门的任务，而是需要与业务部门紧密协作，才能真正释放其价值。作者提出的“数据即资产”的理念，以及如何将其转化为可衡量的商业价值，给我留下了深刻的印象。同时，书中对于数据伦理和隐私保护的讨论，也让我受益匪浅。在享受大数据带来的便利的同时，我们也必须警惕其潜在的风险。作者并没有回避这些敏感话题，而是以一种负责任的态度，提出了如何平衡数据利用与个人隐私，以及如何建立健全的法律法规来规范数据的使用。这让我认识到，一个健康的大数据生态系统，离不开对伦理和社会责任的坚守。我特别喜欢作者在结尾处对未来趋势的展望。关于人工智能与大数据集成如何协同发展，以及数据在物联网、5G等新兴技术驱动下将如何演变，都给我带来了新的思考。这本书让我看到了大数据集成领域的广阔前景，也让我意识到，作为一名从业者，我们需要不断学习，紧跟技术和时代的步伐。《大数据集成》这本书，不仅仅是一本技术书籍，更是一本关于数据时代的“思想指南”。它让我对大数据集成有了更深刻的理解，也让我对自己在数据时代的定位有了更清晰的认识。它鼓励我去思考，去探索，去拥抱数据带来的无限可能。

评分☆☆☆☆☆

书不错，内容很新

评分☆☆☆☆☆

估计是正版的书吧，还行的。

评分☆☆☆☆☆

这本书的内容都是东拼西凑的。没啥实用价值。不建议购买！想退退不了！

评分☆☆☆☆☆

质量很好，多次购买，推荐

评分☆☆☆☆☆

印刷质量非常不错，物美价廉

评分☆☆☆☆☆

学习一下大数据的知识，条理很清晰。