本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。
Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T;实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。
Divesh Srivastava AT&T;实验室数据库领域首席科学家.
丛书前言
译者序
前言
第1章 大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例:数据源2
1.1.2 航班示例:数据集成7
1.1.3 数据集成:体系结构和三个主要步骤10
1.2 大数据集成:挑战12
1.2.1 “V”维度13
1.2.2 案例研究:深网数据量15
1.2.3 案例研究:抽取的领域数据18
1.2.4 案例研究:深网数据的质量22
1.2.5 案例研究:浅网结构化数据25
1.2.6 案例研究:抽取的知识三元组28
1.3 大数据集成:机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章 模式对齐34
2.1 传统模式对齐:快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章 记录链接68
3.1 传统记录链接:快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking:修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章 大数据集成:数据融合113
4.1 传统数据融合:快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章 大数据集成:出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章 结论175
参考文献177
索引184
前言大数据集成是两大重要工作的结合:一个是相对较老的“数据集成”工作;另一个是相对较新的“大数据”工作。
只要存在人们要将多个数据集链接并融合起来以提升它们价值的情况,数据集成就必不可少。早在计算机科学家开始研究这一领域之前,统计学家们就已经取得了许多进展,因为他们迫切需要关联和分析随时间不断积累的普查数据集。数据集成具有很大的挑战性是由多种原因造成的,不仅仅因为我们表示现实世界中实体的方式多种多样。为了有效地应对这些挑战,在过去几十年里,数据集成研究者们已经在一些基础问题(如模式对齐、记录链接和数据融合),尤其是结构化数据的研究上,取得了巨大进步。
近年来,我们在将现实世界中的每个事件和交互都捕获成数字化数据方面的能力增长十分显著。伴随着这种能力的增长,我们渴望从这些数据中分析和抽取出价值,从而迎来了大数据时代。在大数据时代,数据的数量和异构性以及数据源的数目,都极大地增长了,而且许多数据源是非常动态的并且质量千差万别。不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据要能使我们做出改变社会各方面的有价值的、数据驱动的决策,数据集成是关键。
大数据上的数据集成称为大数据集成。本书探讨数据集成研究界在应对大数据集成带来的新的挑战方面已经取得的进展。它的目的是可以作为研究者、从业者和学生想要了解更多关于大数据集成的一个起点。我们试图覆盖该领域内各种各样的研究问题和工作,但显然要全面覆盖这样一个动态发展的领域是不可能的。我们希望本书的读者能对这个重要领域有所贡献,帮助发展大数据的美好愿景。
致谢本书在成书过程中得到了许多人的帮助。衷心感谢Tamer?zsu邀请我们写这本书,感谢DianeCerra管理整个出版过程,并感谢PaulAnagnostopoulos制作本书。没有他们温和的提醒、定期的推动和提示编辑,本书的完成将花费长得多的时间。
本书的大部分内容从我们在以下学校开的讲习班和会议上做的大会报告演化而来,这些会议和学校包括:ICDE2013、VLDB2013、COMAD2013、苏黎世大学、ADC2014和BDA2014的博士学校。感谢许多同行在报告进行中或之后所给的建设性的反馈。
我们也想感谢许多合作者,他们多年来影响了我们对该研究领域的思考和理解。
最后,感谢我们的家人,他们持续的鼓励和爱的支持使所有的付出更加值得。
XinLunaDong和DiveshSrivastava2014年12月
反思与前瞻,数据时代的深度对话。 阅读《大数据集成》的过程,更像是一场与作者关于数据未来的深度对话。这本书的独特之处在于,它不仅仅是停留在对现有技术的介绍,而是深入到对大数据集成所带来的社会性、伦理性和战略性影响的反思。它让我跳出了纯粹的技术视角,去思考大数据在更宏观的层面上扮演的角色。 在书的后半部分,作者开始探讨大数据集成如何驱动业务创新和战略决策。我读到了关于数据驱动型组织的转型案例,以及大数据在赋能企业竞争力方面的潜力。这让我明白了,大数据集成并非仅仅是IT部门的任务,而是需要与业务部门紧密协作,才能真正释放其价值。作者提出的“数据即资产”的理念,以及如何将其转化为可衡量的商业价值,给我留下了深刻的印象。 同时,书中对于数据伦理和隐私保护的讨论,也让我受益匪浅。在享受大数据带来的便利的同时,我们也必须警惕其潜在的风险。作者并没有回避这些敏感话题,而是以一种负责任的态度,提出了如何平衡数据利用与个人隐私,以及如何建立健全的法律法规来规范数据的使用。这让我认识到,一个健康的大数据生态系统,离不开对伦理和社会责任的坚守。 我特别喜欢作者在结尾处对未来趋势的展望。关于人工智能与大数据集成如何协同发展,以及数据在物联网、5G等新兴技术驱动下将如何演变,都给我带来了新的思考。这本书让我看到了大数据集成领域的广阔前景,也让我意识到,作为一名从业者,我们需要不断学习,紧跟技术和时代的步伐。 《大数据集成》这本书,不仅仅是一本技术书籍,更是一本关于数据时代的“思想指南”。它让我对大数据集成有了更深刻的理解,也让我对自己在数据时代的定位有了更清晰的认识。它鼓励我去思考,去探索,去拥抱数据带来的无限可能。
评分深入探索,洞察大数据的脉络。 合上《大数据集成》的最后一页,我心中涌起的更多的是一种豁然开朗的畅快感。这本书不仅仅是技术介绍,更像是一次对大数据领域深邃思想的探险。作者在保持技术严谨性的同时,巧妙地融入了对于数据价值、伦理考量以及未来趋势的深刻见解,让我对“集成”这个概念有了更立体、更全面的认识。 在技术层面,作者并没有停留在“是什么”的层面,而是着重于“怎么做”以及“为什么这么做”。关于数据清洗、转换、加载(ETL)的详细阐述,让我看到了数据集成背后庞大的工程量和精细的设计。我尤其对数据治理和数据质量控制的部分印象深刻。作者强调,任何再先进的分析工具,如果数据本身是混乱、不准确的,都将是无稽之谈。这一点,在实际工作中常常被忽略,但这本书将其提升到了核心地位,让我警醒。 书中的架构设计和技术选型部分,也为我提供了宝贵的参考。从批处理到流处理,从Hadoop到Spark,作者不仅列举了各种技术,更重要的是分析了它们各自的适用场景和优劣势。我不再是盲目地听到某个技术名词就觉得它“高大上”,而是能够理解它们存在的价值和在整个集成链条中的作用。这种对技术演进和生态协同的洞察,是我在其他地方很难获得的。 更让我受益匪浅的是,作者并没有回避大数据集成过程中可能遇到的挑战和风险。关于数据安全、隐私保护以及合规性问题,都得到了充分的讨论。这让我意识到,大数据的发展并非一帆风顺,它需要技术、法规和社会共识的协同推进。这本书让我看到了大数据集成不仅仅是技术实现,更是一个复杂的系统工程,需要多方面的智慧和努力。 我可以说,《大数据集成》这本书,为我打开了一扇通往大数据集成领域更深层次大门。它让我看到了数据的“来龙去脉”,理解了“整合”的意义,并对未来充满了更清晰的规划。
评分初次接触,充满了未知的惊喜。 一直以来,我对“大数据”这个词都有一种模糊而敬畏的感觉。它听起来像是科技前沿的代名词,又似乎隐藏着某种神秘的力量。当我翻开这本《大数据集成》,原本以为会是枯燥的技术手册,但很快,我的看法就改变了。作者并没有一开始就抛出复杂的概念和晦涩的术语,而是用一种引人入胜的方式,娓娓道来。就像一位经验丰富的向导,带领我一步步走进大数据的世界。 书的开篇,并没有直接深入到技术细节,而是从大数据带来的变革以及它如何影响我们生活的方方面面开始。我读到了一些生动的案例,比如精准营销如何让广告不再令人厌烦,而是变得恰到好处;比如城市交通如何通过数据分析变得更加顺畅;甚至在医疗领域,大数据也展现出了挽救生命的潜力。这些故事让我切实体会到,大数据并非遥不可及,它就存在于我们生活的细微之处,默默地改变着一切。 我尤其喜欢作者在描述一些基本概念时所使用的类比。比如,将数据比作河流,将集成过程比作修建水库和运河,将数据分析比作从中提取有用的水资源。这种形象的比喻,让我在理解抽象概念时感到轻松许多。它不像某些教材那样,上来就堆砌定义,而是循序渐进,让读者能够逐步建立起对整个大数据生态系统的认知框架。 虽然我还没有深入到具体的技术层面,但这本书已经成功地激起了我对大数据领域的好奇心和探索欲。它没有给我带来压迫感,反而是让我觉得,原来学习大数据并没有那么困难,而且充满了乐趣。我已经迫不及待地想知道,当这些数据被“集成”后,究竟能迸发出怎样的火花。这本书给了我一个非常好的起点,让我相信,在这个数据的时代,我也可以拥有自己的理解和洞察。
评分初学者入门,拨开迷雾,见证奇迹。 坦白说,在拿到《大数据集成》这本书之前,我对于“大数据”这个概念,更多的是一种听闻,一种模糊的印象。它就像是悬挂在遥远天空中的一颗星球,虽然知道它的存在,却难以触及它的真实面貌。而这本书,就像是一张详细的地图,把我从迷雾重重的入口,一步步引导向了这颗星球的中心。 这本书的开篇,并没有用那些让初学者望而却步的技术术语,而是从非常接地气的角度,讲述了大数据是如何渗透到我们生活中的。我读到了一些关于个性化推荐、智能导航、健康监测等方面的例子,这些都让我感觉,原来大数据并非是科学家们才懂的理论,它就发生在我的身边,而且正在让我的生活变得更加便利。作者用一种非常平易近人的语言,消除了我对大数据的初步恐惧感。 随着阅读的深入,我开始接触到一些关于数据收集、存储、处理的基础概念。作者并没有一次性将所有东西都抛出来,而是循序渐进,用清晰的逻辑将它们串联起来。我开始理解,原来收集数据只是第一步,更重要的是如何将这些分散、杂乱的数据,变成有用的信息。书中关于数据质量的概念,让我明白,原始数据的“干净”与否,直接影响着后续分析的准确性。 让我感到惊喜的是,作者在讲解技术概念时,常常会用一些生活化的比喻。比如,将数据集成比作“大厨房里大厨们如何协调合作,把各种食材变成美味佳肴”,这样的比喻,瞬间就让枯燥的技术概念变得生动有趣起来。我不再觉得自己在死记硬背,而是能够理解这些技术背后的逻辑和目的。 这本书就像一位耐心的老师,它没有催促我,而是让我能够按照自己的节奏去理解和吸收。它没有给我带来任何压迫感,反而让我对大数据集成这个领域充满了好奇和期待。我感觉,自己就像是一个刚刚起步的探险家,而这本书,就是我手中最宝贵的指南针,指引着我踏上发现大数据奇迹的旅程。
评分实用指南,解锁数据价值的钥匙。 《大数据集成》这本书,于我而言,更像是一本厚实的“工具箱”,里面装满了解决实际问题的“零件”和“说明书”。我是一名从事数据分析工作的从业者,在日常工作中,经常会遇到来自不同源头、不同格式的数据,如何有效地将它们汇集、清洗、转化为可供分析的形态,一直是我的痛点。而这本书,恰恰为我提供了系统性的解决方案。 从数据源接入的多样性,到数据模型设计的原则,再到ETL流程的构建和优化,每一个章节都紧密围绕着“如何把数据集成起来并用起来”这个核心。作者提供的不仅仅是理论知识,更多的是一些经过实践检验的“方法论”和“最佳实践”。例如,在描述数据质量问题时,书中列举了多种常见的脏数据现象,并提供了针对性的检测和修复策略,这些内容直接就可以应用到我的日常工作中,极大地提高了效率。 我尤其欣赏书中关于数据标准化的部分。在企业内部,不同部门、不同系统的数据标准不一致,是导致数据集成困难的根源之一。这本书详细介绍了如何建立和维护统一的数据字典、命名规范,以及如何通过元数据管理来追踪和控制数据的来源和含义。这对于解决“信息孤岛”问题,建立企业级的数据资产管理体系,有着非常重要的指导意义。 此外,书中对于大数据集成架构的选择,也给出了非常实用的建议。无论是基于数据仓库的传统集成,还是利用数据湖进行更灵活的数据管理,作者都深入分析了各种方案的优缺点,并结合实际应用场景,给出了选择的考量因素。这使得我能够根据自身业务需求,做出更明智的技术决策,避免盲目跟风。 总而言之,《大数据集成》这本书,是一本真正能够帮助我们解决实际问题的“实战手册”。它不是纸上谈兵,而是充满了可操作性的指导,让我对如何更好地进行大数据集成,以及如何从中挖掘出更多的业务价值,有了更清晰的方向和信心。
评分凑单很划算哦,性价比高哦,还可以的,质量不错,值得回购
评分如果有电子版读电子版更实惠一点
评分京东客服态度和办事积极性、力度都叫人台心寒,日后是不敢买京东自营图书啦。。。
评分公式错误,错别字,还不如之前下的论文,多给一分都是多的,不建议买
评分好好学习天天向上好好学习天天向上好好学习天天向上
评分还没看完之后就开始了!
评分这本书的内容都是东拼西凑的。没啥实用价值。不建议购买!想退退不了!
评分好好学习,天天向上!
评分很好,很新的技术
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有