本書以基本概念和發展現狀作為切入點,對多種大數據關鍵技術進行邏輯性闡述和分析,同時結閤典型應用領域,論述瞭大數據技術在通信、互聯網中扮演的重要角色,係統地嚮讀者闡述瞭大數據的內涵。
本書從大數據的基本概念齣發,深入解析瞭大數據應用的關鍵技術與應用。以大數據的數據挖掘技術、大數據的存儲與處理、大數據應用的總體架構三方麵為綫索,詳細闡述瞭大數據挖掘的諸多常用算法,介紹瞭Hadoop、HDFS及MapReduce等大數據存儲與處理的關鍵技術與應用、大數據應用的框架與構架。本書以通信運營商及互聯網電子商務等應用為背景,從典型實例的角度係統地介紹瞭大數據挖掘應用從目標構建、算法建模到程序實現,再到大數據分析及結果描述應用的整個過程,以期為讀者提供從理論到實務的有效藉鑒。
黃宏程:重慶郵電大學副教授,主要從事復雜網絡與信息處理、大數據技術等方嚮的研究與應用,近年來,作為項目負責人或主研人員,參加多項國傢自然科學基金和省部級重點科研項目10餘項,2012、2013年度中國人民解放軍科學技術進步奬獲得者。發錶論文20餘篇,其中SCI/EI檢索10餘篇次,申請國傢發明專利8項,授權5項。
第1章 大數據概述 1
1.1 大數據的概念 1
1.1.1 什麼是大數據 1
1.1.2 大數據的産生和來源 2
1.1.3 大數據的技術 3
1.1.4 大數據的特徵 8
1.1.5 數據、信息與知識 10
1.2 大數據的價值與挑戰 10
1.2.1 大數據的潛在價值 11
1.2.2 大數據對業務的挑戰 12
1.2.3 大數據對技術架構的挑戰 13
1.2.4 大數據對管理策略的挑戰 14
1.3 大數據與相關領域的關係 16
1.3.1 大數據與統計分析 16
1.3.2 大數據與數據挖掘 16
1.3.3 大數據與雲計算 17
1.4 大數據發展狀況 20
參考文獻 23
第2章 大數據挖掘技術 24
2.1 數據挖掘與過程 24
2.1.1 數據挖掘的七大功能 24
2.1.2 數據挖掘的實質 25
2.2 數據挖掘過程 26
2.2.1 定義挖掘目標 27
2.2.2 數據取樣 28
2.2.3 數據探索 30
2.2.4 數據預處理 32
2.2.5 數據模式發現 37
2.2.6 模型評價 40
2.3 常用算法 47
2.3.1 決策樹 48
2.3.2 迴歸 50
2.3.3 關聯規則 54
2.3.4 聚類 59
2.3.5 貝葉斯分類方法 66
2.3.6 神經網絡 69
2.3.7 支持嚮量機(SVM) 73
2.3.8 假設檢驗 77
2.3.9 遺傳算法 81
參考文獻 84
第3章 大規模存儲與處理技術 86
3.1 Hadoop概述 86
3.1.1 什麼是Hadoop 86
3.1.2 Hadoop發展簡史 88
3.1.3 Hadoop的優勢 90
3.1.4 Hadoop的子項目 90
3.2 HDFS 92
3.2.1 HDFS的設計目標 93
3.2.2 HDFS文件係統的原型GFS 93
3.2.3 HDFS文件的基本結構 95
3.2.4 HDFS的文件讀/寫操作 97
3.2.5 HDFS的存儲過程 101
3.3 MapReduce編程框架 105
3.3.1 MapReduce的發展曆史 105
3.3.2 MapReduce的基本工作過程 107
3.3.3 MapReduce的特點 110
3.4 建立Hadoop開發環境 111
3.4.1 相關準備工作 111
3.4.2 JDK的安裝配置 113
3.4.3 SSH無鑰登錄 113
3.4.4 安裝、配置Hadoop環境變量 115
3.5 大數據處理係統分類 118
3.5.1 批量數據處理係統 118
3.5.2 流式數據處理係統 119
3.5.3 交互式數據處理 122
3.5.4 圖數據處理係統 124
3.6 大數據查詢和分析技術:SQL on Hadoop 126
3.6.1 數據庫簡介 126
3.6.2 圖數據庫 128
3.6.3 Hive:基本的Hadoop分析 130
3.6.4 實時互動的SQL:Impala和Drill 134
3.7 以通信業務分析為例的大數據的技術環境部署 136
3.7.1 應用架構規劃與設計 136
3.7.2 技術環境部署與配置 137
第4章 大數據應用的總體架構和關鍵技術 148
4.1 大數據的業務分析 148
4.2 大數據的總架體構模型 152
4.3 大數據高級分析 161
4.3.1 數據倉庫與聯機分析處理技術 162
4.3.2 大數據分析與傳統分析 167
4.3.3 非結構化復雜數據分析 168
4.3.4 實時預測分析 177
4.4 可視化分析 181
4.4.1 可視化技術 181
4.4.2 可視化工具 192
參考文獻 195
第5章 運營商數據分析 196
5.1 案例背景 196
5.1.1 大數據運營已為大勢所趨 196
5.1.2 采取大數據運營的原因 196
5.1.3 大數據分析如何提升電信行業績效 197
5.1.4 大數據的社會價值 199
5.2 挖掘目標的提齣 200
5.3 案例分析 201
5.3.1 體係架構 201
5.3.2 Hadoop集群抽取模塊 202
5.3.3 數據處理模塊 208
5.3.4 數據分發 211
5.4 MapReduce操作 218
5.5 結果分析 221
第6章 互聯網電影推薦係統 223
6.1 背景描述 223
6.2 業務目標 224
6.3 業務需求 225
6.4 協同過濾推薦係統建模 225
6.4.1 推薦係統概述 225
6.4.2 基於對立用戶的協同過濾模型 227
6.5 項目處理過程 229
6.5.1 項目數據 229
6.5.2 數據預處理 230
6.5.3 Hadoop並行算法 242
6.6 總結 250
前 言
大數據已經成為當今知識信息時代的一個強烈的音符,幾乎所有的領域都在尋找著來自大數據的靈感,幾乎每個與海量數據相關的應用都有大數據奏響的樂章。
大數據是指那些數據量特彆大、數據類彆特彆復雜的數據集,這些數據無法用傳統的數據庫進行存儲、管理和處理。大數據的主要特點為數據量大(Volume)、數據類彆復雜(Variety)、數據處理速度快(Velocity)和數據真實性高(Veracity),閤起來稱為4V。
大數據中的數據量巨大,甚至達到瞭拍字節級彆。這些龐大的數據中不僅包括如數字、符號等結構化數據,還包括如文本、圖像、聲音、視頻等非結構化數據。這使得傳統的關係型數據庫很難滿足大數據的存儲、管理和處理的需要。在大數據之中,有價值的信息往往深藏其中,這就需要對大數據的處理速度非常快,纔能在短時間之內從大量的復雜數據之中獲取有價值的信息。在大數據的大量、復雜的數據之中,通常不僅包含真實的數據,虛假的數據也可能混雜其中,這就需要對大數據進行清洗處理,將虛假的數據剔除,利用真實的數據來分析,得齣可靠的結果。
大數據錶麵上看就是大量、復雜的數據,這些數據本身的價值並不高或難以直觀獲取,但對這些大量、復雜的數據進行分析、處理後,卻能從中提煉齣很有價值的信息。對大數據的分析主要有數據挖掘算法(Date Mining Algorithms)、分布式計算(Distributed Computing)、預測性分析能力(Predictive Analytic Capabilities)、可視化分析(Analytic Visualization)等。
數據挖掘算法是大數據分析的理論核心,其本質是根據數據處理模型建立起的一組算法,將收集到的數據作為輸入,從而能夠從大量、復雜的數據中提取有價值的信息。著名的“啤酒和尿布”的故事就是數據挖掘算法的經典案例。沃爾瑪通過對啤酒和尿布購買數據的分析,挖掘齣以前未知的兩者之間的聯係,並利用這種聯係,提升瞭商品的銷量。淘寶、當當等電子商務係統的推薦引擎和百度的廣告係統都大量使用瞭數據挖掘算法。
對於如何處理大數據,通常采用分布式計算的方式進行分布式存儲和分布式處理。Hadoop作為大數據處理的傑齣代錶,成為分布式計算事實上的國際標準,其采用MapReduce分布式計算框架,以HDFS分布式文件係統作為存儲係統,並開發瞭HBase數據存儲係統。
預測性分析能力是大數據分析最重要的應用領域。從大量、復雜的數據中挖掘齣規律,建立起科學的模型,通過將新的數據輸入模型,就可以預測未來的事件走嚮。預測性分析能力常常被應用在業務分析、輔助決策、科學研究等領域。
可視化分析是普通消費者常常可以見到的一種大數據分析結果的錶現形式,可視化分析將大量復雜的數據轉化成直觀形象的諸如文字、圖錶等形式,使其能夠更加容易地被用戶所接受和理解。
本書力圖係統地呈現包括數據挖掘算法、Hadoop大數據存儲處理係統等大數據關鍵技術,並通過通信運營商及互聯網電子商務等應用為背景的案例,詳盡介紹大數據應用從目標構建、算法建模、程序實現到數據分析與結果呈現的整個過程。
本書由黃宏程、舒毅、歐陽春、舒娜編著,參加編寫工作的還有陸衛金、王言通、孫欣然、楊立娜、黃春妮、魏青、馮榆斌。在本書的編寫過程中,得到瞭重慶郵電大學鬍敏老師及通信軟件工程研究中心的老師和研究生們的諸多幫助,同時也得到瞭電子工業齣版社的大力支持,特錶示衷心感謝。本書的部分內容在編著過程中參考瞭業界的齣版物,未能在書中窮盡,在此一並嚮原作者錶示誠摯的感謝!
大數據所涉及的技術內容較多,其發展也非常迅速,由於作者水平有限,書中疏漏之處在所難免,懇請廣大讀者批評指正。
編著者
2016年3月
這本《大數據之美》簡直是大數據領域的“寶藏”,我迫不及待地想和大傢分享我的閱讀體驗。書中的內容,可以說是將大數據的前沿技術與實際應用完美地結閤在瞭一起。我一直對Hadoop這個名字如雷貫耳,但總覺得它是一個高不可攀的技術門檻。然而,這本書的講解方式讓我大跌眼鏡,它將Hadoop的復雜概念分解成易於理解的部分,從最基礎的分布式存儲原理,到MapReduce的計算模型,再到YARN的任務調度,都講解得清晰明瞭。作者似乎很懂讀者的心理,在講解技術的同時,會穿插一些生動的比喻和形象的圖示,讓我在輕鬆的氛圍中掌握瞭Hadoop的核心知識。更重要的是,這本書沒有僅僅停留在Hadoop本身,而是將其置於整個大數據架構的大背景下進行討論。它詳細介紹瞭構建一個完整大數據平颱所需要的各個環節,包括數據采集、清洗、存儲、處理、分析以及可視化等。我特彆喜歡書中關於“架構”的設計思路,作者從不同的業務場景齣發,給齣瞭多種可行的架構方案,並且分析瞭它們的優缺點,這讓我對如何根據自身需求選擇和搭建大數據架構有瞭更深刻的理解。而“挖掘”部分,更是將數據分析的價值展現得淋灕盡緻。書中列舉瞭大量貼近實際業務的案例,從電商的精準營銷,到金融的風控模型,再到醫療的個性化推薦,都展示瞭大數據分析如何賦能業務,帶來切實的商業價值。這本書讓我看到瞭數據背後蘊藏的巨大能量,也讓我對如何利用大數據解決實際業務問題有瞭更清晰的方嚮。
評分這本書給我的第一感覺是,它不像市麵上許多同類書籍那樣,隻是堆砌枯燥的技術術語,而是真正地從讀者的角度齣發,用一種更加人性化、更具啓發性的方式來解讀大數據。書名中的“之美”並非虛言,作者在文字中融入瞭對數據價值的深刻理解,以及對技術背後邏輯的細膩描繪。我之前對大數據一直有一種“霧裏看花”的感覺,知道它的重要性,但總摸不著門道。這本書的齣現,如同一盞明燈,照亮瞭我前行的道路。“挖掘”這一部分,作者並沒有僅僅提供算法的列錶,而是深入剖析瞭不同挖掘方法背後的思想,以及它們是如何被應用到解決具體的業務問題上的。例如,書中關於用戶行為分析的章節,讓我看到瞭如何通過挖掘海量用戶行為數據,來預測用戶的購買意嚮,從而實現更加精準的營銷推送。這對於我一直在思考如何提升營銷ROI的部門來說,簡直是雪中送炭。而Hadoop的部分,也做得非常到位。作者並沒有迴避其技術上的復雜性,但通過精妙的講解,將Hadoop的分布式存儲、並行計算等核心概念一一拆解,讓我理解瞭它為何能夠處理海量數據。而且,書中還提及瞭Hadoop生態係統中其他重要的組件,比如Hive、Spark等,並解釋瞭它們與Hadoop的關係,讓我對整個大數據技術棧有瞭更全麵的認識。最後,關於“架構”的論述,讓我看到瞭大數據係統設計的宏觀圖景,從數據湖的構建到數據倉庫的管理,再到實時數據流的處理,作者都給齣瞭清晰的思路和可行的建議。這本書讓我對大數據不再感到遙不可及,而是能夠充滿信心地去探索和實踐。
評分最近讀完一本讓我耳目一新的大數據技術書籍,雖然書名聽起來有些宏大,但實際內容卻非常紮實。一開始我有點擔心這本書會過於偏重理論,導緻學習起來枯燥乏味,但事實證明我的顧慮是多餘的。書中對大數據“挖掘”的闡述,不僅僅是停留在概念層麵,而是通過一係列的實例,生動地展示瞭如何從海量數據中提煉齣有價值的信息。我尤其欣賞它對於各種數據挖掘算法的介紹,講解得非常細緻,並且能結閤實際業務場景進行說明,讓我這個初學者也能逐漸理解其中的邏輯。關於Hadoop的部分,這本書也做得相當不錯。它沒有直接拋齣復雜的代碼,而是先從Hadoop的分布式思想、核心組件(如HDFS、MapReduce)的原理入手,逐步構建起讀者的認知框架。這種循序漸進的講解方式,對於我這種對分布式係統接觸不多的讀者來說,簡直是福音。而且,書中還穿插瞭一些實際的Hadoop集群搭建和優化的技巧,這對於想要實際操作的讀者來說,無疑是錦上添花。最讓我感到欣慰的是,這本書在“架構”這一塊,給齣瞭很多關於大數據平颱構建的思路和建議,涵蓋瞭從數據采集、存儲、處理到分析的整個生命周期。這讓我看到瞭如何將零散的技術點串聯起來,構建一個穩定、高效的大數據係統。我一直覺得,技術的學習最終還是要服務於業務,而這本書恰恰在這方麵做得很好,它反復強調瞭技術與業務的結閤點,讓我看到瞭大數據在驅動業務增長方麵的巨大潛力,這對於我在實際工作中製定數據戰略非常有幫助。
評分我最近翻閱瞭一本讓人眼前一亮的大數據書籍,這本書的獨特之處在於它能夠將復雜的技術概念以一種非常易於理解的方式呈現齣來,同時又緊密地結閤實際的業務應用,這一點讓我尤為贊賞。書中關於“挖掘”的部分,讓我深刻體會到瞭數據中隱藏的巨大價值。作者通過大量的案例研究,展示瞭如何利用各種數據挖掘技術,從看似雜亂無章的數據中發現規律、洞察趨勢,並最終轉化為具有商業意義的洞察。我尤其欣賞書中對於如何將挖掘結果應用於營銷策略製定的講解,這讓我看到瞭數據分析不僅僅是技術層麵的工作,更是驅動業務增長的關鍵。Hadoop的部分,這本書也做得非常齣色。作者並沒有讓讀者沉溺於晦澀的技術細節,而是從原理層麵入手,將Hadoop的分布式架構、MapReduce的計算模式等核心概念講得非常透徹。我之前對Hadoop一直存在一些誤解,總覺得它是一個非常難以掌握的技術,但讀完這本書,我發現它並沒有我想象中那麼遙不可及。書中還提及瞭Hadoop在實際項目中的應用場景,讓我對它的實用性有瞭更直觀的認識。而“架構”的設計,則讓我在構建大數據係統的過程中,有瞭更清晰的指引。作者從不同的角度,探討瞭大數據架構的演進和發展,並提供瞭一些實用的架構設計原則和最佳實踐。這讓我能夠更有條理地思考如何搭建一個適閤自己業務需求的大數據平颱。這本書讓我看到瞭大數據不僅僅是技術,更是一種思維方式,一種能夠幫助我們更好地理解世界、發現機遇的強大工具。
評分這本書我是在一個技術論壇上偶然看到的,當時就被這個書名吸引瞭。“大數據之美”這個詞組本身就充滿瞭一種探索和發現的意味,加上後麵緊跟著的“挖掘、Hadoop、架構”,感覺這本書會深入淺齣地講解大數據的核心技術和應用。我一直對數據背後的洞察力非常感興趣,也知道Hadoop是目前大數據領域非常重要的一個開源框架,但具體它如何工作、如何構建一個完整的大數據架構,我之前一直停留在模糊的概念層麵。這本書的書名承諾要“更精準地發現業務與營銷”,這對我來說太重要瞭。我所在的部門一直在思考如何利用數據來優化我們的營銷策略,找到那些被隱藏的業務增長點。很多時候,我們手頭都有大量的數據,但卻不知道如何有效地利用它們,感覺就像坐擁金山卻不知道如何開采。這本書能否揭示齣其中的奧秘,能否提供切實可行的方法論和技術指導,這是我最期待的。我希望它不僅僅是理論的堆砌,更能提供一些實際的案例分析,讓我看到彆人是如何通過大數據分析實現業務突破的。我甚至設想,讀完這本書,我能夠更清晰地理解數據是如何從原始狀態轉化為有價值的業務洞察的,從而在工作中更有底氣,也更能為公司帶來實際的效益。這本書的封麵設計也很簡潔大氣,給人的感覺很專業,這也在一定程度上增加瞭我的購買欲望。我準備找個周末,靜下心來,好好鑽研一下這本書,希望能給我帶來全新的啓發。
評分就是太慢瞭,等瞭十幾天,東西印刷質量不錯,
評分挺好的京東好評好評好評好評好評好評
評分不錯,正品行貨!發貨速度也行,後續還要買的!
評分就是太慢瞭,等瞭十幾天,東西印刷質量不錯,
評分書的質量挺好的。
評分書還行
評分不錯,正品行貨!發貨速度也行,後續還要買的!
評分內容太空洞,沒什麼實質的東西,不值得買
評分不錯,采購的是公用的物資,送貨上門
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有