大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 epub pdf mobi txt 電子書 下載 2024
發表於2024-11-22
大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 epub pdf mobi txt 電子書 下載 2024
本書以基本概念和發展現狀作為切入點,對多種大數據關鍵技術進行邏輯性闡述和分析,同時結閤典型應用領域,論述瞭大數據技術在通信、互聯網中扮演的重要角色,係統地嚮讀者闡述瞭大數據的內涵。
本書從大數據的基本概念齣發,深入解析瞭大數據應用的關鍵技術與應用。以大數據的數據挖掘技術、大數據的存儲與處理、大數據應用的總體架構三方麵為綫索,詳細闡述瞭大數據挖掘的諸多常用算法,介紹瞭Hadoop、HDFS及MapReduce等大數據存儲與處理的關鍵技術與應用、大數據應用的框架與構架。本書以通信運營商及互聯網電子商務等應用為背景,從典型實例的角度係統地介紹瞭大數據挖掘應用從目標構建、算法建模到程序實現,再到大數據分析及結果描述應用的整個過程,以期為讀者提供從理論到實務的有效藉鑒。
黃宏程:重慶郵電大學副教授,主要從事復雜網絡與信息處理、大數據技術等方嚮的研究與應用,近年來,作為項目負責人或主研人員,參加多項國傢自然科學基金和省部級重點科研項目10餘項,2012、2013年度中國人民解放軍科學技術進步奬獲得者。發錶論文20餘篇,其中SCI/EI檢索10餘篇次,申請國傢發明專利8項,授權5項。
第1章 大數據概述 1
1.1 大數據的概念 1
1.1.1 什麼是大數據 1
1.1.2 大數據的産生和來源 2
1.1.3 大數據的技術 3
1.1.4 大數據的特徵 8
1.1.5 數據、信息與知識 10
1.2 大數據的價值與挑戰 10
1.2.1 大數據的潛在價值 11
1.2.2 大數據對業務的挑戰 12
1.2.3 大數據對技術架構的挑戰 13
1.2.4 大數據對管理策略的挑戰 14
1.3 大數據與相關領域的關係 16
1.3.1 大數據與統計分析 16
1.3.2 大數據與數據挖掘 16
1.3.3 大數據與雲計算 17
1.4 大數據發展狀況 20
參考文獻 23
第2章 大數據挖掘技術 24
2.1 數據挖掘與過程 24
2.1.1 數據挖掘的七大功能 24
2.1.2 數據挖掘的實質 25
2.2 數據挖掘過程 26
2.2.1 定義挖掘目標 27
2.2.2 數據取樣 28
2.2.3 數據探索 30
2.2.4 數據預處理 32
2.2.5 數據模式發現 37
2.2.6 模型評價 40
2.3 常用算法 47
2.3.1 決策樹 48
2.3.2 迴歸 50
2.3.3 關聯規則 54
2.3.4 聚類 59
2.3.5 貝葉斯分類方法 66
2.3.6 神經網絡 69
2.3.7 支持嚮量機(SVM) 73
2.3.8 假設檢驗 77
2.3.9 遺傳算法 81
參考文獻 84
第3章 大規模存儲與處理技術 86
3.1 Hadoop概述 86
3.1.1 什麼是Hadoop 86
3.1.2 Hadoop發展簡史 88
3.1.3 Hadoop的優勢 90
3.1.4 Hadoop的子項目 90
3.2 HDFS 92
3.2.1 HDFS的設計目標 93
3.2.2 HDFS文件係統的原型GFS 93
3.2.3 HDFS文件的基本結構 95
3.2.4 HDFS的文件讀/寫操作 97
3.2.5 HDFS的存儲過程 101
3.3 MapReduce編程框架 105
3.3.1 MapReduce的發展曆史 105
3.3.2 MapReduce的基本工作過程 107
3.3.3 MapReduce的特點 110
3.4 建立Hadoop開發環境 111
3.4.1 相關準備工作 111
3.4.2 JDK的安裝配置 113
3.4.3 SSH無鑰登錄 113
3.4.4 安裝、配置Hadoop環境變量 115
3.5 大數據處理係統分類 118
3.5.1 批量數據處理係統 118
3.5.2 流式數據處理係統 119
3.5.3 交互式數據處理 122
3.5.4 圖數據處理係統 124
3.6 大數據查詢和分析技術:SQL on Hadoop 126
3.6.1 數據庫簡介 126
3.6.2 圖數據庫 128
3.6.3 Hive:基本的Hadoop分析 130
3.6.4 實時互動的SQL:Impala和Drill 134
3.7 以通信業務分析為例的大數據的技術環境部署 136
3.7.1 應用架構規劃與設計 136
3.7.2 技術環境部署與配置 137
第4章 大數據應用的總體架構和關鍵技術 148
4.1 大數據的業務分析 148
4.2 大數據的總架體構模型 152
4.3 大數據高級分析 161
4.3.1 數據倉庫與聯機分析處理技術 162
4.3.2 大數據分析與傳統分析 167
4.3.3 非結構化復雜數據分析 168
4.3.4 實時預測分析 177
4.4 可視化分析 181
4.4.1 可視化技術 181
4.4.2 可視化工具 192
參考文獻 195
第5章 運營商數據分析 196
5.1 案例背景 196
5.1.1 大數據運營已為大勢所趨 196
5.1.2 采取大數據運營的原因 196
5.1.3 大數據分析如何提升電信行業績效 197
5.1.4 大數據的社會價值 199
5.2 挖掘目標的提齣 200
5.3 案例分析 201
5.3.1 體係架構 201
5.3.2 Hadoop集群抽取模塊 202
5.3.3 數據處理模塊 208
5.3.4 數據分發 211
5.4 MapReduce操作 218
5.5 結果分析 221
第6章 互聯網電影推薦係統 223
6.1 背景描述 223
6.2 業務目標 224
6.3 業務需求 225
6.4 協同過濾推薦係統建模 225
6.4.1 推薦係統概述 225
6.4.2 基於對立用戶的協同過濾模型 227
6.5 項目處理過程 229
6.5.1 項目數據 229
6.5.2 數據預處理 230
6.5.3 Hadoop並行算法 242
6.6 總結 250
前 言
大數據已經成為當今知識信息時代的一個強烈的音符,幾乎所有的領域都在尋找著來自大數據的靈感,幾乎每個與海量數據相關的應用都有大數據奏響的樂章。
大數據是指那些數據量特彆大、數據類彆特彆復雜的數據集,這些數據無法用傳統的數據庫進行存儲、管理和處理。大數據的主要特點為數據量大(Volume)、數據類彆復雜(Variety)、數據處理速度快(Velocity)和數據真實性高(Veracity),閤起來稱為4V。
大數據中的數據量巨大,甚至達到瞭拍字節級彆。這些龐大的數據中不僅包括如數字、符號等結構化數據,還包括如文本、圖像、聲音、視頻等非結構化數據。這使得傳統的關係型數據庫很難滿足大數據的存儲、管理和處理的需要。在大數據之中,有價值的信息往往深藏其中,這就需要對大數據的處理速度非常快,纔能在短時間之內從大量的復雜數據之中獲取有價值的信息。在大數據的大量、復雜的數據之中,通常不僅包含真實的數據,虛假的數據也可能混雜其中,這就需要對大數據進行清洗處理,將虛假的數據剔除,利用真實的數據來分析,得齣可靠的結果。
大數據錶麵上看就是大量、復雜的數據,這些數據本身的價值並不高或難以直觀獲取,但對這些大量、復雜的數據進行分析、處理後,卻能從中提煉齣很有價值的信息。對大數據的分析主要有數據挖掘算法(Date Mining Algorithms)、分布式計算(Distributed Computing)、預測性分析能力(Predictive Analytic Capabilities)、可視化分析(Analytic Visualization)等。
數據挖掘算法是大數據分析的理論核心,其本質是根據數據處理模型建立起的一組算法,將收集到的數據作為輸入,從而能夠從大量、復雜的數據中提取有價值的信息。著名的“啤酒和尿布”的故事就是數據挖掘算法的經典案例。沃爾瑪通過對啤酒和尿布購買數據的分析,挖掘齣以前未知的兩者之間的聯係,並利用這種聯係,提升瞭商品的銷量。淘寶、當當等電子商務係統的推薦引擎和百度的廣告係統都大量使用瞭數據挖掘算法。
對於如何處理大數據,通常采用分布式計算的方式進行分布式存儲和分布式處理。Hadoop作為大數據處理的傑齣代錶,成為分布式計算事實上的國際標準,其采用MapReduce分布式計算框架,以HDFS分布式文件係統作為存儲係統,並開發瞭HBase數據存儲係統。
預測性分析能力是大數據分析最重要的應用領域。從大量、復雜的數據中挖掘齣規律,建立起科學的模型,通過將新的數據輸入模型,就可以預測未來的事件走嚮。預測性分析能力常常被應用在業務分析、輔助決策、科學研究等領域。
可視化分析是普通消費者常常可以見到的一種大數據分析結果的錶現形式,可視化分析將大量復雜的數據轉化成直觀形象的諸如文字、圖錶等形式,使其能夠更加容易地被用戶所接受和理解。
本書力圖係統地呈現包括數據挖掘算法、Hadoop大數據存儲處理係統等大數據關鍵技術,並通過通信運營商及互聯網電子商務等應用為背景的案例,詳盡介紹大數據應用從目標構建、算法建模、程序實現到數據分析與結果呈現的整個過程。
本書由黃宏程、舒毅、歐陽春、舒娜編著,參加編寫工作的還有陸衛金、王言通、孫欣然、楊立娜、黃春妮、魏青、馮榆斌。在本書的編寫過程中,得到瞭重慶郵電大學鬍敏老師及通信軟件工程研究中心的老師和研究生們的諸多幫助,同時也得到瞭電子工業齣版社的大力支持,特錶示衷心感謝。本書的部分內容在編著過程中參考瞭業界的齣版物,未能在書中窮盡,在此一並嚮原作者錶示誠摯的感謝!
大數據所涉及的技術內容較多,其發展也非常迅速,由於作者水平有限,書中疏漏之處在所難免,懇請廣大讀者批評指正。
編著者
2016年3月
大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 epub pdf mobi txt 電子書 下載 2024
大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 下載 epub mobi pdf txt 電子書大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 mobi pdf epub txt 電子書 下載 2024
大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 epub pdf mobi txt 電子書 下載書不錯,很不錯
評分書的質量挺好的。
評分就是太慢瞭,等瞭十幾天,東西印刷質量不錯,
評分理論和大數據的空話比較多,比較符閤搞學術的人的風格,可以來做為論文的研究背景的素材。全書算法公式非常生硬,沒有推理,所以,不太值得買,建議先看電子書
評分書的質量挺好的。
評分好
評分書不錯,很不錯
評分不錯,正品行貨!發貨速度也行,後續還要買的!
評分拼湊之作。
大數據之美:挖掘、Hadoop、架構,更精準地發現業務與營銷 epub pdf mobi txt 電子書 下載 2024