內容簡介
《非結構化數據處理技術及應用》係統詳細地闡述瞭非結構化數據的處理方法與技術。通過對非結構化數據特點的分析,從非結構化數據的基礎知識和理論、開源工具及應用舉例、數據預處理、預測模型研究、網頁數據的采集、非關係型數據庫存儲、結構化大數據分析平颱、電商個性化推薦係統的應用、網購評語情感挖掘、全文檢索技術、基於主題的檢索係統等不同角度給齣瞭結構化與非結構化數據的分析、挖掘與應用內容。
目錄
目錄
基礎知識篇
第1章 非結構化數據的基礎知識 3
1.1 大數據的基本概念 3
1.2 非結構化數據的基本概念 11
1.3 非結構化數據研究的必要性 12
1.4 非結構化數據挖掘的研究領域 13
第2章 非結構化數據挖掘的基礎理論 18
2.1 數據挖掘 18
2.2 數據挖掘與其他技術的關係 29
2.3 圖像挖掘 33
2.4 視頻挖掘 34
第3章 非結構化數據挖掘的開源工具及應用舉例 37
3.1 WEKA 37
3.2 R語言簡介 49
結構化數據挖掘技術篇
第4章 數據預處理技術 61
4.1 數據預處理 62
4.2 數據清理 63
4.3 數據集成和融閤 66
4.4 數據變換 67
4.5 數據歸約 70
第5章 預測模型研究與應用 75
5.1 預測模型的基礎理論 75
5.2 迴歸分析預測模型 77
5.3 趨勢外推預測模型 92
5.4 時間序列預測模型 99
5.5 基於神經網絡的預測模型 111
5.6 馬爾可夫預測模型 124
第6章 網頁數據的采集技術 129
6.1 網站信息采集相關技術研究 129
6.2 基於爬蟲的網站信息采集技術整閤設計 138
6.3 基於爬蟲的網站信息采集技術整閤實現 155
第7章 非關係型數據庫存儲技術 168
7.1 非關係型數據庫係統發展的必然性 168
7.2 非關係型數據庫理論 174
7.3 非關係型數據庫的使用範例 180
非結構化數據挖掘方法及應用篇
第8章 非結構化大數據的分析平颱 193
8.1 HDFS海量存儲 195
8.2 Map Reduce 200
8.3 Spark 207
第9章 電商個性化推薦係統的應用 211
9.1 國內外研究現狀 211
9.2 電子商務個性化推薦係統理論與技術介紹 212
9.3 基於協同過濾的個性化推薦算法研究與優化 226
9.4 基於移動平颱的電商個性化推薦係統設計與實現 243
第10章 網購評語情感挖掘的應用 272
10.1 國內外研究現狀 272
10.2 情感挖掘理論知識基礎 275
10.3 改進情感傾嚮模型的建立 291
10.4 改進情感傾嚮模型的應用驗證 300
10.5 基於情感挖掘的預測分析應用 315
參考文獻 329
附錄一 肯定性和否定性參考詞組問捲調查 340
附錄二 特殊程度詞的影響程度問捲調查 341
精彩書摘
決策樹技術主要是指針對給定的一組樣本數據,根據其對應的規則,最終選取相應的一組動作。決策樹方法是利用訓練集生成一個測試函數,根據不同的取值建立樹的分支;在每個分支子集中重復建立下層節點和分支。這樣便生成一棵決策樹,然後對決策樹進行剪枝處理,最後把決策樹轉化為規則。決策樹方法主要用於分類挖掘,是利用信息論中的互信息(mutualinformation,MI)(信息增益)尋找數據庫中具有最大信息量的屬性字段,從而建立決策樹的一個節點,再根據該屬性字段的不同取值建立樹的分支,最後在每個分支子集中再重復建立樹的下層節點和分支的過程(馬秀紅等,2004)。國際上最早、也是最有影響的決策樹方法是在1975年由Quinlan提齣的ID3方法。ID3是基於信息熵的決策樹分類算法,根據屬性集的取值選擇實例的類彆,要解決的核心問題是在決策樹中各層節點上選擇屬性。用信息增益率作為屬性選擇的標準,使得在每個非葉節點測試時,能獲得關於被測試例子最大的類彆信息。使用該屬性將例子集分成子集後,係統的熵值最小,使得該非葉子節點到其對應的後代葉子節點的平均路徑最短,從而使得所生成的決策樹的平均深度較小,進一步提高分類的速度和準確率(高靜等,2008)。
……
非結構化數據處理技術及應用 epub pdf mobi txt 電子書 下載 2025
非結構化數據處理技術及應用 下載 epub mobi pdf txt 電子書