編輯推薦
如果你想創建適用於實際生産環境的數據科學模型,那麼Java將是你的****。Java可以調用各種強大的庫(例如MLlib、Weka、DL4j等)。藉助這些庫,你可以使用Java高效地完成各種數據科學任務。
總之,通過學習本書的內容,讀者能掌握各種處理問題的方法,學會如何把數據科學知識應用到實際生産環境中,以及編寫分布式數據科學應用等。本書講解的內容將在實際工作中派上大用場。
內容簡介
現如今,數據科學已經成為一個熱門的技術領域,它涵蓋瞭人工智能的各個方麵,例如數據處理、信息檢索、機器學習、自然語言處理、數據可視化等。而Java作為一門經典的編程語言,在數據科學領域也有著傑齣的錶現。
本書旨在通過Java編程來引導讀者更好地完成數據科學任務。本書通過9章內容,詳細地介紹瞭數據獲取與清洗、索引的建立和檢索數據、統計分析、數據學習、信息的提取、大數據處理、深度學習、數據可視化等重要主題。
本書適閤想通過Java解決數據科學問題的讀者,也適閤數據科學領域的專業人士以及普通Java開發人員閱讀。
作者簡介
Rushdi Shams畢業於加拿大韋仕敦大學,獲得瞭機器學習應用博士學位,主攻方嚮是自然語言處理(Natural Language Processing,NLP)。在成為機器學習與NLP領域的專傢之前,他講授本科生與研究生課程。在YouTube上,他一直運營著一個名為“跟Rushdi一起學”(Learn with Rushdi)的頻道,並且做得有聲有色,該頻道主要麵嚮想學習計算機技術的朋友。
目錄
第 1章 獲取數據與清洗數據 1
1.1 簡介 2
1.2 使用Java從分層目錄中提取所有文件名 3
準備工作 3
操作步驟 3
1.3 使用Apache Commons IO從多層目錄中提取所有文件名 5
準備工作 5
操作步驟 5
1.4 使用Java 8從文本文件一次性讀取所有內容 6
操作步驟 7
1.5 使用Apache Commons IO從文本文件一次性讀取所有內容 7
準備工作 7
操作方法 8
1.6 使用Apache Tika提取PDF文本 8
準備知識 9
操作步驟 9
1.7 使用正則錶達式清洗ASCII文本文件 11
操作步驟 11
1.8 使用Univocity解析CSV文件 12
準備工作 13
操作步驟 13
1.9 使用Univocity解析TSV文件 15
準備工作 15
操作步驟 16
1.10 使用JDOM解析XML文件 17
準備工作 17
操作步驟 18
1.11 使用JSON.simple編寫JSON文件 20
準備工作 20
操作步驟 21
1.12 使用JSON.simple讀取JSON文件 23
準備工作 24
操作步驟 24
1.13 使用JSoup從一個URL提取Web數據 26
準備工作 26
操作步驟 26
1.14 使用Selenium Webdriver從網站提取Web數據 29
準備工作 29
操作步驟 29
1.15 從MySQL數據庫讀取錶格數據 32
準備工作 32
操作步驟 32
第 2章 為數據建立索引與搜索數據 35
2.1 簡介 35
2.2 使用Apache Lucene為數據建立索引 35
準備工作 36
操作步驟 40
工作原理 47
2.3 使用Apache Lucene搜索帶索引的數據 50
準備工作 50
操作步驟 51
第3章 數據統計分析 56
3.1 簡介 57
3.2 生成描述性統計 59
操作步驟 59
3.3 生成概要統計 60
操作步驟 60
3.4 從多種分布生成概要統計 61
操作步驟 62
更多內容 63
3.5 計算頻率分布 64
操作步驟 64
3.6 計算字符串中的詞頻 65
操作步驟 65
工作原理 67
3.7 使用Java 8計算字符串中的詞頻 67
操作步驟 67
3.8 計算簡單迴歸 68
操作步驟 69
3.9 計算普通最小二乘迴歸 70
操作步驟 70
3.10 計算廣義最小二乘迴歸 72
操作步驟 72
3.11 計算兩組數據點的協方差 74
操作步驟 74
3.12 為兩組數據點計算皮爾遜相關係數 75
操作步驟 75
3.13 執行配對t檢驗 76
操作步驟 76
3.14 執行卡方檢驗 77
操作步驟 78
3.15 執行單因素方差分析
(one-way ANOVA test) 79
操作步驟 79
3.16 執行K-S檢驗 81
操作步驟 81
第4章 數據學習Ⅰ 83
4.1 簡介 83
4.2 創建與保存ARFF文件 84
操作步驟 87
4.3 對機器學習模型進行交叉驗證 91
操作步驟 91
4.4 對新的測試數據進行分類 95
準備工作 95
操作步驟 96
4.5 使用過濾分類器對新測試數據分類 102
操作步驟 102
4.6 創建綫性迴歸模型 105
操作步驟 106
4.7 創建邏輯迴歸模型 108
操作步驟 108
4.8 使用K均值算法對數據點
進行聚類 110
操作步驟 110
4.9 依據類彆對數據進行聚類處理 113
操作方法 113
4.10 學習數據間的關聯規則 116
準備工作 116
操作步驟 116
4.11 使用低層方法、過濾方法、元分類器方法選擇特徵/屬性 118
準備工作 119
操作步驟 119
第5章 數據學習Ⅱ 125
5.1 簡介 125
5.2 使用Java機器學習庫(Java-ML)嚮數據應用機器學習 126
準備工作 126
操作步驟 128
5.3 使用斯坦福分類器對數據點分類 137
準備工作 137
操作步驟 140
工作原理 141
5.4 使用MOA對數據點分類 142
準備工作 142
操作步驟 144
5.5 使用Mulan對多標簽數據點進行分類 147
準備工作 147
操作步驟 150
第6章 從文本數據提取信息 154
6.1 簡介 154
6.2 使用Java檢測標記(單詞) 155
準備工作 155
操作步驟 155
6.3 使用Java檢測句子 160
準備工作 160
操作步驟 160
6.4 使用OpenNLP檢測標記(單詞)與句子 161
準備工作 162
操作步驟 163
6.5 使用Stanford CoreNLP從標記中提取詞根、詞性,以及
識彆命名實體 167
準備工作 167
操作步驟 169
6.6 使用Java 8藉助餘弦相似性測度測量文本相似度 171
準備工作 172
操作步驟 172
6.7 使用Mallet從文本文檔提取主題 176
準備工作 177
操作步驟 179
6.8 使用Mallet對文本文檔進行分類 184
準備工作 184
操作步驟 185
6.9 使用Weka對文本文檔進行分類 189
準備工作 190
操作步驟 191
第7章 處理大數據 194
7.1 簡介 194
7.2 使用Apache Mahout訓練在綫邏輯迴歸模型 195
準備工作 195
操作步驟 198
7.3 使用Apache Mahout應用在綫邏輯迴歸模型 202
準備工作 202
操作步驟 203
7.4 使用Apache Spark解決簡單的文本挖掘問題 207
準備工作 208
操作步驟 210
7.5 使用MLib的K均值算法做聚類 214
準備工作 214
操作步驟 214
7.6 使用MLib創建綫性迴歸模型 217
準備工作 217
操作步驟 218
7.7 使用MLib的隨機森林模型對數據點進行分類 222
準備工作 222
操作步驟 223
第8章 數據深度學習 229
8.1 簡介 229
8.2 使用DL4j創建Word2vec神經網絡 241
操作方法 241
工作原理 243
更多內容 246
8.3 使用DL4j創建深度信念神經網絡 246
操作步驟 246
工作原理 250
8.4 使用DL4j創建深度自動編碼器 254
操作步驟 254
工作原理 256
第9章 數據可視化 259
9.1 簡介 259
9.2 繪製2D正弦麯綫 260
準備工作 260
操作步驟 262
9.3 繪製直方圖 266
準備工作 266
操作步驟 268
9.4 繪製條形圖 273
準備工作 274
操作步驟 275
9.5 繪製箱綫圖或箱須圖 279
準備工作 279
操作步驟 281
9.6 繪製散點圖 285
準備工作 285
操作步驟 286
9.7 繪製甜圈圖 289
準備工作 289
操作步驟 290
9.8 繪製麵積圖 294
準備工作 294
操作步驟 295
Java數據科學指南 epub pdf mobi txt 電子書 下載 2025
Java數據科學指南 下載 epub mobi pdf txt 電子書