編輯推薦
《計算機科學叢書:數據挖掘與R語言》的支持網站給齣瞭案例研究的所有代碼、數據集以及R函數包
不要求讀者具有R、數據挖掘或統計技術的基礎知識
《計算機科學叢書:數據挖掘與R語言》利用大量給齣必要步驟、代碼和數據的具體案例,詳細描述瞭數據挖掘的主要過程和技術
內容簡介
《計算機科學叢書:數據挖掘與R語言》首先簡要介紹瞭R軟件的基礎知識(安裝、R數據結構、R編程、R的輸入和輸齣等)。然後通過四個數據挖掘的實際案例(藻類頻率的預測、證券趨勢預測和交易係統仿真、交易欺詐預測、微陣列數據分類)介紹數據挖掘技術。這四個案例基本覆蓋瞭常見的數據挖掘技術,從無監督的數據挖掘技術、有監督的數據挖掘技術到半監督的數據挖掘技術。全書以實際問題、解決方案和對解決方案的討論為主綫來組織內容,脈絡清晰,並且各章自成體係。讀者可以從頭至尾逐章學習,也可以根據自己的需要進行學習,找到自己實際問題的解決方案。
《計算機科學叢書:數據挖掘與R語言》不需要讀者具備R和數據挖掘的基礎知識。不管是R初學者,還是熟練的R用戶都能從書中找到對自己有用的內容。讀者既可以把本書作為學習如何應用R的一本優秀教材,也可以作為數據挖掘的工具書。
作者簡介
Luís Torgo,葡萄牙波爾圖大學計算機科學係副教授,現在在LIAAD實驗室從事研究工作。他是APPIA會員,同時還是OBEGEF的創辦會員。
內頁插圖
目錄
齣版者的話
推薦序
中文版序
譯者序
前言
緻謝
第1章 簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3嚮量
1.2.4嚮量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列錶
1.2.10數據框
1.2.11構建新函數
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介
第2章 預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據加載到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變量的相關關係來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元綫性迴歸
2.6.2迴歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結
第3章 預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.2.1在R中處理與時間有關的數據
3.2.2從CSV文件讀取數據
3.2.3從網站上獲取數據
3.2.4從MySQL數據庫讀取數據
3.3定義預測任務
3.3.1預測什麼
3.3.2預測變量是什麼
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何應用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何應用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成:仿真交易
3.6模型評價和選擇
3.6.1濛特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易係統
3.7.1評估最終測試數據
3.7.2在綫交易係統
3.8小結
第4章 偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1加載數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結
第5章 微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因(特徵)選擇
5.3.1基於分布特徵的簡單過濾方法
5.3.2ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特徵聚類的組閤進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函數索引
精彩書摘
注意,數字2(實際上是嚮量c(2)!)被循環,導緻v1的所有元素乘以2。正如我們將看到的,這種循環規則也適用於其他的對象,如數組和矩陣。
1.2.5 因子
因子提供瞭一個簡單而又緊湊的形式來處理分類(名義)數據。因子用水平來錶示所有可能的取值。如果數據集有取值個數固定的名義變量,因子就特彆有用。下麵的章節將要學習的多個圖形函數和匯總函數就應用瞭因子的這種優點。對用戶來說,這種使用和顯示因子數據的方式顯然是易於理解的,而R軟件內部以數值編碼方式來存儲因子值,這將大大提高內存的利用效率。
下麵舉例說明如何在R中創建因子。假設有一個10個人的性彆嚮量:
>g<—c(“f”,“m”,“m”,“m”,“f”,“m”,“f”,“m”,“f”,“f”)
>g
[1] “f” “m” “m” “m” “f” “m” “f” “m” “f” “f”
你可以把這個嚮量轉換為一個因子:
)g<—factor(g)
>g
[1]f m m m f m f m f f
Levels:f m
注意,得到的不再是一個字符嚮量。上麵提到,實際上這些因子在R內部錶示為數值嚮量@。
在這個例子中,因子有兩個水平,‘f’和‘m’,在R內部分彆錶示為1和2。然而,你不需要關心這個內部錶示,因為你可以使用“原始的”字符值,R在顯示因子時也使用這種字符方式。因此,齣於效率的考慮,R因子的編碼轉換是用戶透明的。
假設有另外5個人,需要把他們的性彆信息存儲在另一個因子對象中。假設他們都是男性。
前言/序言
【前言】
Data Mining with R:Learning with Case Studies
本書的主要目的是嚮讀者介紹如何用R進行數據挖掘。R是一個可以自由下載的語言,它提供統計計算和繪圖環境,其功能和大量的添加包使它成為一款優秀的、多個已有(昂貴)數據挖掘工具的替代軟件。
�∠略贋�址:http://www�眗�瞤roject�眔rg。 ��
數據挖掘的一個關鍵問題是數據量。典型的數據挖掘問題包括一個大的數據庫,需要從中提取有用的信息。在本書中,我們用MySQL作為核心數據庫管理係統。對多個計算機平颱,MySQL也是免費的。這意味著,我們可以不用付任何費用就可以進行“重要的”數據挖掘任務。同時,我們希望說明解決方案質量上並沒有任何損失。昂貴的工具並不意味著一定更好!隻要你願意花時間來學習如何應用它們,R和MySQL就是一對很難超越的工具。我們認為這是值得的,希望在讀完本書之後,你也相信這點。
�� 下載網址:http://www�眒ysql�眂om。 ��
本書的目的不是介紹數據挖掘的各個方麵。許多已有的書籍覆蓋瞭數據挖掘領域。我們用幾個案例來嚮讀者介紹R的數據挖掘能力。顯然,這幾個案例不能代錶我們在現實世界中碰到的所有數據挖掘問題。同時,我們給齣的解決方案也不是最完全的方案。我們的目的是通過這些實際案例嚮讀者介紹如何用R進行數據挖掘。因此,我們案例分析的目的是展示用R進行信息提取的例子,而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路,或者作為開發數據挖掘項目解決方案的基礎。盡管如此,我們盡力嘗試覆蓋多方麵的問題,展示數據大小、不同數據類型、分析目標和進行分析所必需的工具所帶來的挑戰。然而,這裏的實踐方式也是有代價的。實際上,作為具體案例研究的一種形式,為瞭讓讀者在自己的計算機上執行我們所描述的步驟,我們也做瞭某些妥協。也就是說,我們不能處理太大的問題,這些問題要求的計算機資源不是每個人都具備的。盡管這樣,我們認為本書涵蓋的問題也不算小,並對不同的數據類型和維度給齣瞭解決方案。
這裏並不要求讀者具有R的先驗知識。沒有學過R和數據挖掘的讀者應該可以學習書中的案例。書中的各個案例相互獨立,讀者可以從書中任何一個案例開始。在第一個簡單案例中,給齣瞭一些基本的R知識。這意味著,如果你沒有學過R,至少應該從第一個案例開始學習。而且,第1章給齣瞭R和MySQL的簡介,它可以幫助你理解後麵的章節。我們也沒有假設你熟悉數據挖掘和統計技術。在每個案例的必要地方,都對不同的數據挖掘技術進行瞭介紹。本書的目的不是嚮讀者介紹這些技術的理論細節和全麵知識,我們對這些工具的描述包括瞭它們的基本性質、缺點和分析目標。如果需要進一步瞭解技術細節,可以參考其他書籍。在某些節的末尾,我們提供瞭“參考資料”,如果需要,可以參考它們。總之,本書的讀者應該是數據分析工具的用戶,而不是研究人員或者開發人員。同時,我們希望後者把本書作為進入R和數據挖掘“世界”的一種方式,從而發現本書的用途。
本書有一個免費的R代碼集,可以從本書網站下載。其中含有案例研究中的所有代碼,這可以幫助你的實踐學習。我們強烈建議讀者在閱讀本書時安裝R並實驗書中的代碼。而且,我們創建瞭一個名為DMwR的R添加包,它包含本書用到的多個函數和以R格式保存的案例數據集。你應該按照本書的指示,安裝並加載該添加包(第1章給齣瞭細節)。
�� 下載網址:http://www�眑iaad�眜p�眕t/~ltorgo/DataMiningWithR/。
計算機科學叢書:數據挖掘與R語言 epub pdf mobi txt 電子書 下載 2024
計算機科學叢書:數據挖掘與R語言 下載 epub mobi pdf txt 電子書