數據挖掘與商務分析:R語言

數據挖掘與商務分析:R語言 pdf epub mobi txt 電子書 下載 2025

[英] 約翰尼斯·萊道爾特 著,王星 等 譯
圖書標籤:
  • 數據挖掘
  • 商務分析
  • R語言
  • 統計學習
  • 機器學習
  • 數據分析
  • 商業智能
  • 數據可視化
  • 預測建模
  • R語言編程
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 機械工業齣版社
ISBN:9787111549406
版次:1
商品編碼:12060366
品牌:機工齣版
包裝:平裝
叢書名: 數據科學與工程技術叢書
開本:16開
齣版時間:2016-10-01
用紙:膠版紙
頁數:266

具體描述

內容簡介

  從海量的數據中收集、分析、提取有價值的信息需要功能強大的分析工具,本書結閤R軟件詳細介紹瞭數據挖掘和數據分析的實用方法,主要內容包括處理信息和獲取數據、標準綫性迴歸、局部多項式迴歸、統計建模中簡約的重要性、Logistic迴歸、貝葉斯分析、多項式Logistic迴歸、決策樹、聚類、購物籃分析、降維和網絡數據等。書後配有練習並且書中所有例子涉及的數據集和R代碼可以從本書配套網站獲取。

目錄

譯者序 前言 緻謝 第1章引言 參考文獻 第2章處理信息與認識數據 2.1例1:2006年齣生數據 2.2例2:校友捐贈 2.3例3:橘子汁 參考文獻 第3章標準綫性迴歸 3.1用R函數估算綫性迴歸模型 3.2例1:汽車燃油效率 3.3例2:豐田二手車價格 附錄3.A模型過度擬閤對迴歸預測均方誤差的影響 參考文獻 第4章局部多項式迴歸的非參數迴歸方法 4.1模型的選擇 4.2密度估計和直方圖平滑化的應用 4.3多重迴歸模型的拓展 4.4例題和軟件 4.4.1例1:老忠實噴泉 4.4.2例2:NOx排放物 參考文獻 第5章簡約在統計建模中的重要性 5.1怎樣防止低假陽率 參考文獻 第6章多參數迴歸模型中基於懲罰算法的變量選擇 6.1例1:前列腺癌 6.2例2:橙汁 參考文獻 第7章Logistic迴歸 7.1對二分類響應數據建立綫性模型 7.2Logistic迴歸模型中迴歸係數的解釋 7.3統計推斷 7.4對新樣例的分類 7.5用R語言估計 7.6例1:死刑數據 7.6.1二分類Logistic迴歸:Minitab程序輸齣 7.6.2R語言輸齣結果的解釋與分析 7.7例2:延誤的航班 7.8例3:貸款驗收 7.9例4:德國信貸數據 參考文獻 第8章二元分類、概率和分類性能的評價 8.1二元分類 8.2使用概率作決策 8.3靈敏度和特異度 8.4例子:德國信貸數據 第9章最近鄰分析分類 9.1k近鄰算法 9.2例1:玻璃碎片的法醫分析 9.3例2:德國信貸數據 參考文獻 第10章樸素貝葉斯分析:一種由以分類為主的變量對分類響應變量預測的模型 10.1例:航班延誤 參考文獻 第11章多項式Logistic迴歸 11.1計算軟件 11.2例1:玻璃碎片的法醫分析 11.3例2:重溫玻璃碎片的法醫分析 附錄11.A簡單三重矩陣的詳述 參考文獻 第12章分類和判彆分析的深入探討 12.1Fisher綫性判彆函數 12.2例1:德國信用卡數據 12.3例2:Fisher鳶尾花數據 12.4例3:玻璃碎片的法醫分析數據 12.5例4:MBA申請數據 參考文獻 第13章決策樹 13.1例1:前列腺癌 13.2例2:摩托車加速度 13.3例3:迴顧Fisher鳶尾花數據集 第14章迴歸、分類樹、計算軟件及其他實用分類方法的深入探討 14.1有關樹結構的R程序包 14.2卡方自動交互檢驗 14.3集成方法:Bagging算法、Boosting算法和隨機森林 14.4支持嚮量機 14.5神經網絡 14.6R程序包:關於數據挖掘的一個有用的圖形用戶界麵 參考文獻 第15章聚類 15.1k均值聚類 15.2另眼看聚類:將期望最大化算法應用於混閤正態分布 15.2.1E步 15.2.2M步 15.3層次聚類過程 參考文獻 第16章購物籃分析:關聯規則和提升度 16.1例1:在綫廣播 16.2例2:收入預測 參考文獻 第17章降維:因子模型和主成分分析 17.1例1:歐洲蛋白質的攝入數據 17.2例2:月度失業率數據 第18章帶多重共綫性輸入的降維迴歸:主成分迴歸和偏最小二乘法 18.1三個例子 18.1.1例1:模擬數據 18.1.2例2:基於50個州的曆史失業率預測某州下個月的失業率 18.1.3例3:預測下月失業率:比較不同方法樣本外預測效果 參考文獻 第19章文本數據:文本挖掘和情感分析 19.1逆多項式Logistic迴歸 19.2例1:餐館評論 19.3例2:政治主張 附錄19.A Gentzkow/Shapiro關於“slant”的估計和偏最小二乘的關係 參考文獻 第20章網絡數據 20.1例1:15世紀佛羅倫薩的婚姻與權力 20.2例2:友誼網絡的連接 參考文獻 附錄A練習 附錄B參考文獻

前言/序言

  前言  這是一本有關數據挖掘和商務分析的實用方法的圖書,適用於迫切需要使用這些方法來瞭解運營狀況並解決經營問題的讀者。寫作本書的目的是對獲得公眾口碑的數據挖掘工具進行全麵討論,而不僅僅局限於傳統的黑箱式描述,展現這些方法的工作機理。   數據挖掘需要一套功能強大、計算精準、兼容良好的計算工具,在這方麵微軟的Excel難以勝任。盡管我們也多次獲得許多供應商專門提供的卓越的數據挖掘商務軟件,但通常來說這些軟件價格昂貴。書中我們所使用的R統計軟件功能強大而且免費。不過要想正常使用R需要一些學習代價,它需要用戶寫指令,而大多數電子錶格用戶對程序指令的編寫並不熟悉,這也是我在書中和與本書相關的網頁上提供R示例代碼的原因。這些示例代碼應該可以順利地遷移到當下通用的、強大的計算機環境中,並有助於最小化R的學習成本。   本書采用瞭將軟件與數據挖掘的統計基礎相融閤的寫作風格,同時也推廣瞭工具的應用。雖然市麵上不乏深入闡述這些方法的教材,也不缺乏對R計算的詳盡完整的說明手冊。但是本書力圖權衡理論與實踐,定位於對定量方法感興趣的MBA學生的認知層次。本書適用於MBA的數據挖掘課程,以及高年級本科生和研究生的分析與解釋大數據集的課程。從事商學、社會學、自然科學、醫學以及工科的學生都可以從本書受益。本書所涉大部分主題可以安排在一個學期的課程中,但是包括的主題並不適用於每一個讀者。可能有些讀者會認為其中一些主題內容太深或者太淺。建議主講老師略去或適當擴展某些主題。從這個角度來看,本書可以適用於很多不同的讀者。   數據挖掘的應用常常需要花大力氣收集相關信息。在這種情況下,數據的準備工作比最終建立模型需要花費更多的時間。在另外一些應用中,數據收集的工作量並非大問題,工作的重點是大容量信息的存取(即數據倉庫)。盡管如何獲取、存儲、閤並和整理信息在數據分析全過程來說必不可少,但書中對這些技術細節並未做深入探討,本書重點介紹數據挖掘的建模。   本書所述全部例子的數據集和R代碼都可以在配套網頁(http://www.biz�眜iowa�眅du/faculty/jledolter/DataMining)上找到。也可以通過在booksupport�眞iley�眂om上輸入ISBN 9781118447147獲取本書的附加材料。讀者可以將書中的代碼復製粘貼到自己的R會話中,從而得到分析結果。也可以在軟件中修改或添加一些代碼來做數據實驗,以及用我們給的R模闆程序對自己的數據集進行分析。附錄給齣瞭練習和幾個大的練習數據集。練習有助於老師布置課後作業,也為讀者提供瞭一個實踐書中所討論技巧的機會。如何使用這些數據集的相關說明請參見附錄A。   這是本書第1版,盡管在錶述和例證數據集的分析上我們很小心謹慎,但不得不承認其中有很多地方還值得推敲。如果在閱讀本書的過程中有任何反饋,我們將不勝感激,期待你將你的建議通過johannes�瞝edolter@uiowa.edu郵箱寫信給我。相關的勘誤和評論我將在本書的網頁上隨時更新。   緻謝2011年我訪問芝加哥大學布斯商學院時,忽然為一篇MBA方麵有關數據挖掘的文章中的素材産生瞭興趣。芝加哥大學著名教授Matt Taddy的數據挖掘(BUS41201)課件為本書的撰寫提供瞭靈感,在錶述上我同樣受到Taddy教授課件中的案例和R模闆的影響。第19章中關於文本數據的分析也大量引用瞭他近期的研究成果,由衷感謝Taddy教授對本書的貢獻。   著書是一項耗時的工作。如果沒有妻子Lea Vandervelde的持續支持和鼓勵,無法想象我的這項工作可以畫上句號。她是艾奧瓦大學從事密蘇裏州奴隸自由史研究的教授,同時她的親身體驗告訴我,從文本數據的挖掘中構建數據集是一項多麼重要和艱難的工作。   譯者序  本書英文版自齣版後就在Amazon上得到瞭極高的評價,曾經是Amazon網站上最暢銷的數據挖掘類書籍之一。   本書的作者Johannes Ledolter是世界頂尖商學院——美國艾奧瓦大學Tippie商學院管理科學係的一位數據挖掘專傢,同時也是一位R資深開發者。本書包括多達19個數據挖掘的翔實案例,內容十分豐富,涉及醫療、慈善、汽車、二手市場等行業領域。書中案例從數據量、分析目標、數據類型等方麵提齣瞭各種具有挑戰性的問題,並給齣瞭剋服這些挑戰的方法和技巧。本書專注於數據挖掘的建模,以實際問題、解決方案以及探討解決方案為主綫組織內容。讀者需要具備一定的數據挖掘基礎知識,同時對R有一定的瞭解。但本書也對R計算進行瞭詳盡完整的說明,對於零基礎的讀者來說,還可以通過直接復製書中提供的R程序來學習相應的數據挖掘算法。本書定位於麵嚮定量方法的MBA學生,同時也適用於大數據分析的本科生及研究生,適閤作為數據挖掘的教材或學習指南。   本書的翻譯工作由宋濤、王星和曹方共同完成。在本書的翻譯過程中,原作者Johannes博士多次就譯者提齣的問題進行瞭耐心而細緻的解答。這裏對他的幫助錶示由衷的謝意。由於水平所限,書中可能會有翻譯不當之處,希望讀者多加指正。   必須說明的是,本項工作是集體努力的結果。其中,王星老師在翻譯和統稿過程付齣瞭大量心血,她的堅持使我打消瞭放棄此項目的想法。此外,餘阿炎、曹傢銘、溫麗、丁虹元、俞良、金璐等人也參與瞭本書的翻譯。感謝王寶東、宋辰玉、宋燕、倉猛、劉宇等完成瞭清樣的校對和通讀。還有許多其他同學和同事在不同階段參與瞭本項工作,在此不再一一列齣。   為進一步探討、解析和擴展本書中的案例,譯者團隊將在“數據科學傢”公眾號中免費為各位讀者奉獻更多更翔實的R案例內容。可掃描以下二維碼,關注“數據科學傢”微信公眾號,獲得更多有關數據科學和R應用的最新知識。   宋濤2016年9月
洞察數據,賦能決策:一本關於深度學習與業務創新的實踐指南 在當今信息爆炸的時代,數據已成為企業最寶貴的資産。然而,如何從海量數據中提煉齣有價值的洞察,並將其轉化為驅動業務增長的戰略,是無數企業麵臨的挑戰。本書並非聚焦於特定工具或語言的枯燥講解,而是緻力於提供一套全麵的、麵嚮未來的深度學習與業務創新實踐方法論。我們相信,理解並應用這些先進技術,將賦予您超越數據錶麵的能力,構建真正具有競爭力的業務模式。 本書將帶您踏上一場探索深度學習如何賦能業務創新的旅程。我們不會停留在理論的象牙塔,而是深入剖析那些在實際商業場景中取得成功的案例,並提煉齣可復製的、可操作的策略。從理解深度學習的核心概念,到掌握其在不同業務領域的應用,本書將為您構建一個清晰的知識體係。 第一部分:深度學習的基石——理解驅動創新的核心力量 在深入探討具體應用之前,我們需要為讀者打下堅實的理論基礎。這部分內容將以一種易於理解的方式,介紹深度學習的關鍵概念,但重點並非數學公式的推導,而是其背後的邏輯和直觀感受。 智能的湧現:從感知到認知 我們將從人類學習的本質齣發,引申到神經網絡如何模仿生物神經元的工作方式,從而實現模式識彆和特徵提取。 您將瞭解什麼是“深度”,為什麼“深度”如此重要,以及它如何帶來更強大的錶示能力。 我們將探討不同類型的神經網絡,如捲積神經網絡(CNN)在圖像識彆領域的突破,以及循環神經網絡(RNN)在序列數據處理中的獨到之處,並理解它們各自的優勢與適用場景,例如如何通過CNN識彆客戶行為中的模式,或通過RNN預測市場趨勢。 特徵的自動學習:告彆繁瑣的人工提取 傳統的機器學習方法往往需要領域專傢花費大量精力進行特徵工程。本書將揭示深度學習如何通過層層遞進的結構,自動從原始數據中學習齣最優的、最有區分度的特徵。 您將理解“錶示學習”的概念,即模型如何學會一種比原始數據更有意義的錶示方式,從而大大簡化後續分析。 我們將以一個簡單的例子,說明如何通過神經網絡自動識彆産品評論中的情感傾嚮,而無需手動定義“積極”、“消極”等詞匯。 模型的訓練與優化:精益求精的藝術 瞭解模型是如何從數據中“學習”的至關重要。我們將介紹常用的損失函數和優化算法,但同樣著重於其直觀含義和應用場景,例如梯度下降如何幫助模型找到最佳參數。 我們將討論過擬閤和欠擬閤的問題,以及正則化、早停等技術如何幫助模型獲得更好的泛化能力。 您將理解,模型的訓練並非一次性的過程,而是需要不斷迭代和調優的藝術。 第二部分:深度學習驅動的業務洞察——發掘數據背後的商業價值 在掌握瞭深度學習的基礎之後,我們將開始將這些強大的工具應用於實際的業務場景,發掘數據中隱藏的巨大價值。 客戶行為的深度剖析:從預測到個性化 客戶流失預測與乾預: 深度學習模型能夠捕捉到客戶行為中細微的變化,從而更早、更準確地預測哪些客戶有流失風險。我們將探討如何構建模型,識彆流失的關鍵驅動因素,並設計個性化的挽留策略。例如,通過分析客戶的交易記錄、互動頻率、服務請求等,模型可以識彆齣潛在的流失信號,並觸發相應的營銷活動或客戶關懷措施。 精準營銷與個性化推薦: 告彆“一刀切”的營銷方式。深度學習能夠深入理解每個客戶的偏好、需求和購買意願,實現韆人韆麵的營銷推送和産品推薦。我們將介紹如何利用協同過濾、內容推薦以及深度學習混閤模型,構建高效的推薦係統,提升轉化率和客戶滿意度。例如,電商平颱的“猜你喜歡”以及內容平颱的個性化信息流,都離不開深度學習技術的支撐。 客戶情感分析與輿情監控: 客戶的反饋是改進産品和服務的重要依據。深度學習在自然語言處理(NLP)領域的飛速發展,使得我們能夠自動化地分析海量的文本數據,如社交媒體評論、客服記錄、在綫評價等,從而洞察客戶的情感傾嚮、關注點和痛點。我們將探討如何利用情感分析技術,及時發現潛在的品牌危機,並針對性地優化産品和服務。 運營效率的智能化提升:自動化與優化 智能客服與問答係統: 深度學習驅動的智能客服能夠理解自然語言的提問,並提供準確、高效的解答,極大地減輕瞭人工客服的壓力,提升瞭客戶服務體驗。我們將介紹如何構建基於知識圖譜和深度學習的智能問答係統,解決重復性谘詢問題,並將復雜問題轉接給人工處理。 供應鏈與庫存優化: 需求預測的準確性是供應鏈管理的關鍵。深度學習模型能夠結閤曆史銷售數據、季節性因素、促銷活動、宏觀經濟指標等多種信息,進行更精細化的需求預測,從而優化庫存水平,降低倉儲成本,減少缺貨損失。 欺詐檢測與風險控製: 在金融、電商等領域,欺詐行為給企業帶來巨大的損失。深度學習模型能夠識彆齣異常的交易模式和行為,有效地檢測和預防欺詐行為。我們將探討如何利用圖神經網絡等技術,分析復雜的交易關係,發現隱藏的欺詐網絡。 産品與服務創新的新引擎:洞察需求,驅動迭代 市場趨勢預測與産品創新: 通過分析海量的市場數據、用戶反饋、行業報告,深度學習能夠幫助我們預測未來的市場趨勢,識彆新興的需求點,從而指導新産品的研發和現有産品的迭代。 用戶體驗優化: 深度學習可以通過分析用戶在産品使用過程中的行為數據,例如點擊路徑、停留時間、錯誤操作等,來發現用戶體驗的瓶頸,並提齣改進建議。 內容生成與自動化創作: 在媒體、廣告等領域,深度學習正在賦能自動化內容生成,例如新聞摘要、産品描述、廣告文案等,極大地提高瞭內容生産的效率。 第三部分:走嚮實戰——深度學習業務創新的落地策略 理論和應用固然重要,但如何將深度學習真正落地,轉化為可持續的業務價值,是本書的最終目標。 數據戰略與治理:創新的基石 高質量數據的獲取與清洗: “垃圾進,垃圾齣”。我們將強調數據質量的重要性,並介紹數據清洗、預處理、標注等關鍵環節。 數據孤島的打破與整閤: 很多企業的數據分散在不同的係統和部門。我們將探討如何打破數據孤島,構建統一的數據平颱,實現數據的互聯互通。 數據隱私與安全: 在享受數據帶來的便利的同時,我們必須高度重視數據隱私和安全問題。我們將介紹相關的法規和最佳實踐。 技術選型與平颱搭建:賦能創新 開源生態係統的價值: 我們將介紹主流的深度學習框架(如 TensorFlow、PyTorch)及其生態係統,並討論如何利用開源社區的力量加速創新。 雲平颱與基礎設施: 雲計算提供瞭強大的計算能力和靈活的存儲資源,是深度學習項目落地的理想選擇。我們將探討如何選擇閤適的雲服務。 技術團隊的構建與協作: 深度學習項目的成功離不開一支專業的技術團隊。我們將討論團隊的構成、技能要求以及跨部門協作的重要性。 敏捷迭代與 A/B 測試:持續優化 從小處著手,快速驗證: 並非所有項目都需要一步到位。我們將鼓勵讀者采取敏捷的開發模式,從小的POC(概念驗證)項目開始,快速驗證想法的可行性。 A/B 測試在業務創新中的應用: 通過嚴謹的 A/B 測試,我們可以客觀地評估不同模型或策略的效果,並做齣數據驅動的決策,避免盲目投入。 持續監控與模型迭代: 市場和業務環境是不斷變化的,模型也需要持續監控和更新,以保持其準確性和有效性。 文化轉型與組織賦能:創新思維的滲透 擁抱數據驅動的文化: 技術的引入需要組織文化的支撐。我們將探討如何培養全員的數據意識,鼓勵大膽嘗試和持續學習。 業務與技術的融閤: 深度學習的價值最終體現在業務的增長上。我們需要促進業務部門與技術部門之間的深度溝通與協作,確保技術創新真正服務於業務目標。 倫理考量與負責任的 AI: 隨著人工智能的廣泛應用,倫理問題日益突齣。我們將引導讀者思考 AI 的公平性、透明度和可解釋性,以及如何構建負責任的 AI 係統。 本書的目標是成為您在深度學習與業務創新道路上的忠實夥伴。我們希望通過深入淺齣的講解、豐富的實踐案例和前瞻性的策略,幫助您掌握駕馭數據、驅動創新的能力,在瞬息萬變的商業世界中,占據先機,實現可持續的增長。這本書不是終點,而是您開啓數據驅動業務創新之旅的起點。

用戶評價

評分

我一直對如何從海量數據中提煉齣有價值的洞察力感到著迷,而這本書恰好滿足瞭我的好奇心。它不僅僅是一本關於理論的書籍,更像是一位經驗豐富的嚮導,一步步帶領我領略數據挖掘的奧秘。作者在講解概念時,總是能用通俗易懂的比喻,將復雜的算法和模型變得清晰明瞭。我尤其喜歡書中那些詳實的案例分析,它們涵蓋瞭市場營銷、客戶關係管理、風險評估等多個領域,讓我能直觀地看到數據分析在實際商業場景中的應用,這對於我理解理論知識的應用落地非常有幫助。

評分

對於我這樣一個初學者來說,能夠找到一本既係統又易於上手的書籍至關重要。這本書在這方麵做得非常齣色。它從基礎的概念講起,循序漸進,難度逐漸提升,讓我在學習過程中不會感到 overwhelming。每個章節的安排都非常閤理,邏輯清晰,讓我能夠輕鬆地跟上作者的思路。更重要的是,書中提供的代碼示例和練習題,都極具實踐價值,我嘗試著在自己的電腦上運行,並根據自己的想法進行修改,這個過程極大地提升瞭我的動手能力,也讓我對數據分析工具的使用更加熟練。

評分

這本書的裝幀設計頗具匠心,封麵以深邃的藍色為主調,點綴著抽象的數據流綫條,仿佛將讀者帶入一個充滿未知與探索的數據宇宙。書脊的燙金字體清晰而穩重,散發齣一種學術的嚴謹感,同時又不失現代科技的時尚氣息。拿到手裏,紙張的質感非常不錯,細膩而富有彈性,翻頁時沒有刺耳的摩擦聲,有一種溫潤的觸感,讓人忍不住想要沉浸其中。

評分

我一直堅信,掌握一項新技能的關鍵在於實踐,而這本書正是為實踐而生。它提供的不僅僅是知識,更是一種解決問題的思維方式。在閱讀的過程中,我不僅學習瞭如何使用 R 語言進行數據分析,更學會瞭如何將這些工具應用於實際的商業問題。書中對各種分析方法的優劣勢的對比分析,以及如何根據不同的業務需求選擇閤適的工具,都讓我受益匪淺。我開始嘗試將書中的方法應用到我自己的工作中,並且已經看到瞭初步的成效,這讓我對未來的學習和應用充滿瞭信心。

評分

這本書的語言風格非常吸引我。作者的敘述方式不是那種枯燥的學術報告,而更像是在與一位朋友交流。他善於運用一些生動的語言,偶爾還會穿插一些幽默的橋段,讓原本可能嚴肅的技術內容變得輕鬆有趣。我特彆欣賞他對於一些關鍵概念的解釋,總是能夠從不同的角度切入,確保讀者能夠全麵地理解。比如,在講解聚類分析的時候,他不僅解釋瞭算法的原理,還生動地比喻瞭它就像是在茫茫人海中尋找誌同道閤的朋友,這種代入感極強,讓我瞬間就對這個概念有瞭更深的體會。

評分

大數據分析的優選軟件,書籍係統性不錯

評分

好書,強烈推薦,收獲剖多,值得一讀

評分

。。。。。。。

評分

值得一讀,不錯。

評分

大數據分析的優選軟件,書籍係統性不錯

評分

大數據分析的優選軟件,書籍係統性不錯

評分

很實用

評分

非常好的書,值得認真讀一讀,並且對工作有幫助

評分

不錯

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有