編輯推薦
數據分析專傢撰寫,多年企業數據分析培訓和谘詢的經驗結晶。
實戰性強,從“非科班齣身”的企業數據分析人員的角度對商業數據分析進行瞭總結和歸納,運用大量事實和案例來展現“以業務為核心和抓手的數據分析”商業實踐。
內容簡介
本書是針對於非統計科班齣身的企業人員講述數據分析和挖掘的著作,也是諸多數據挖掘書籍中為數不多的穿插大量真實實踐應用案例和場景的著作。全書分為三大部分:
第一部分是基礎篇(第1章和第2章),主要介紹數據分析的概念、術語、方法、模型等,為後續的內容展開奠定基礎。
第二部分是製錶篇(第3章~第5章),介紹數據的采集原則、數據整理以及常用數據報錶的製作方法和技巧。
第三部分是數據分析篇(第6章~第14章),這是本書的重點內容,囊括瞭從數據掃描、數據標注到異常值分析、迴歸等常用的、有代錶性的功能,並以案例形式展示在數據分析過程中使用上述功能的思路、方法和技巧,指導讀者進行實戰操練。
作者簡介
紀賀元,數據分析專傢,從事數據分析與挖掘的培訓和谘詢多年,曾在通信行業長期從事數據分析與挖掘的建模分析工作。在EXCEL、SPSS、MODELER、EVIWS、VBA、SAS等方麵有長期的使用經驗,擅長分析模型和算法的優化工作。曾經主持過多個數據分析、數據報錶、市場調查項目。
精彩書評
紀老師曾經在我們公司做過數據報錶項目,他的數據思維以及強大的數據編程能力給我很深的印象,因此我堅信紀老師的書也會同樣齣色。
——天順風能股份有限公司總經理紀軍
紀老師的數據分析和挖掘課程在我們湧泉的客戶群體中很受歡迎,一個人在授課和寫作方麵的能力和思維一定是互通的,而且紀老師有長期的企業數據分析和挖掘的實戰經驗,他的書一定是會受到廣大讀者的歡迎。
——上海湧泉谘詢管理有限公司總經理孫玉琴
一直以來很想有一本閤適的講解統計分析和數據挖掘的書,但是市麵上的書要麼艱難晦澀,要麼太淺瞭,真是好不容易看到一本貼近實戰的數據分析和挖掘的書。
——上海思維導圖知名培訓老師逛逛(李程)
紀老師的數據分析課邏輯非常清晰、簡單易懂,我們同樣有理由相信紀老師的書也肯定是很棒的。
——深圳華潤置地資深數據分析師羅傑濤
紀老師曾經來我們阿斯利康公司上過課,大傢對其評價都很高,他能夠把復雜晦澀的統計挖掘理論講得比較生動有趣,因此,我們也期待他能夠給讀者帶來一本通俗易懂、開捲有益的書。
——阿斯利康數據管理與分析高級經理劉彬
目錄
前言
第1章 什麼是數據分析1
1.1 一眼就看到結論還需要數據分析嗎1
1.1.1 企業數據量2
1.1.2 數據復雜度2
1.1.3 數據顆粒度3
1.2 數據分析能給我們帶來什麼4
1.2.1 瞭解數據的整體狀況4
1.2.2 快速查詢數據5
1.2.3 數據之間關係的探索5
1.2.4 業務預測6
1.3 數據分析的幾大抓手6
1.3.1 足夠多的數據6
1.3.2 數據質量6
1.3.3 閤適的工具7
1.3.4 分析結果的呈現7
1.4 數據分析的流程7
1.4.1 數據采集7
1.4.2 數據整理8
1.4.3 製錶11
1.4.4 數據分析11
1.4.5 數據展示(呈現)12
1.5 如何成為數據分析高手12
1.5.1 “拳不離手,麯不離口”12
1.5.2 熟練掌握常用工具12
1.5.3 最好能編點程序13
1.5.4 一定要通曉業務14
第2章 數據分析的理論、工具、模型15
2.1 基本概念和術語15
2.1.1 基本概念15
2.1.2 術語22
2.2 選擇稱手的軟件工具26
2.2.1 EXCEL27
2.2.2 VBA27
2.2.3 Access27
2.2.4 SPSS28
2.2.5 XLSTAT29
2.2.6 Modeler29
2.2.7 R語言30
2.3 在分析需求和模型之間搭起橋梁30
2.3.1 識彆需求30
2.3.2 分解需求30
2.3.3 選擇工具和模型31
第3章 數據采集與整理32
3.1 數據采集的幾條重要原則32
3.1.1 要足夠“復雜”32
3.1.2 要足夠“細”33
3.1.3 要有“跨度”33
3.1.4 要有可行性34
3.2 用“逐步推進法”推測需要的數據34
3.3 耗時耗力的數據整理過程35
3.3.1 重復、空行、空列數據刪除36
3.3.2 缺失值的填充和分析39
3.3.3 數據間邏輯的排查45
3.4 數據量太大瞭怎麼辦47
3.4.1 放到數據庫中處理47
3.4.2 用專業工具處理47
3.4.3 數據抽樣51
第4章 數據分析的基礎:製錶(上)53
4.1 以數據閤並為目標的製錶53
4.1.1 跨工作錶閤並53
4.1.2 跨工作簿閤並55
4.2 以數據篩選為目標的製錶56
4.2.1 普通數據篩選57
4.2.2 高級篩選60
4.2.3 計算篩選62
4.2.4 函數篩選63
4.3 以獲得概要數據為目標的製錶64
4.3.1 分類匯總方法64
4.3.2 數據透視錶匯總68
第5章 數據分析的基礎:製錶(下)70
5.1 “七個百分比”讓你懂得大部分錶格類型70
5.1.1 行總計的百分比70
5.1.2 列總計的百分比73
5.1.3 全部總計的百分比74
5.1.4 父行(列)的百分比74
5.1.5 纍計占比75
5.1.6 環比78
5.1.7 同比79
5.2 分組功能經常讓分析峰迴路轉81
5.2.1 文本的分組81
5.2.2 等步長的數據分組83
5.2.3 不等步長的數據分組86
5.2.4 日期型的分組88
5.3 隨意生成各種派生指標89
5.3.1 添加字段89
5.3.2 添加項91
5.4 從大數據庫中挑選要分析的數據:Microsoft Query92
5.5 強大的SQL97
5.5.1 SQL的基本語法97
5.5.2 SQL的應用97
第6章 數據掃描:給數據做體檢100
6.1 在EXCEL中給數據做掃描100
6.2 SPSS中給數據做掃描103
6.3 在Modeler中給數據做掃描105
6.4 其他相應的指標108
第7章 數據標注:給數據上色110
7.1 大數據塊的整體標注111
7.1.1 突齣顯示單元格規則111
7.1.2 特殊數據選取規則112
7.2 根據業務邏輯在數據中標注上色113
7.2.1 數據條、色階、圖標集的應用113
7.2.2 規則的理解115
7.2.3 根據業務需求改變規則118
7.3 采用公式實現復雜強大的數據標注119
7.3.1 理解邏輯錶達式的含義119
7.3.2 復雜邏輯公式的應用120
7.4 如何在一張錶格中實現多種標注規則123
7.4.1 多規則的應用123
7.4.2 如何理解“遇真則停止”125
第8章 找到數據中的“特殊分子”127
8.1 什麼是異常值127
8.2 異常值的判斷標準128
8.3 用繪圖技巧找到異常值129
8.3.1 散點圖129
8.3.2 麵闆圖130
8.4 用公式函數法發掘異常值135
8.5 三倍標準差法137
第9章 相關分析與決策樹140
9.1 Pearson相關140
9.1.1 應用場景141
9.1.2 輸齣指標的解析141
9.2 典型相關分析145
9.2.1 操作步驟145
9.2.2 結果解讀147
9.3 決策樹149
9.3.1 什麼時候需要用決策樹149
9.3.2 決策樹的操作和指標解釋150
第10章 聚類155
10.1 多維度數據的分類怎麼辦155
10.1.1 低維度數據的分類方法155
10.1.2 高維度數據的分類需求157
10.1.3 常用的聚類操作介紹157
10.2 聚類的煩惱1:如何麵對數量級差彆大的數據165
10.3 聚類的煩惱2:如何判斷聚類的質量167
第11章 迴歸168
11.1 如何尋找現有數據的內在規律168
11.1.1 什麼是數據擬閤169
11.1.2 多元綫性迴歸171
11.2 logistic迴歸173
11.2.1 迴歸(客戶“買”與“不買”)173
11.2.2 多元logistic迴歸(多個品牌的選擇)176
11.2.3 多元有序logistic迴歸181
第12章 關聯分析183
12.1 因果關係的弱化183
12.2 關聯分析的指標184
12.2.1 支持度184
12.2.2 置信度185
12.2.3 提升度185
12.3 什麼樣的數據適閤做關聯分析186
12.3.1 商超數據186
12.3.2 金融數據186
12.3.3 生産質量數據187
12.4 關聯分析的具體操作187
第13章 預測191
13.1 什麼是預測,預測的準確度高嗎191
13.2 移動平滑193
13.3 指數平滑194
13.3.1 二次指數平滑194
13.3.2 三次指數平滑195
13.4 對周期性數據的分解198
13.5 ARIMA預測法201
第14章 高級繪圖技巧206
14.1 怎樣纔算圖畫得好206
14.2 雙軸圖的技巧和運用207
14.3 不同數量級數據的高效對比展示211
14.4 數據標簽的妙用215
14.5 圖形中的重點標注221
14.6 繪圖美學—多點審美素養222
14.6.1 整體布局222
14.6.2 綫型的選擇223
14.6.3 色彩對比223
後記 數據分析經驗之我見224
前言/序言
為什麼要寫這本書
在我做數據分析培訓和谘詢的過程中,經常會有學員來問我,有沒有閤適的統計分析方麵的參考書可以推薦。被學員問得多瞭,慢慢地就有瞭寫本書的衝動,一是畢竟自己寫的書和培訓的內容比較配套,二是寫書對自己來說也是一個總結和提高的過程吧。
“理想很豐滿,現實很骨感”,原來覺得自己手裏有不少案例,各種工具的使用也算是比較熟練,寫起書來應該得心應手,進度也會比較快,但是真到開始動手寫作時,纔發現並不是那麼簡單。從框架目錄的確定、章節內容的選擇、語言風格的打磨,到分析結果截圖的選擇等,每一個環節都需要細細地思量和斟酌。這本書的寫作使我從2016年4月到11月的這段時間非常疲勞,頸椎病也復發瞭,因為在寫書的同時,我的數據分析方麵的培訓並沒有停止。
我在寫作本書的時候,給自己規定瞭幾個原則:
一是要實用,要能夠解決企業工作中的實際問題。
二是要盡可能地降低讀者上手的難度,那種操作非常繁復、需要強大堅實的統計分析理論基礎,或者需要編程纔能實現的功能,我都沒有放在本書中。原因很簡單,即使本書講瞭那些難度比較大的內容,讀者也很難真正應用起來。
三是語言風格盡可能輕鬆活潑一點,盡量避免很嚴肅、很晦澀的專業術語,我很難做到“寓教於樂”,但還是盡己所能讓本書的閱讀輕鬆一點吧。
在本書的寫作過程中,我經常提醒自己這三條原則,並且要求自己遵守它們。
簡言之,給讀者帶來一本“有用的、上手比較容易的、讀起來比較輕鬆的”數據分析書,這就是我寫這本書的原則和動力。
讀者對象
這本書的讀者對象是企事業單位中從事數據分析的非統計專業人士:
企業中的市場部相關人員,包括市場分析人員、産品設計和研發人員、銷售經理等。
企業中的生産部人員,包括生産經理、質量控製經理等。
企業中的財務部人員,包括財務總監、財務經理等。
企業中其他需要經常和各類數據打交道的管理人員和一般工作人員。
如果讀者是高校或者科研院所的教師、學生、科研人員,要從事專業學術論文的撰寫或者縱嚮科研項目的研究工作,不建議你將本書作為主要的閱讀和學習的書籍,因為使用的工具、模型、方法都會大相徑庭,例如撰寫學術論文經常要使用Eviews、Stata等專業計量工具,而這些專業計量工具在企業中使用的概率非常低。
如何閱讀本書
本書分為三大部分,第一部分基礎篇(第1章和第2章)主要介紹數據分析的概念、術語、方法、模型等,為後續的內容展開奠定基礎。
第二部分製錶篇(第3章到第5章)介紹數據的采集、整理以及常用數據報錶的製作。
第三部分數據分析篇(第6章到第14章)占據瞭本書的大部分篇幅,囊括瞭常用的、有代錶性的、實用的功能,包括數據掃描、數據標注、異常值分析、迴歸等。
正文中所提“案例文件”為本書的配置案例資料,請通過網絡自行下載。
勘誤和支持
由於作者的水平有限,編寫的時間也很倉促,書中難免會齣現一些錯誤或者不準確的地方,懇請讀者批評指正。如果你發現本書有錯誤,或者有其他寶貴意見,請發送郵件到我的郵箱,我很期待能夠收到你們的真摯反饋。
緻謝
我跟我的傢人說,我這本書是以“parttime”的方式寫齣來的,因為在寫書的過程中,我還在四處上課,也做瞭一些小的谘詢項目。
多年以後,如果迴顧2016年,我給哪些企業上過哪些課,我未必能記清楚,但是2016年我寫作瞭平生第一本書,這點我不會忘記。
感謝機械工業齣版社華章公司的編輯楊綉國老師,感謝你的魄力和遠見,在這一年多的時間中始終支持我的寫作,你的鼓勵和幫助引導我順利完成瞭全部書稿。
最後我一定要感謝我的傢人,是你們給瞭我一個溫暖的港灣,讓我在這一年中幾乎不用做傢務,專心從事培訓和本書的寫作,多謝多謝!
謹以此書,獻給我最親愛的傢人,以及眾多熱愛數據分析的朋友。
紀賀元
2017年1月於中國上海
數據分析實戰:基於EXCEL和SPSS係列工具的實踐 epub pdf mobi txt 電子書 下載 2024
數據分析實戰:基於EXCEL和SPSS係列工具的實踐 下載 epub mobi pdf txt 電子書