數據聚類

數據聚類 pdf epub mobi txt 電子書 下載 2025

張憲超 著
圖書標籤:
  • 數據挖掘
  • 機器學習
  • 聚類分析
  • 模式識彆
  • 算法
  • 數據分析
  • 人工智能
  • 統計學習
  • Python
  • R語言
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 科學齣版社
ISBN:9787030528469
版次:1
商品編碼:12122953
包裝:精裝
開本:16開
齣版時間:2017-05-01
用紙:膠版紙
頁數:388
字數:666000
正文語種:中文

具體描述

內容簡介

  聚類是數據挖掘領域的一個重要分支。
  《數據聚類》全麵係統地介紹聚類的主要方法。首先,對涉及聚類的各個方麵進行簡略的綜述;然後,對各類聚類算法進行較詳細的討論。
  《數據聚類》主要內容分為三大部分:第1部分是經典算法部分(第2~6章),討論k-均值、DBSCAN等傳統算法;第二部分是高級算法部分(第7~12章),討論半監督聚類、高維數據聚類、不確定數據聚類等;第三部分是多源數據聚類部分(第13章),主要討論多視角聚類和多任務聚類。
  《數據聚類》可供數據科學與人工智能等領域的研究人員、工程技術人員、相關學科研究生和基礎較好的高年級本科生參考閱讀。

內頁插圖

目錄


前言
符號錶

1 概述
1.1 問題描述
1.2 方法進展
1.2.1 經典算法
1.2.2 高級算法
1.2.3 多源數據算法
1.3 半監督聚類
1.4 數據類型
1.4.1 屬性數據
1.4.2 離散序列數據
1.4.3 時間序列數據
1.4.4 文本數據
1.4.5 多媒體數據
1.4.6 流數據
1.4.7 各類數據聚類技術匯總
1.5 衍生問題
1.5.1 特徵選擇
1.5.2 測度學習
1.5.3 聚類集成
1.5.4 軟聚類
1.5.5 多解聚類
1.5.6 聚類驗證
1.5.7 可視化與交互聚類
1.6 新的挑戰
1.6.1 大數據聚類
1.6.2 多模數據聚類
1.6.3 深度聚類
1.7 結論
參考文獻

2 基於模型的聚類
2.1 混閤模型
2.1.1 混閤模型簡介
2.1.2 高斯混閤模型
2.1.3 伯努利混閤模型
2.1.4 混閤模型選擇
2.2 期望最大化算法
2.2.1 詹森不等式
2.2.2 期望最大化算法分析
2.2.3 期望最大化算法框架
2.2.4 期望最大化擴展算法
2.3 求解高斯混閤模型
2.4 求解伯努利混閤模型
參考文獻

3 基於劃分的聚類算法
3.1 劃分方法概述
3.2 k-均值算法
3.2.1 目標函數
3.2.2 算法流程
3.2.3 性能分析
3.2.4 k的選擇
3.2.5 初始中心點選擇
3.3 類k-均值算法
3.3.1 k-中心點算法
3.3.2 k-中值算法
3.3.3 k-modes算法
3.3.4 模糊k-均值算法
3.3.5 核k-均值算法
3.3.6 二分k-均值算法
3.4 改進的k-均值算法
3.4.1 改進的k-均值算法概述
3.4.2 基於邊界值的k-均值算法
3.4.3 陰陽k-均值算法
3.4.4 基於塊嚮量的加速k-均值算法
參考文獻

4 基於密度的聚類算法
4.1 密度算法概述
4.2 DBSCAN算法
4.2.1 基本定義及算法流程
4.2.2 算法分析
4.3 OPTICS算法
4.3.1 基本定義及算法流程
4.3.2 算法分析
4.4 DENCLUE算法
……

5 基於網格的聚類算法
6 層次聚類算法
7 半監督聚類
8 譜聚類
9 基於非負矩陣分解的聚類
10 高維數據聚類
11 圖聚類
12 不確定數據聚類
13 多源相關數據聚類
後記
彩版

前言/序言

  2016年初,榖歌圍棋Alpha Go以4:1的成績戰勝瞭人類圍棋世界冠軍李世石,引起全世界的關注,這標誌著人工智能的發展進入瞭一個全新的階段。近幾年來,人工智能得到飛速的發展,在很多領域如圖像識彆、語音識彆等方麵取得瞭突破性的進步。人工智能的研究也得到全世界學術界和産業界的高度關注,進入瞭一個新的高潮期。種種跡象錶明,人類進入全方位智能時代已經為期不遠瞭。所有這一切幾乎均得益於神經網絡的新技術——深度學習的發現和發展(非常有趣的是人工智能的幾次高潮均來自神經網絡的進步,可見神經網絡的生命力)。深度學習的概念由Hinton等於2006年提齣,在近年來已經逐漸成為機器學習的主流技術,在多數應用領域的性能明顯超齣已有技術。
  機器學習包括監督學習和無監督學習。目前的深度學習基本上隻帶來監督學習的進步,但僅靠監督學習是無法實現完整的人工智能的。作為智能係統,監督學習似乎足夠“能”而不足夠“智”。足夠“能”體現為它能夠在大數據中挖掘知識,這甚至是人腦做不到的。事實上人腦並不是處理大數據的係統,人類在任何領域所掌握的知識均有限,例如,每個人僅認識數乾個漢字或單詞。不足夠“智”體現為監督學習需要大量人工標記的訓練樣本。人腦的學習並不需要大量的樣本訓練,人類是在沒有指導或少量指導的條件下獲得知識的,而且人腦會不斷地學習並強化自己在各個領域的知識。人類在有限知識的基礎上體現齣驚人的創造力。類似人腦的智能係統更需要無監督學習、小樣本學習、強化學習和遷移學習等功能。因此,人工智能的發展仍然任重而道遠。
  本書討論聚類技術。聚類是無監督學習的主要內容,在很多文獻中人們甚至把聚類和無監督學習兩個概念等價使用。聚類一直是機器學習、數據挖掘、模式識彆等領域的重要組成內容,近年來更得到高度重視。2015年,中國人工智能學會理事長李德毅院士在“新一代信息技術産業發展高峰論壇”上指齣:“人類的認知科學要想有所突破,首先就要在大數據聚類上取得突破,聚類是挖掘大數據資産價值的第一步。”同年,深度學習的領軍人物Lecun、Bengio和Hinton在Nature上的綜述指齣:“人和動物的學習很大程度上是無監督的:我們通過觀察發現世界的結構,而不是對每個物體命名。”
  那麼什麼是聚類呢?《周易·係辭上》說:“方以類聚,物以群分,吉凶生矣。”自然的事物總是按一定的規律組織起來的,人們通過認識這些組織的結構特徵獲得知識,從而做齣決策。以生物為例(我們這個世界是因為有生物而活潑生動的),人們根據生物的相似程度(包括形態結構和生理功能等),把生物劃分為種和屬等不同的等級,並對每一類群的形態結構和生理功能等特徵進行科學的描述,以弄清不同類群之間的親緣關係和進化關係。相信很多人小時候學習生物時都會驚訝於鯨居然是哺乳動物而不是魚,貓和老虎是同一科等。
  和分類(監督學習的主要任務)不同,聚類是在無標記樣本的條件下將數據分組,從而發現數據的天然結構。聚類在數據分析中扮演重要的角色,它通常被用於以下三個方麵。
  (1)發現數據的潛在結構:深入洞察數據、産生假設、檢測異常、確定主要特徵。
  (2)對數據進行自然分組:確定不同組織之間的相似程度(係統關係)。
  (3)對數據進行壓縮:將聚類原型作為組織和概括數據的方法。
  這幾個方麵的功能使聚類既可以作為預處理程序,又可以作為獨立的數據分析工具。
  聚類是典型的交叉學科,在很多領域有廣泛的應用,其研究已有60多年的曆史。生物分類學者、社會學者、哲學傢、生物學傢、統計學傢、數學傢、工程師、計算機科學傢、醫學研究者等眾多收集和處理實際數據的工作者都對聚類方法做齣瞭貢獻。在不同的領域,聚類還可能被稱為Q-分析、拓撲、凝結、分類等。聚類的概念最早齣現在1954年的一篇處理人類學數據的論文中。自此開始,聚類一直是相關領域重要的研究內容之一。2009年,有人用榖歌學術搜索做過統計,發現僅2007年一年就有1660個包含“數據聚類”的條目。幾十年來有數以萬計的文獻討論聚類算法及其在科學和工程領域的應用,這充分說明聚類對數據分析的重要性。
《數據聚類:探索數據內在結構的奧秘》 本書是一部關於數據聚類方法論的深度探索,旨在為讀者揭示如何從海量、雜亂的數據中挖掘齣有意義的群體和模式。我們並非直接教授具體的聚類算法,而是著眼於構建一個理解和應用聚類技術的堅實基礎。本書將引導您穿越數據分析的迷宮,理解聚類背後的哲學,以及它在現實世界中扮演的關鍵角色。 第一部分:理解數據的本質與挑戰 在深入探討聚類方法之前,理解我們所麵對的數據的本質至關重要。數據並非簡單的一堆數字或文本,而是信息、特徵和潛在規律的載體。本書將首先從“數據是什麼”這一根本問題齣發,探討數據的多樣性——從結構化到非結構化,從數值型到類彆型,從低維到高維。我們將認識到,數據的“清洗”和“預處理”並非僅僅是技術操作,而是理解數據內在含義的必要步驟。 數據的多麵性: 我們將解析不同類型數據的特性,例如,數值型數據中的連續性和離散性,類彆型數據中的名義性和順序性。理解這些差異,將直接影響我們選擇何種距離度量和聚類算法。 數據質量的挑戰: 真實世界的數據往往充斥著噪聲、缺失值、異常值和冗餘信息。本書將探討這些問題如何扭麯聚類結果,以及如何通過數據清洗和變換策略來提升數據的質量,為有效的聚類奠定基礎。 降維的藝術: 高維數據是現代數據分析中的一個普遍難題。本書將介紹降維的概念,解釋為何在高維空間中進行聚類會遇到“維度詛咒”,並簡要觸及一些常用的降維技術(如主成分分析PCA、t-SNE),使其成為聚類分析的有力前奏。 第二部分:聚類的哲學與理論基石 聚類並非一種簡單的數學運算,而是一種基於相似性度量的探索性數據分析方法。在這一部分,我們將剝離算法的錶象,深入探究聚類背後的核心理念。 相似性與相異性: 聚類的核心在於度量數據點之間的相似性或相異性。本書將詳細闡述各種度量方法,包括歐氏距離、曼哈頓距離、餘弦相似度、Jaccard相似係數等。我們將深入分析不同場景下選擇何種度量方式的考量,以及它們對聚類結果的影響。例如,為何在文本分析中餘弦相似度比歐氏距離更受歡迎? 簇的定義與目標: 究竟什麼是“簇”?本書將探討不同聚類方法的“簇”的定義。有的追求緊密的球狀簇,有的則能發現任意形狀的簇。理解這些定義,有助於我們匹配算法與實際問題。我們還會討論聚類分析的目標:是發現數據的內在結構?還是為瞭數據壓縮和錶示?或者是為瞭異常檢測? 評價聚類質量: 如何知道我們的聚類結果是好的?本書將介紹多種評估聚類效果的方法。我們會區分內部評估指標(如輪廓係數、Davies-Bouldin指數)和外部評估指標(如ARI、AMI),並討論在無監督學習場景下,評估的挑戰與策略。 第三部分:策略性地選擇與應用聚類方法 算法的百花齊放,使得選擇最適閤的聚類算法成為一項關鍵技能。本書不直接羅列算法,而是從策略和應用的角度引導讀者做齣明智的選擇。 基於劃分的聚類(Partitioning-based Clustering): 以K-Means為代錶的這類方法,將數據集劃分為預先指定的K個簇。我們將深入分析K-Means的原理,探討其優缺點,以及影響K選擇的因素。同時,也會觸及K-Medoids等變體,以應對不同的數據特性。 基於層次的聚類(Hierarchical Clustering): 從個體數據點開始,逐步構建或分解簇的層次結構。本書將介紹凝聚型(Agglomerative)和分裂型(Divisive)層次聚類的基本思想,以及如何利用樹狀圖(Dendrogram)來理解和選擇簇的數量。 基於密度的聚類(Density-based Clustering): 發現任意形狀簇,並能有效處理噪聲。DBSCAN將是本部分的重點,我們將解析其核心概念——“密度可達性”和“核心點”,並探討其在處理不規則簇和噪聲方麵的優勢。 基於模型的聚類(Model-based Clustering): 假設數據生成服從某種概率模型,並嘗試估計模型參數。高斯混閤模型(GMM)將是我們探討的重點,我們將理解其在數據分布假設下的聚類能力。 聚類方法的選擇與權衡: 麵對紛繁的算法,本書將提供一個決策框架。我們將從數據規模、數據維度、簇的形狀、噪聲的存在、是否需要預設簇數等角度,引導讀者權衡不同算法的適用性。 第四部分:聚類在真實世界中的應用與展望 聚類技術並非紙上談兵,它在各個領域都展現齣強大的生命力。本書將通過生動的案例,展示聚類如何賦能決策、洞察和創新。 客戶細分與市場營銷: 如何將相似的客戶群體識彆齣來,進行精準營銷?本書將探討聚類在構建用戶畫像、個性化推薦、市場定位等方麵的應用。 圖像分析與模式識彆: 在圖像處理領域,聚類如何幫助我們分割圖像、識彆物體?我們將簡要介紹聚類在圖像分割、特徵提取中的作用。 生物信息學與基因分析: 如何對基因數據進行分組,發現疾病相關的基因模式?本書將闡述聚類在基因錶達分析、蛋白質功能分類等領域的價值。 異常檢測與欺詐識彆: 識彆與大多數數據點顯著不同的“異常”數據。我們將討論聚類如何幫助我們發現潛在的欺詐行為、網絡攻擊或設備故障。 文本挖掘與主題發現: 如何從大量文檔中發現潛在的主題?本書將探討聚類在文檔聚類、主題建模等文本分析任務中的應用。 聚類結果的可視化: 如何直觀地展示聚類結果,使其更易於理解?本書將強調可視化在解釋聚類分析中的重要性,並介紹一些常用的可視化技術。 第五部分:進階思考與未來方嚮 數據科學領域日新月異,聚類技術也在不斷發展。在本書的最後,我們將帶領讀者思考一些更深層次的問題,並展望聚類的未來。 半監督與監督聚類: 當部分數據帶有標簽時,如何利用這些信息提升聚類效果?我們將簡要介紹半監督和監督聚類的概念。 動態聚類與流數據處理: 如何處理不斷産生的新數據?我們將探討在流式數據環境中進行聚類的挑戰與方法。 可解釋的聚類: 在一些關鍵應用中,我們不僅需要聚類結果,還需要理解為什麼數據會被這樣劃分。我們將探討提升聚類模型可解釋性的思路。 與其他數據挖掘技術的融閤: 聚類並非孤立存在,它常常與其他技術(如分類、降維、關聯規則挖掘)協同工作,共同解決復雜問題。 結語 《數據聚類:探索數據內在結構的奧秘》並非一本枯燥的算法手冊,而是一次深入數據世界的旅程。我們希望通過本書,讀者能夠建立起一套係統的聚類思維框架,掌握選擇和應用恰當聚類方法的能力,並能靈活地將聚類技術應用於解決實際問題。無論您是數據分析的初學者,還是希望深化理解的專業人士,本書都將成為您探索數據寶藏的得力助手。

用戶評價

評分

這本書,就像一位技藝精湛的匠人,將原本雜亂無章的數據,打磨成瞭具有清晰脈絡和獨特價值的藝術品。我之前對數據處理一直有些畏懼,覺得那些龐雜的算法和模型遙不可及。但這本書用一種非常接地氣的方式,一步步地引導我認識到數據分析的魅力。我喜歡作者在解釋每一個概念時,都配有詳實的數學推導和直觀的圖示,讓我能夠理解“為什麼”這樣做,而不僅僅是“怎麼”做。特彆是關於特徵工程的部分,作者講解得非常細緻,讓我明白如何從原始數據中提取齣最有意義的信息,就像是給數據“量身定做”閤適的服裝,讓它們在分析中更具錶現力。書中的模型解釋和評估章節,更是讓我受益匪淺。我以前總是不知道如何判斷一個模型的優劣,讀瞭這本書之後,我學會瞭從多個維度去審視模型的性能,理解瞭各種評估指標的含義和局限性。這讓我對模型的選擇和調優有瞭更清晰的方嚮。總而言之,這本書不僅僅是關於數據處理的技術手冊,更是一部關於如何“理解”和“駕馭”數據的哲學。它讓我看到瞭數據背後隱藏的故事,學會瞭如何用邏輯和算法去解讀這些故事,從而做齣更明智的決策。

評分

哇,這本書簡直就是我一直以來在尋找的寶藏!我一直對數據分析有著濃厚的興趣,但總覺得很多理論知識太過枯燥,難以理解。這本書的齣現,徹底改變瞭我的看法。作者用一種非常生動有趣的方式,將抽象的概念變得具體可感。我尤其喜歡書中那些引人入勝的案例分析,它們不是那種乾巴巴的教科書式例子,而是從實際應用場景齣發,比如用戶畫像的構建,營銷活動的精準推送,甚至是病理圖像的分析。每一個案例都讓我看到數據背後隱藏的巨大價值。更重要的是,作者並沒有僅僅停留在理論層麵,而是詳細地講解瞭實現這些分析的各種方法和工具。我以前對一些算法的理解很模糊,讀瞭這本書之後,感覺豁然開朗,仿佛眼前多瞭一幅清晰的地圖,指引我如何一步步去探索數據的奧秘。書中的圖錶和可視化也非常齣色,它們能夠直觀地展示復雜的統計結果,讓我更容易理解模型的輸齣和數據的分布。我感覺自己不僅僅是在閱讀一本技術書籍,更像是在和一位經驗豐富的導師進行一次深入的交流。這本書的閱讀體驗,就像是在品味一杯醇厚的美酒,每一口都能感受到其中的層次和迴甘。我迫不及待地想把書中的知識應用到我自己的項目中,相信它會給我帶來意想不到的驚喜。

評分

這本書就像一個寶箱,打開後裏麵全是解決各種問題的“鑰匙”。我一直對解決實際問題充滿熱情,但常常在麵對復雜的情況時感到無從下手。這本書提供瞭一種係統性的思考框架,讓我能夠將復雜的問題分解,然後用數據和算法去逐一攻破。我特彆喜歡書中關於異常檢測的章節,它讓我明白瞭如何在海量數據中快速識彆齣不尋常的模式,這對於金融風控、網絡安全等領域都至關重要。還有關於趨勢預測的部分,它讓我看到如何利用曆史數據來預測未來的走嚮,這對於商業決策、資源規劃都具有極高的參考價值。這本書的好處在於,它不僅僅是理論的堆砌,更是方法的傳授。作者通過大量的實例,演示瞭如何將這些方法應用到實際場景中,讓我能夠舉一反三,觸類旁通。我感覺自己不僅僅是學會瞭一些算法,更是學會瞭一種解決問題的能力。它讓我明白,數據背後蘊含著無限的可能性,隻要我們掌握正確的方法,就能夠從中提取齣有價值的信息,解決現實世界中的各種挑戰。這本書,讓我從一個“問題解決者”升級為瞭一個“數據驅動的問題解決者”。

評分

老實說,我一開始抱著一種“試試看”的心態來讀這本書,因為我一直覺得數據分析離我的領域(市場營銷)有些遙遠。但事實證明,我的想法太片麵瞭!這本書用非常貼近實際應用的方式,讓我看到瞭數據分析在市場營銷中的巨大潛力。比如,書中關於客戶細分和行為預測的部分,簡直就是為我們營銷人員量身定做的。我以前總是依靠經驗和直覺來製定營銷策略,但現在我明白瞭,通過數據分析,我們可以更精準地找到目標客戶,製定更具針對性的營銷活動,從而提高轉化率,降低成本。書中提到的 A/B 測試以及如何利用數據來評估不同營銷渠道的效果,讓我覺得耳目一新。我感覺自己終於找到瞭一個能夠量化我工作效果的工具,不再是那種“感覺做得不錯”的模糊評價。這本書讓我明白,數據分析不僅僅是技術人員的事情,更是我們每一個希望在工作中做得更好的人的必備技能。讀完這本書,我仿佛擁有瞭一雙“數據之眼”,能夠穿透錶象,看到更本質的規律,這讓我對未來的工作充滿瞭信心和期待。

評分

讀完這本書,我最大的感受就是它極大地拓寬瞭我的思路。作為一名産品經理,我一直緻力於理解用戶需求,優化産品體驗,但往往陷入一些固有的思維模式。這本書提供瞭一個全新的視角,讓我看到如何從海量的用戶行為數據中挖掘齣更深層次的洞察。書裏對於不同用戶群體的劃分和分析,讓我對“用戶畫像”有瞭更立體、更動態的認識,不再是簡單的年齡、性彆、職業標簽。我尤其對書中關於“個性化推薦”的章節印象深刻,它不僅僅是簡單的“你可能喜歡”,而是深入探討瞭如何理解用戶的偏好演變,如何根據用戶的實時行為調整推薦策略。這對我來說,簡直是打開瞭一扇新的大門。此外,這本書還強調瞭數據分析的“閉環”思維,即從數據收集、分析到應用、反饋,再到新一輪的數據收集,形成一個不斷優化的過程。這種係統性的方法論,讓我意識到數據分析並非一次性的工作,而是一個持續迭代、不斷精進的旅程。我感覺自己的工作方法得到瞭升華,不再是憑感覺做決策,而是能夠用數據來支撐每一個關鍵性的選擇,讓産品朝著更符閤用戶需求的方嚮發展。這本書真的是給我帶來瞭巨大的啓發,讓我對數據有瞭全新的敬畏感和探索欲。

評分

還不錯 可以考慮再次購買

評分

發來是破損的,快遞外包裝也髒兮兮的。能靠點譜麼?

評分

京東買書到貨非常快,基本上今天買明天就能夠收到,非常給力!

評分

好書,買得值,用心看,當有收獲。

評分

還不錯 可以考慮再次購買

評分

很好很好很好很好很好很好很好很好很好

評分

好書,買得值,用心看,當有收獲。

評分

發來是破損的,快遞外包裝也髒兮兮的。能靠點譜麼?

評分

喜歡讀價格實惠知識點豐富送貨速度快

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有