內容簡介
聚類是數據挖掘領域的一個重要分支。
《數據聚類》全麵係統地介紹聚類的主要方法。首先,對涉及聚類的各個方麵進行簡略的綜述;然後,對各類聚類算法進行較詳細的討論。
《數據聚類》主要內容分為三大部分:第1部分是經典算法部分(第2~6章),討論k-均值、DBSCAN等傳統算法;第二部分是高級算法部分(第7~12章),討論半監督聚類、高維數據聚類、不確定數據聚類等;第三部分是多源數據聚類部分(第13章),主要討論多視角聚類和多任務聚類。
《數據聚類》可供數據科學與人工智能等領域的研究人員、工程技術人員、相關學科研究生和基礎較好的高年級本科生參考閱讀。
內頁插圖
目錄
序
前言
符號錶
1 概述
1.1 問題描述
1.2 方法進展
1.2.1 經典算法
1.2.2 高級算法
1.2.3 多源數據算法
1.3 半監督聚類
1.4 數據類型
1.4.1 屬性數據
1.4.2 離散序列數據
1.4.3 時間序列數據
1.4.4 文本數據
1.4.5 多媒體數據
1.4.6 流數據
1.4.7 各類數據聚類技術匯總
1.5 衍生問題
1.5.1 特徵選擇
1.5.2 測度學習
1.5.3 聚類集成
1.5.4 軟聚類
1.5.5 多解聚類
1.5.6 聚類驗證
1.5.7 可視化與交互聚類
1.6 新的挑戰
1.6.1 大數據聚類
1.6.2 多模數據聚類
1.6.3 深度聚類
1.7 結論
參考文獻
2 基於模型的聚類
2.1 混閤模型
2.1.1 混閤模型簡介
2.1.2 高斯混閤模型
2.1.3 伯努利混閤模型
2.1.4 混閤模型選擇
2.2 期望最大化算法
2.2.1 詹森不等式
2.2.2 期望最大化算法分析
2.2.3 期望最大化算法框架
2.2.4 期望最大化擴展算法
2.3 求解高斯混閤模型
2.4 求解伯努利混閤模型
參考文獻
3 基於劃分的聚類算法
3.1 劃分方法概述
3.2 k-均值算法
3.2.1 目標函數
3.2.2 算法流程
3.2.3 性能分析
3.2.4 k的選擇
3.2.5 初始中心點選擇
3.3 類k-均值算法
3.3.1 k-中心點算法
3.3.2 k-中值算法
3.3.3 k-modes算法
3.3.4 模糊k-均值算法
3.3.5 核k-均值算法
3.3.6 二分k-均值算法
3.4 改進的k-均值算法
3.4.1 改進的k-均值算法概述
3.4.2 基於邊界值的k-均值算法
3.4.3 陰陽k-均值算法
3.4.4 基於塊嚮量的加速k-均值算法
參考文獻
4 基於密度的聚類算法
4.1 密度算法概述
4.2 DBSCAN算法
4.2.1 基本定義及算法流程
4.2.2 算法分析
4.3 OPTICS算法
4.3.1 基本定義及算法流程
4.3.2 算法分析
4.4 DENCLUE算法
……
5 基於網格的聚類算法
6 層次聚類算法
7 半監督聚類
8 譜聚類
9 基於非負矩陣分解的聚類
10 高維數據聚類
11 圖聚類
12 不確定數據聚類
13 多源相關數據聚類
後記
彩版
前言/序言
2016年初,榖歌圍棋Alpha Go以4:1的成績戰勝瞭人類圍棋世界冠軍李世石,引起全世界的關注,這標誌著人工智能的發展進入瞭一個全新的階段。近幾年來,人工智能得到飛速的發展,在很多領域如圖像識彆、語音識彆等方麵取得瞭突破性的進步。人工智能的研究也得到全世界學術界和産業界的高度關注,進入瞭一個新的高潮期。種種跡象錶明,人類進入全方位智能時代已經為期不遠瞭。所有這一切幾乎均得益於神經網絡的新技術——深度學習的發現和發展(非常有趣的是人工智能的幾次高潮均來自神經網絡的進步,可見神經網絡的生命力)。深度學習的概念由Hinton等於2006年提齣,在近年來已經逐漸成為機器學習的主流技術,在多數應用領域的性能明顯超齣已有技術。
機器學習包括監督學習和無監督學習。目前的深度學習基本上隻帶來監督學習的進步,但僅靠監督學習是無法實現完整的人工智能的。作為智能係統,監督學習似乎足夠“能”而不足夠“智”。足夠“能”體現為它能夠在大數據中挖掘知識,這甚至是人腦做不到的。事實上人腦並不是處理大數據的係統,人類在任何領域所掌握的知識均有限,例如,每個人僅認識數乾個漢字或單詞。不足夠“智”體現為監督學習需要大量人工標記的訓練樣本。人腦的學習並不需要大量的樣本訓練,人類是在沒有指導或少量指導的條件下獲得知識的,而且人腦會不斷地學習並強化自己在各個領域的知識。人類在有限知識的基礎上體現齣驚人的創造力。類似人腦的智能係統更需要無監督學習、小樣本學習、強化學習和遷移學習等功能。因此,人工智能的發展仍然任重而道遠。
本書討論聚類技術。聚類是無監督學習的主要內容,在很多文獻中人們甚至把聚類和無監督學習兩個概念等價使用。聚類一直是機器學習、數據挖掘、模式識彆等領域的重要組成內容,近年來更得到高度重視。2015年,中國人工智能學會理事長李德毅院士在“新一代信息技術産業發展高峰論壇”上指齣:“人類的認知科學要想有所突破,首先就要在大數據聚類上取得突破,聚類是挖掘大數據資産價值的第一步。”同年,深度學習的領軍人物Lecun、Bengio和Hinton在Nature上的綜述指齣:“人和動物的學習很大程度上是無監督的:我們通過觀察發現世界的結構,而不是對每個物體命名。”
那麼什麼是聚類呢?《周易·係辭上》說:“方以類聚,物以群分,吉凶生矣。”自然的事物總是按一定的規律組織起來的,人們通過認識這些組織的結構特徵獲得知識,從而做齣決策。以生物為例(我們這個世界是因為有生物而活潑生動的),人們根據生物的相似程度(包括形態結構和生理功能等),把生物劃分為種和屬等不同的等級,並對每一類群的形態結構和生理功能等特徵進行科學的描述,以弄清不同類群之間的親緣關係和進化關係。相信很多人小時候學習生物時都會驚訝於鯨居然是哺乳動物而不是魚,貓和老虎是同一科等。
和分類(監督學習的主要任務)不同,聚類是在無標記樣本的條件下將數據分組,從而發現數據的天然結構。聚類在數據分析中扮演重要的角色,它通常被用於以下三個方麵。
(1)發現數據的潛在結構:深入洞察數據、産生假設、檢測異常、確定主要特徵。
(2)對數據進行自然分組:確定不同組織之間的相似程度(係統關係)。
(3)對數據進行壓縮:將聚類原型作為組織和概括數據的方法。
這幾個方麵的功能使聚類既可以作為預處理程序,又可以作為獨立的數據分析工具。
聚類是典型的交叉學科,在很多領域有廣泛的應用,其研究已有60多年的曆史。生物分類學者、社會學者、哲學傢、生物學傢、統計學傢、數學傢、工程師、計算機科學傢、醫學研究者等眾多收集和處理實際數據的工作者都對聚類方法做齣瞭貢獻。在不同的領域,聚類還可能被稱為Q-分析、拓撲、凝結、分類等。聚類的概念最早齣現在1954年的一篇處理人類學數據的論文中。自此開始,聚類一直是相關領域重要的研究內容之一。2009年,有人用榖歌學術搜索做過統計,發現僅2007年一年就有1660個包含“數據聚類”的條目。幾十年來有數以萬計的文獻討論聚類算法及其在科學和工程領域的應用,這充分說明聚類對數據分析的重要性。
《數據聚類:探索數據內在結構的奧秘》 本書是一部關於數據聚類方法論的深度探索,旨在為讀者揭示如何從海量、雜亂的數據中挖掘齣有意義的群體和模式。我們並非直接教授具體的聚類算法,而是著眼於構建一個理解和應用聚類技術的堅實基礎。本書將引導您穿越數據分析的迷宮,理解聚類背後的哲學,以及它在現實世界中扮演的關鍵角色。 第一部分:理解數據的本質與挑戰 在深入探討聚類方法之前,理解我們所麵對的數據的本質至關重要。數據並非簡單的一堆數字或文本,而是信息、特徵和潛在規律的載體。本書將首先從“數據是什麼”這一根本問題齣發,探討數據的多樣性——從結構化到非結構化,從數值型到類彆型,從低維到高維。我們將認識到,數據的“清洗”和“預處理”並非僅僅是技術操作,而是理解數據內在含義的必要步驟。 數據的多麵性: 我們將解析不同類型數據的特性,例如,數值型數據中的連續性和離散性,類彆型數據中的名義性和順序性。理解這些差異,將直接影響我們選擇何種距離度量和聚類算法。 數據質量的挑戰: 真實世界的數據往往充斥著噪聲、缺失值、異常值和冗餘信息。本書將探討這些問題如何扭麯聚類結果,以及如何通過數據清洗和變換策略來提升數據的質量,為有效的聚類奠定基礎。 降維的藝術: 高維數據是現代數據分析中的一個普遍難題。本書將介紹降維的概念,解釋為何在高維空間中進行聚類會遇到“維度詛咒”,並簡要觸及一些常用的降維技術(如主成分分析PCA、t-SNE),使其成為聚類分析的有力前奏。 第二部分:聚類的哲學與理論基石 聚類並非一種簡單的數學運算,而是一種基於相似性度量的探索性數據分析方法。在這一部分,我們將剝離算法的錶象,深入探究聚類背後的核心理念。 相似性與相異性: 聚類的核心在於度量數據點之間的相似性或相異性。本書將詳細闡述各種度量方法,包括歐氏距離、曼哈頓距離、餘弦相似度、Jaccard相似係數等。我們將深入分析不同場景下選擇何種度量方式的考量,以及它們對聚類結果的影響。例如,為何在文本分析中餘弦相似度比歐氏距離更受歡迎? 簇的定義與目標: 究竟什麼是“簇”?本書將探討不同聚類方法的“簇”的定義。有的追求緊密的球狀簇,有的則能發現任意形狀的簇。理解這些定義,有助於我們匹配算法與實際問題。我們還會討論聚類分析的目標:是發現數據的內在結構?還是為瞭數據壓縮和錶示?或者是為瞭異常檢測? 評價聚類質量: 如何知道我們的聚類結果是好的?本書將介紹多種評估聚類效果的方法。我們會區分內部評估指標(如輪廓係數、Davies-Bouldin指數)和外部評估指標(如ARI、AMI),並討論在無監督學習場景下,評估的挑戰與策略。 第三部分:策略性地選擇與應用聚類方法 算法的百花齊放,使得選擇最適閤的聚類算法成為一項關鍵技能。本書不直接羅列算法,而是從策略和應用的角度引導讀者做齣明智的選擇。 基於劃分的聚類(Partitioning-based Clustering): 以K-Means為代錶的這類方法,將數據集劃分為預先指定的K個簇。我們將深入分析K-Means的原理,探討其優缺點,以及影響K選擇的因素。同時,也會觸及K-Medoids等變體,以應對不同的數據特性。 基於層次的聚類(Hierarchical Clustering): 從個體數據點開始,逐步構建或分解簇的層次結構。本書將介紹凝聚型(Agglomerative)和分裂型(Divisive)層次聚類的基本思想,以及如何利用樹狀圖(Dendrogram)來理解和選擇簇的數量。 基於密度的聚類(Density-based Clustering): 發現任意形狀簇,並能有效處理噪聲。DBSCAN將是本部分的重點,我們將解析其核心概念——“密度可達性”和“核心點”,並探討其在處理不規則簇和噪聲方麵的優勢。 基於模型的聚類(Model-based Clustering): 假設數據生成服從某種概率模型,並嘗試估計模型參數。高斯混閤模型(GMM)將是我們探討的重點,我們將理解其在數據分布假設下的聚類能力。 聚類方法的選擇與權衡: 麵對紛繁的算法,本書將提供一個決策框架。我們將從數據規模、數據維度、簇的形狀、噪聲的存在、是否需要預設簇數等角度,引導讀者權衡不同算法的適用性。 第四部分:聚類在真實世界中的應用與展望 聚類技術並非紙上談兵,它在各個領域都展現齣強大的生命力。本書將通過生動的案例,展示聚類如何賦能決策、洞察和創新。 客戶細分與市場營銷: 如何將相似的客戶群體識彆齣來,進行精準營銷?本書將探討聚類在構建用戶畫像、個性化推薦、市場定位等方麵的應用。 圖像分析與模式識彆: 在圖像處理領域,聚類如何幫助我們分割圖像、識彆物體?我們將簡要介紹聚類在圖像分割、特徵提取中的作用。 生物信息學與基因分析: 如何對基因數據進行分組,發現疾病相關的基因模式?本書將闡述聚類在基因錶達分析、蛋白質功能分類等領域的價值。 異常檢測與欺詐識彆: 識彆與大多數數據點顯著不同的“異常”數據。我們將討論聚類如何幫助我們發現潛在的欺詐行為、網絡攻擊或設備故障。 文本挖掘與主題發現: 如何從大量文檔中發現潛在的主題?本書將探討聚類在文檔聚類、主題建模等文本分析任務中的應用。 聚類結果的可視化: 如何直觀地展示聚類結果,使其更易於理解?本書將強調可視化在解釋聚類分析中的重要性,並介紹一些常用的可視化技術。 第五部分:進階思考與未來方嚮 數據科學領域日新月異,聚類技術也在不斷發展。在本書的最後,我們將帶領讀者思考一些更深層次的問題,並展望聚類的未來。 半監督與監督聚類: 當部分數據帶有標簽時,如何利用這些信息提升聚類效果?我們將簡要介紹半監督和監督聚類的概念。 動態聚類與流數據處理: 如何處理不斷産生的新數據?我們將探討在流式數據環境中進行聚類的挑戰與方法。 可解釋的聚類: 在一些關鍵應用中,我們不僅需要聚類結果,還需要理解為什麼數據會被這樣劃分。我們將探討提升聚類模型可解釋性的思路。 與其他數據挖掘技術的融閤: 聚類並非孤立存在,它常常與其他技術(如分類、降維、關聯規則挖掘)協同工作,共同解決復雜問題。 結語 《數據聚類:探索數據內在結構的奧秘》並非一本枯燥的算法手冊,而是一次深入數據世界的旅程。我們希望通過本書,讀者能夠建立起一套係統的聚類思維框架,掌握選擇和應用恰當聚類方法的能力,並能靈活地將聚類技術應用於解決實際問題。無論您是數據分析的初學者,還是希望深化理解的專業人士,本書都將成為您探索數據寶藏的得力助手。