新媒體數據挖掘——基於R語言 pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

王小峰，方捷著

圖書標籤:

數據挖掘
R語言
新媒體
大數據
文本分析
社交媒體
網絡爬蟲
機器學習
統計分析
數據分析

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜思書屋

book.idnshop.cc

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：清華大學齣版社

ISBN：9787302493228

版次：1

商品編碼：12335292

包裝：平裝

開本：16開

齣版時間：2018-03-01

用紙：膠版紙

頁數：204

字數：315000

具體描述

內容簡介

計算傳播領域尤其是新媒體數據挖掘方嚮一直缺乏係統的教材，《新媒體數據挖掘——基於R語言》旨在為計算傳播和計算社會科學領域的讀者提供學習R編程語言和開發平颱的捷徑，希望能夠填補這方麵的空白。“讓學習層次變得更宏觀，讓學習過程變得更輕鬆，讓學習所獲變得更通用”是《新媒體數據挖掘——基於R語言》的編寫理念與特色。《新媒體數據挖掘——基於R語言》首先剖析瞭社會科學研究範式的革新，介紹瞭R語言的作用和特點；然後係統講解瞭編程語言的通用學習方法和R語言的基本組成；最後展開實戰應用，包括網絡數據采集、文本挖掘和情感分析、社會網絡分析、社交編程平颱協作等非常有趣且有意義的內容。

《新媒體數據挖掘——基於R語言》適閤作為計算傳播和計算社會科學領域相關專業本科和研究生教材。高職高專學校也可以選用部分內容開展教學。《新媒體數據挖掘——基於R語言》還適閤作為計算傳播學和計算社會科學科研人員的自學書籍。

作者簡介

王小峰，深圳大學傳播學院網絡新媒體係教師，計算機博士（武漢理工大學）、公共管理博士後（武漢大學），網頁設計師、Redhat工程師。長期緻力於計算機編程語言的教學與實踐，精通C/C++、Java、PHP、JavaScript、Python、R、Go等十餘種編程語言。研究方嚮主要有機器學習（自然語言處理）、數學文化傳播、區塊鏈應用係統開發等。編寫《高級語言程序設計（C語言版）》《深度學習（人工智能）》《PHP動態網頁設計與網站架設》等教材七部，發錶國內外核心論文十餘篇。近三年來主持中國博士後科學基金項目“深圳市區級衛生信息平颱的集約化建設與第三方監管模式研究”（編號：2016M602370）、深圳市教育科學“十三五”規劃重點項目“基於全棧開源的創客課題體係的規劃與實施研究”(編號：zdfz16003)、科技創新課題“基於區塊鏈技術的電子文件保護研究”“基於聯盟區塊鏈網絡的電子病曆防篡改研究”等項目和課題。

前言/序言

隨著互聯網、大數據、人工智能等技術的發展，科學技術已經不再隻是人類社會的生活背景，而是真正關係到人類整體的生存與發展。多學科相結閤、以各學科的視角和專業背景促成人類的自由與科學的發展，是科研工作者在當今時代最重要的研究論題，這反映在人文社會科學領域，正是“哲學社會科學”。

如果說自然科學的使命是研究和預測宇宙，那麼哲學社會科學則是研究和預測人類社會。如今“計算範式”已經開始引發社會科學領域的科學範式革命，社會科學的實證研究已經形成“計算範式”與“計量範式”並駕齊驅的格局。

在這樣的時代與科研背景下，近些年“人人都要學編程”“人人都要會數據統計”在人文社會科學領域顯得越來越重要。由於具有開源、強大的網絡擴展功能，廣泛的社區支持，強大的數據處理/統計分析和可視化功能，R語言和Python語言儼然已成為當前人文社會科學領域的師生們必須掌握的學習和科研工具。該如何選擇這些軟件工具？如何真正地高效學習編程語言？如何以最簡單但又最標準、最正確的姿態選擇和學習一門網絡編程語言？這些對人文社會科學領域的師生們來說並不是一件簡單的事情。

筆者由於跨學科的背景：十年從事計算機領域的教學與開發工作，轉型並進入深圳大學新聞與傳播學院(人文社會科學領域)任教，在梳理人文社科、自然哲學的脈絡關係中得到瞭“讓世界在內心中逐漸閤理起來”的哲學愉悅；為滿足教學科研的需要，現將“十年來對計算機編程語言教與學的方法”和“對人文社科、自然哲學的統一觀察”一並寫成《新媒體數據挖掘——基於R語言》，作為這些年來工作與學習的總結。

《新媒體數據挖掘——基於R語言》的全部章節安排如下：

第1章首先從計算社會科學、計算傳播學在國內學術圈中的興起入題，介紹R語言的誕生、功能和在科研工作中的作用，對比幾種科研工具的優缺點，並強調“R是一種自帶編程環境的統計軟件，Python是一種自帶統計功能的編程語言”，以供讀者做齣符閤自己實際情況的正確選擇。

第2章以R為選擇對象，先引入R的核心軟件RGui，然後介紹R的綜閤IDE開發環境RStudio的下載、安裝和基本使用。

第3章和第4章本著“程序=數據+代碼”的宏觀架構，本著將“編程語言作為語言來學習”的核心主綫，選擇大傢熟悉的英語語法為參照物，對R語言的語法進行平緩、細緻、精確的講解，讓讀者能夠真正掌握一種學習任何編程語言的“萬能通用方法”：英語被稱為動詞的語言，名詞(相當於數據類型)和以動詞(相當於運算符)為核心的謂語構成簡單句(相當於錶達式語句)，為錶達更復雜的邏輯，英語語法又擴充齣瞭並列句、復閤句等語法結構(相當於流程控製)。讀者會發現，幾乎所有計算機語言的圖書，其前幾章必然是“數據類型”“運算符”“流程控製”，這其實就是《新媒體數據挖掘——基於R語言》提齣的“編程語言通用學習主綫”；主綫之外其他語法項目無外乎錦上添花，例如函數是為瞭提高代碼復用率，軟件包是為瞭引入第三方擴充。

第5章至第8章分彆講述如何用R的核心功能包和擴展功能包實現可視化繪圖、互聯網數據采集、文本挖掘與情感分析、社會網絡分析等功能，這些內容不僅非常有趣，而且非常有應用和科研意義。

第9章引入一個案例學習社交編程平颱GitHub，不僅加深對第6章中網絡數據采集的學習和應用，還可結閤附錄中的R軟件包的製作、發布與引入方法，真正認識到GitHub作為社交編程平颱的重要性和意義：程序員世界的重建巴彆塔。

在《新媒體數據挖掘——基於R語言》的編寫分工上，深圳大學傳播學院網絡與新媒體係的王小峰老師負責全書的規劃、主編與統稿，並參與撰寫瞭第1、第3、第4、第6、第9章；福建師範大學福清分校電子與信息工程學院的方捷老師撰寫瞭第2、第5、第7、第8章和全部附錄內容。

由於時間倉促、作者水平有限，《新媒體數據挖掘——基於R語言》難免存在遺漏與不足，編者敬請讀者批評與指正，我們將會在後續的工作中不斷地調整、改進。

深圳大學王小峰

2017年10月30日夜

於深圳市福田區安托山

新媒體生態下的數據洞察：深度解析與實戰應用在這信息爆炸的時代，新媒體已不再僅僅是傳播信息的渠道，更是一個龐大而復雜的生態係統，孕育著海量的數據。從社交媒體的每一次互動，到新聞報道的傳播軌跡，再到用戶行為的細微變化，都蘊藏著豐富的價值。然而，如何從這汪洋大海般的數據中提煉齣有意義的洞察，理解用戶需求，優化內容策略，甚至預判趨勢，已成為新媒體從業者、市場研究者以及每一個渴望在數字浪潮中站穩腳跟的個體所麵臨的關鍵挑戰。本書並非僅僅是對某種工具或技術的簡單羅列，而是緻力於提供一個係統性的框架，引領讀者深入理解新媒體數據挖掘的核心理念、關鍵技術與實戰方法。我們將一同探索，如何將看似雜亂無章的數據轉化為驅動決策的強大力量，如何在錯綜復雜的新媒體環境中，撥開迷霧，直擊本質，發現那些隱藏在數字錶麵下的深刻規律。第一部分：新媒體數據時代的基石——理解與準備在著手挖掘之前，我們必須先對新媒體數據及其所處的環境有一個清晰的認識。本部分將為你構建堅實的基礎：新媒體生態的演進與數據特徵：我們將迴溯新媒體的發展曆程，從早期的博客、論壇，到如今的社交媒體、短視頻平颱、直播，理解不同平颱的數據産生機製、格式特點以及相互之間的關聯。我們將深入探討新媒體數據的多樣性（文本、圖像、視頻、音頻、行為數據等）、實時性、海量性以及非結構化等核心特徵，並分析這些特徵對數據挖掘帶來的挑戰與機遇。數據挖掘的理論框架與方法論：在宏觀層麵，我們將介紹數據挖掘的經典理論，如分類、聚類、關聯規則、迴歸分析、異常檢測等，並闡述它們在新媒體數據分析中的適用場景。我們將強調數據預處理的重要性，包括數據清洗、特徵工程、數據轉換等關鍵步驟，這些步驟直接影響著後續分析的質量。構建你的數據分析工作流：本部分將引導你思考一個完整的數據分析流程，從問題的定義、數據的獲取、數據的探索性分析（EDA），到模型選擇、模型訓練、模型評估，再到結果的解釋與應用。我們將強調迭代式工作的理念，以及如何根據反饋不斷優化分析策略。第二部分：解鎖新媒體數據的密碼——核心挖掘技術與應用這一部分是本書的核心，我們將深入探討各種先進的數據挖掘技術，並結閤新媒體領域的具體應用場景，讓你掌握實操能力。文本挖掘的力量：理解輿情與用戶心聲：文本預處理與錶示：學習如何對海量文本數據進行分詞、去除停用詞、詞乾提取等操作，並掌握TF-IDF、詞嚮量（Word2Vec, GloVe, FastText）等文本錶示方法，將文本轉化為機器學習模型可識彆的數值形式。情感分析與觀點挖掘：掌握如何識彆文本中的情感傾嚮（正麵、負麵、中性），洞察用戶對産品、服務、事件的真實看法，為品牌聲譽管理、危機預警提供依據。主題建模（Topic Modeling）：探索LDA（Latent Dirichlet Allocation）等算法，自動發現文本數據中潛在的主題，瞭解熱門話題、內容趨勢，指導內容創作與傳播。關鍵詞提取與信息抽取：學習如何從大量文本中提取核心關鍵詞，以及如何抽取結構化信息（如人名、地名、組織機構、事件等），為信息檢索、知識圖譜構建打下基礎。網絡分析的視角：洞察連接與影響力：社交網絡圖的構建與分析：理解如何將用戶、內容、互動關係等錶示為網絡圖，並學習中心性度量（度中心性、介數中心性、接近中心性）、社群發現（如Louvain算法）、路徑分析等技術，識彆關鍵意見領袖（KOL）、社群結構與信息傳播路徑。內容傳播分析：追蹤信息在新媒體平颱上的傳播過程，分析傳播速度、範圍、影響因子，理解病毒式傳播的機製，優化內容分發策略。用戶行為分析：理解需求與優化體驗：用戶畫像構建：結閤用戶基本屬性、興趣偏好、行為軌跡等數據，構建精細化的用戶畫像，為個性化推薦、精準營銷提供支撐。用戶分群與細分市場：運用聚類算法將用戶劃分為不同的群體，理解不同群體的特徵與需求，製定差異化的運營策略。行為序列分析與預測：分析用戶在平颱上的行為路徑，預測用戶的下一步行為，優化用戶體驗，提高轉化率。內容推薦係統：精準觸達，連接價值：推薦算法的原理與類型：深入理解協同過濾（User-based, Item-based）、基於內容的推薦、混閤推薦等主流推薦算法的原理。在新媒體場景下的推薦實踐：探討如何在新聞、視頻、商品等新媒體內容推薦中應用這些算法，實現韆人韆麵的個性化內容分發。可視化呈現：讓數據說話：圖錶選擇與設計原則：學習如何選擇最適閤展示特定數據洞察的圖錶類型（柱狀圖、摺綫圖、散點圖、熱力圖、網絡圖等）。交互式可視化工具的應用：探索如何利用可視化工具將復雜的數據關係清晰、直觀地呈現齣來，便於理解和溝通。第三部分：從數據到價值——實戰案例與未來展望理論與技術最終要落地到實踐，本部分將通過豐富的案例，展示數據挖掘在新媒體領域的實際應用，並展望未來的發展方嚮。新媒體運營的智慧：內容生産策略優化：如何通過數據分析指導選題、內容形式、發布時間，提高內容的吸引力和傳播效果。用戶增長與留存：如何利用數據分析識彆用戶流失的風險，並製定有效的用戶挽留策略。廣告投放與營銷效果評估：如何通過數據分析優化廣告投放，精準觸達目標用戶，並評估營銷活動的ROI。品牌影響力與危機管理：品牌聲譽監測與分析：實時監測品牌在社交媒體上的討論，及時發現負麵信息，製定應對策略。輿情預警與傳播控製：預測潛在的輿情風險，並學習如何有效地控製負麵信息的傳播。案例研究：我們將選取不同類型的新媒體平颱（如社交媒體、新聞門戶、短視頻平颱）的真實或模擬案例，詳細解析如何運用前述的數據挖掘技術來解決實際問題，例如：分析某個熱門話題的用戶討論情感分布，瞭解公眾對某一事件的態度。構建一個社交媒體用戶畫像，識彆潛在的品牌擁護者或反對者。預測某條新聞的傳播路徑和最終影響力。優化短視頻的推薦算法，提高用戶觀看時長。新興技術與未來趨勢：展望人工智能、自然語言處理（NLP）、深度學習等新興技術在新媒體數據挖掘領域的應用前景，如更高級的文本理解、圖像識彆、視頻內容分析，以及如何構建更智能、更具預測性的新媒體生態係統。本書旨在成為你在新媒體數據挖掘道路上的得力助手，讓你不僅能夠理解“是什麼”，更能掌握“怎麼做”。通過理論的講解、技術的剖析和豐富的實戰案例，我們希望能夠激發你對數據分析的熱情，培養你運用數據洞察新媒體世界的敏銳度，並最終將這些能力轉化為推動新媒體行業發展、實現個人職業目標的重要工具。

用戶評價

評分☆☆☆☆☆

坦白說，在拿到這本書之前，我對R語言的學習一直停留在比較基礎的階段，對於如何將其應用到復雜的數據分析場景中感到有些力不從心。這本書的齣現，恰好彌補瞭我這一塊的知識短闆。作者在講解R語言的過程中，非常注重與新媒體業務場景的結閤，例如在講解數據框操作時，會結閤新聞報道的結構化數據；在講解文本挖掘時，會用微博、公眾號的文章作為案例。這種“學以緻用”的方式，讓我能夠更直觀地理解R語言的強大功能，也更能激發我的學習動力。我最喜歡的部分是關於內容推薦係統設計的探討，書中雖然沒有直接給齣完整的算法模型，但卻詳細介紹瞭構建推薦係統的基本思路和關鍵技術，比如如何計算物品之間的相似度，如何利用協同過濾算法進行用戶推薦等等，這些都為我後續獨立研究和開發提供瞭重要的理論基礎。這本書不僅僅是一本技術手冊，更像是一個引路人，讓我看到瞭R語言在新媒體數據分析領域的無限可能，也為我後續的學習和工作指明瞭方嚮。

評分☆☆☆☆☆

我一直認為，數據分析的價值最終體現在應用上，而這本書在這方麵做得尤為齣色。它不是那種隻會講理論，或者隻會展示幾個簡單示例的書籍，而是真正關注如何將R語言應用於解決新媒體領域的實際問題。書中所涵蓋的議題非常廣泛，從最基礎的數據采集和清洗，到更高級的文本情感分析、話題挖掘，再到對社交網絡傳播路徑的模擬分析，幾乎囊括瞭新媒體數據挖掘的各個環節。我尤其對書中關於輿情監測和負麵信息預警的部分印象深刻，它提供瞭一套完整的解決方案，包括如何構建關鍵詞庫、如何利用機器學習模型進行情感分類、如何實時追蹤熱點話題等等。這對於需要時刻關注品牌聲譽和應對危機管理的公關和市場部門來說，無疑是極具價值的。而且，書中的很多技術點都緊跟行業前沿，比如如何利用自然語言處理技術分析用戶評論，如何通過圖譜分析挖掘 KOL 影響力等，都為我們提供瞭新的思路和方法。這本書讓我深刻認識到，R語言在新媒體數據分析領域的作用遠不止於簡單的統計，它更是一種強大的工具，能夠幫助我們發現隱藏在數據中的洞察，驅動業務增長。

評分☆☆☆☆☆

這本書的齣現，簡直是給新媒體從業者和研究者吃下瞭一顆定心丸。我一直對新媒體背後海量數據的價值感到好奇，但又苦於沒有閤適的工具和方法去挖掘，市麵上講理論的書籍不少，但真正落地、能夠指導實操的卻鳳毛麟角。直到我翻開這本書，纔發現原來那些看似復雜的數據分析，在R語言的加持下，竟然變得如此清晰和可行。書中的案例分析非常貼近實際，從輿情監測到用戶畫像構建，再到內容推薦算法的初步探討，都緊緊圍繞著新媒體的痛點和需求展開。我尤其喜歡書中對於一些核心概念的解釋，比如用戶行為的量化、社交網絡的結構分析等等，作者都能夠用淺顯易懂的語言和清晰的邏輯來闡述，即使是初學者也能快速掌握。而且，書中的R語言代碼示例都寫得非常規範，可以直接復製粘貼運行，然後根據自己的數據進行調整，這大大降低瞭學習成本，也讓我這個R語言新手能夠快速上手，開始自己的數據探索之旅。總而言之，這本書就像一個得力的助手，為我打開瞭新媒體數據挖掘的大門，讓我看到瞭數據背後隱藏的巨大能量，也激發瞭我進一步深入研究的興趣。

評分☆☆☆☆☆

這本書的結構設計非常閤理，每一章都像是在解決一個新媒體領域中具體的數據分析問題，並且都有清晰的脈絡和嚴謹的邏輯。從數據獲取的渠道和方法，到數據的預處理和清洗，再到各種可視化和建模技術的應用，作者都循序漸進地進行瞭講解。我特彆欣賞書中對於不同類型數據的處理策略，例如對於文本數據，是如何進行分詞、詞性標注、去除停用詞等；對於用戶行為數據，是如何進行特徵工程和特徵選擇。這些細節的處理，往往是決定數據分析成敗的關鍵。而且，書中給齣的R語言代碼都附帶瞭詳細的注釋，使得代碼的邏輯一目瞭然，即使是不熟悉R語言的讀者，也能通過閱讀注釋來理解代碼的意圖。我嘗試著將書中的一些文本分析方法應用於我們自己的內容創作過程中，比如通過詞頻分析來瞭解用戶關注的熱點，通過情感分析來評估內容的影響力，這些都幫助我更科學地指導內容生産，提升瞭內容的吸引力和傳播效果。這本書讓我看到瞭數據分析的實用價值，也讓我對R語言在實際工作中的應用有瞭更深刻的認識，是一款非常值得推薦的工具書。

評分☆☆☆☆☆

不得不說，這本書的寫作風格非常接地氣，沒有那種晦澀難懂的學術術語堆砌，更多的是一種分享和指導的語氣，仿佛作者就在我身邊，一步步地帶領我遨遊在新媒體數據分析的海洋裏。我印象最深的是關於用戶畫像構建的那一部分，書中詳細介紹瞭如何利用用戶在社交平颱上的互動行為、興趣標簽、發布內容等多種維度的數據，通過R語言進行聚類和特徵提取，最終形成立體化的用戶畫像。這個過程的講解非常細緻，從數據清洗、特徵工程到模型選擇和評估，都給齣瞭詳實的步驟和代碼。我嘗試著按照書中的方法，對我們團隊負責的某個社交賬號的用戶數據進行瞭一次畫像分析，結果不僅驗證瞭書中的理論，更讓我對我們的目標用戶有瞭更深刻的理解，為後續的內容策略製定提供瞭寶貴的參考。書中的一些數據可視化圖錶也做得非常齣色，能夠直觀地展示分析結果，比如用戶活躍度趨勢、內容偏好分布等等，這些都極大地提升瞭報告的可讀性和說服力。對於那些想從零開始學習新媒體數據挖掘，或者希望提升自己數據分析能力的朋友來說，這本書絕對是值得入手的一本好書。