計算傳播領域尤其是新媒體數據挖掘方嚮一直缺乏係統的教材,《新媒體數據挖掘——基於R語言》旨在為計算傳播和計算社會科學領域的讀者提供學習R編程語言和開發平颱的捷徑,希望能夠填補這方麵的空白。“讓學習層次變得更宏觀,讓學習過程變得更輕鬆,讓學習所獲變得更通用”是《新媒體數據挖掘——基於R語言》的編寫理念與特色。《新媒體數據挖掘——基於R語言》首先剖析瞭社會科學研究範式的革新,介紹瞭R語言的作用和特點;然後係統講解瞭編程語言的通用學習方法和R語言的基本組成;最後展開實戰應用,包括網絡數據采集、文本挖掘和情感分析、社會網絡分析、社交編程平颱協作等非常有趣且有意義的內容。
《新媒體數據挖掘——基於R語言》適閤作為計算傳播和計算社會科學領域相關專業本科和研究生教材。高職高專學校也可以選用部分內容開展教學。《新媒體數據挖掘——基於R語言》還適閤作為計算傳播學和計算社會科學科研人員的自學書籍。
作者簡介
王小峰,深圳大學傳播學院網絡新媒體係教師,計算機博士(武漢理工大學)、公共管理博士後(武漢大學),網頁設計師、Redhat工程師。長期緻力於計算機編程語言的教學與實踐,精通C/C++、Java、PHP、JavaScript、Python、R、Go等十餘種編程語言。研究方嚮主要有機器學習(自然語言處理)、數學文化傳播、區塊鏈應用係統開發等。編寫《高級語言程序設計(C語言版)》《深度學習(人工智能)》《PHP動態網頁設計與網站架設》等教材七部,發錶國內外核心論文十餘篇。近三年來主持中國博士後科學基金項目“深圳市區級衛生信息平颱的集約化建設與第三方監管模式研究”(編號:2016M602370)、深圳市教育科學“十三五”規劃重點項目“基於全棧開源的創客課題體係的規劃與實施研究”(編號:zdfz16003)、科技創新課題“基於區塊鏈技術的電子文件保護研究”“基於聯盟區塊鏈網絡的電子病曆防篡改研究”等項目和課題。
第1章 為什麼學習R語言 1
1.1 R是什麼 2
1.1.1 R是一款優秀的現代科研軟件 2
1.1.2 R的優勢與不足 3
1.1.3 R和Python的區彆 3
1.2 計算社會科學的興起——以計算傳播學為例 4
1.2.1 什麼是計算社會科學 4
1.2.2 計算傳播學的起源和概念 7
1.3 R在計算傳播學中的典型應用 9
1.3.1 用R進行文本分析初探 9
1.3.2 互聯網在綫數據收集 10
1.3.3 社會網絡分析 12
1.4 總結與提高 13
1.5 習題 14
第2章 R語言開發環境 15
2.1 R的獲取、安裝和基本使用 16
2.1.1 RGui的下載與安裝 16
2.1.2 RGui的使用介紹 19
2.1.3 示例:使用R Commander實現統計功能 21
2.1.4 R的內置數據集和擴展功能包 26
2.1.5 R的幫助係統 27
2.1.6 R的工作空間和工作目錄 27
2.2 R的IDE開發環境——RStudio 27
2.2.1 RStudio的下載和安裝 28
2.2.2 RStudio的最簡標準操作 28
2.2.3 RStudio的工作界麵 31
2.2.4 RStudio的用戶自定義配置 32
2.3 示例:我的第一個R項目“網頁爬蟲” 32
2.3.1 組織項目需求 33
2.3.2 新建項目環境 33
2.3.3 編寫應用程序代碼並運行 34
2.3.4 執行代碼並根據實際結果修改和再次運行 35
2.4 總結與提高 37
2.5 習題 38
第3章 R語言基礎——數據 39
3.1 無障礙學習編程語言的兩個訣竅 40
3.1.1 從“哲學”的角度瞭解編程語言 40
3.1.2 從“語言學”的角度學習編程語言語法 41
3.2 R的基本數據類型(數值、字符、邏輯) 42
3.2.1 基本數據類型 42
3.2.2 數據類型的兩個屬性:模式和長度 43
3.2.3 兩個特殊常量 44
3.3 R的復閤數據類型 45
3.3.1 嚮量 46
3.3.2 矩陣 46
3.3.3 數組 47
3.3.4 數據框 48
3.3.5 列錶 49
3.3.6 因子 51
3.3.7 時間序列 52
3.4 數據的導入和導齣 54
3.4.1 數據的導入 55
3.4.2 數據的導齣 59
3.5 總結與提高 59
3.6 習題 59
第4章 R語言基礎——代碼 61
4.1 R代碼的基本單位:語句=數據+運算符; 62
4.1.1 基本運算符 62
4.1.2 錶達式、語句、語句塊 65
4.2 R的流程控製 66
4.2.1 順序結構 66
4.2.2 選擇/分支結構 67
4.2.3 循環結構 70
4.3 R代碼復用——函數和過程 73
4.3.1 “模塊化”編程思想與函數 73
4.3.2 函數的定義與調用 75
4.3.3 過程的定義與調用 76
4.4 總結與提高 77
4.5 習題 77
第5章 R繪圖——數據可視化呈現 79
5.1 概述 80
5.2 R的繪圖函數 81
5.2.1 圖形窗口繪圖操作函數(圖形的創建和保存) 82
5.2.2 R圖形參數 83
5.2.3 高級繪圖函數 86
5.2.4 低級繪圖函數 89
5.3 常用的R可視化功能包 91
5.3.1 ggplot2功能包 91
5.3.2 rCharts功能包 93
5.3.3 plotly功能包 95
5.3.4 map功能包 96
5.4 總結與提高 97
5.5 習題 98
第6章 網絡數據程序化采集 99
6.1 網絡數據的獲取途徑及相關基礎知識 100
6.1.1 Web數據的獲取途徑 100
6.1.2 Web的結構與原理 101
6.2 使用R收集Web數據 106
6.2.1 獲取靜態Web內容 107
6.2.2 網絡數據的應用級API采集(以豆瓣為例) 109
6.2.3 獲取動態Web內容 111
6.3 總結與提高 114
6.4 習題 114
第7章 文本挖掘和情感分析 115
7.1 R環境下的文本挖掘 116
7.1.1 中文分詞 117
7.1.2 分詞包jiebaR的使用 118
7.1.3 詞雲包wordcloud2的使用 127
7.2 情感分析 129
7.2.1 情感分析概述 129
7.2.2 情感分析的簡單實現 131
7.3 總結與提高 133
7.4 習題 133
第8章 社會網絡分析 135
8.1 網絡社會與社會網絡分析 136
8.1.1 社會的構成 136
8.1.2 網絡社會與社會網絡分析 137
8.1.3 現代網絡社會與社會網絡分析 140
8.1.4 網絡與關係的描述 142
8.2 社會網絡分析的發展、意義和步驟 143
8.2.1 社會網絡分析的三個方嚮 143
8.2.2 社會網絡分析的幾個主要步驟 144
8.2.3 社會網絡分析的幾個重要指標 144
8.3 社會網絡分析的常用工具 146
8.3.1 NodeXL的使用 146
8.3.2 R的iGraph功能包 147
8.3.3 UCINET 149
8.4 總結與提高 149
8.5 習題 150
第9章 社交編程平颱:GitHub 151
9.1 自己架設PHP實驗站點並深入探索RCurl功能包 152
9.1.1 基於PHP網頁服務器端技術架設網站實驗環境 152
9.1.2 深入探索RCurl包 157
9.2 挖掘和分析社交編程平颱GitHub的信息 162
9.2.1 GitHub的基本使用 162
9.2.2 探索GitHub API 165
9.3 總結與提高 175
9.4 習題 175
附錄 177
附錄1 計算社會科學宣言 177
附錄2 計算傳播學:宣言與版圖 182
附錄3 服務器版RStudio的安裝與配置(基於Ubuntu14.04) 191
附錄4 RStudio的常用快捷鍵 192
附錄5 使用devtools包從GitHub中安裝R包 196
附錄6 使用Rtools自製R擴展軟件包 197
參考文獻 203
隨著互聯網、大數據、人工智能等技術的發展,科學技術已經不再隻是人類社會的生活背景,而是真正關係到人類整體的生存與發展。多學科相結閤、以各學科的視角和專業背景促成人類的自由與科學的發展,是科研工作者在當今時代最重要的研究論題,這反映在人文社會科學領域,正是“哲學社會科學”。
如果說自然科學的使命是研究和預測宇宙,那麼哲學社會科學則是研究和預測人類社會。如今“計算範式”已經開始引發社會科學領域的科學範式革命,社會科學的實證研究已經形成“計算範式”與“計量範式”並駕齊驅的格局。
在這樣的時代與科研背景下,近些年“人人都要學編程”“人人都要會數據統計”在人文社會科學領域顯得越來越重要。由於具有開源、強大的網絡擴展功能,廣泛的社區支持,強大的數據處理/統計分析和可視化功能,R語言和Python語言儼然已成為當前人文社會科學領域的師生們必須掌握的學習和科研工具。該如何選擇這些軟件工具?如何真正地高效學習編程語言?如何以最簡單但又最標準、最正確的姿態選擇和學習一門網絡編程語言?這些對人文社會科學領域的師生們來說並不是一件簡單的事情。
筆者由於跨學科的背景:十年從事計算機領域的教學與開發工作,轉型並進入深圳大學新聞與傳播學院(人文社會科學領域)任教,在梳理人文社科、自然哲學的脈絡關係中得到瞭“讓世界在內心中逐漸閤理起來”的哲學愉悅;為滿足教學科研的需要,現將“十年來對計算機編程語言教與學的方法”和“對人文社科、自然哲學的統一觀察”一並寫成《新媒體數據挖掘——基於R語言》,作為這些年來工作與學習的總結。
《新媒體數據挖掘——基於R語言》的全部章節安排如下:
第1章首先從計算社會科學、計算傳播學在國內學術圈中的興起入題,介紹R語言的誕生、功能和在科研工作中的作用,對比幾種科研工具的優缺點,並強調“R是一種自帶編程環境的統計軟件,Python是一種自帶統計功能的編程語言”,以供讀者做齣符閤自己實際情況的正確選擇。
第2章以R為選擇對象,先引入R的核心軟件RGui,然後介紹R的綜閤IDE開發環境RStudio的下載、安裝和基本使用。
第3章和第4章本著“程序=數據+代碼”的宏觀架構,本著將“編程語言作為語言來學習”的核心主綫,選擇大傢熟悉的英語語法為參照物,對R語言的語法進行平緩、細緻、精確的講解,讓讀者能夠真正掌握一種學習任何編程語言的“萬能通用方法”:英語被稱為動詞的語言,名詞(相當於數據類型)和以動詞(相當於運算符)為核心的謂語構成簡單句(相當於錶達式語句),為錶達更復雜的邏輯,英語語法又擴充齣瞭並列句、復閤句等語法結構(相當於流程控製)。讀者會發現,幾乎所有計算機語言的圖書,其前幾章必然是“數據類型”“運算符”“流程控製”,這其實就是《新媒體數據挖掘——基於R語言》提齣的“編程語言通用學習主綫”;主綫之外其他語法項目無外乎錦上添花,例如函數是為瞭提高代碼復用率,軟件包是為瞭引入第三方擴充。
第5章至第8章分彆講述如何用R的核心功能包和擴展功能包實現可視化繪圖、互聯網數據采集、文本挖掘與情感分析、社會網絡分析等功能,這些內容不僅非常有趣,而且非常有應用和科研意義。
第9章引入一個案例學習社交編程平颱GitHub,不僅加深對第6章中網絡數據采集的學習和應用,還可結閤附錄中的R軟件包的製作、發布與引入方法,真正認識到GitHub作為社交編程平颱的重要性和意義:程序員世界的重建巴彆塔。
在《新媒體數據挖掘——基於R語言》的編寫分工上,深圳大學傳播學院網絡與新媒體係的王小峰老師負責全書的規劃、主編與統稿,並參與撰寫瞭第1、第3、第4、第6、第9章;福建師範大學福清分校電子與信息工程學院的方捷老師撰寫瞭第2、第5、第7、第8章和全部附錄內容。
由於時間倉促、作者水平有限,《新媒體數據挖掘——基於R語言》難免存在遺漏與不足,編者敬請讀者批評與指正,我們將會在後續的工作中不斷地調整、改進。
深圳大學 王小峰
2017年10月30日夜
於深圳市福田區安托山
不得不說,這本書的寫作風格非常接地氣,沒有那種晦澀難懂的學術術語堆砌,更多的是一種分享和指導的語氣,仿佛作者就在我身邊,一步步地帶領我遨遊在新媒體數據分析的海洋裏。我印象最深的是關於用戶畫像構建的那一部分,書中詳細介紹瞭如何利用用戶在社交平颱上的互動行為、興趣標簽、發布內容等多種維度的數據,通過R語言進行聚類和特徵提取,最終形成立體化的用戶畫像。這個過程的講解非常細緻,從數據清洗、特徵工程到模型選擇和評估,都給齣瞭詳實的步驟和代碼。我嘗試著按照書中的方法,對我們團隊負責的某個社交賬號的用戶數據進行瞭一次畫像分析,結果不僅驗證瞭書中的理論,更讓我對我們的目標用戶有瞭更深刻的理解,為後續的內容策略製定提供瞭寶貴的參考。書中的一些數據可視化圖錶也做得非常齣色,能夠直觀地展示分析結果,比如用戶活躍度趨勢、內容偏好分布等等,這些都極大地提升瞭報告的可讀性和說服力。對於那些想從零開始學習新媒體數據挖掘,或者希望提升自己數據分析能力的朋友來說,這本書絕對是值得入手的一本好書。
評分坦白說,在拿到這本書之前,我對R語言的學習一直停留在比較基礎的階段,對於如何將其應用到復雜的數據分析場景中感到有些力不從心。這本書的齣現,恰好彌補瞭我這一塊的知識短闆。作者在講解R語言的過程中,非常注重與新媒體業務場景的結閤,例如在講解數據框操作時,會結閤新聞報道的結構化數據;在講解文本挖掘時,會用微博、公眾號的文章作為案例。這種“學以緻用”的方式,讓我能夠更直觀地理解R語言的強大功能,也更能激發我的學習動力。我最喜歡的部分是關於內容推薦係統設計的探討,書中雖然沒有直接給齣完整的算法模型,但卻詳細介紹瞭構建推薦係統的基本思路和關鍵技術,比如如何計算物品之間的相似度,如何利用協同過濾算法進行用戶推薦等等,這些都為我後續獨立研究和開發提供瞭重要的理論基礎。這本書不僅僅是一本技術手冊,更像是一個引路人,讓我看到瞭R語言在新媒體數據分析領域的無限可能,也為我後續的學習和工作指明瞭方嚮。
評分這本書的結構設計非常閤理,每一章都像是在解決一個新媒體領域中具體的數據分析問題,並且都有清晰的脈絡和嚴謹的邏輯。從數據獲取的渠道和方法,到數據的預處理和清洗,再到各種可視化和建模技術的應用,作者都循序漸進地進行瞭講解。我特彆欣賞書中對於不同類型數據的處理策略,例如對於文本數據,是如何進行分詞、詞性標注、去除停用詞等;對於用戶行為數據,是如何進行特徵工程和特徵選擇。這些細節的處理,往往是決定數據分析成敗的關鍵。而且,書中給齣的R語言代碼都附帶瞭詳細的注釋,使得代碼的邏輯一目瞭然,即使是不熟悉R語言的讀者,也能通過閱讀注釋來理解代碼的意圖。我嘗試著將書中的一些文本分析方法應用於我們自己的內容創作過程中,比如通過詞頻分析來瞭解用戶關注的熱點,通過情感分析來評估內容的影響力,這些都幫助我更科學地指導內容生産,提升瞭內容的吸引力和傳播效果。這本書讓我看到瞭數據分析的實用價值,也讓我對R語言在實際工作中的應用有瞭更深刻的認識,是一款非常值得推薦的工具書。
評分這本書的齣現,簡直是給新媒體從業者和研究者吃下瞭一顆定心丸。我一直對新媒體背後海量數據的價值感到好奇,但又苦於沒有閤適的工具和方法去挖掘,市麵上講理論的書籍不少,但真正落地、能夠指導實操的卻鳳毛麟角。直到我翻開這本書,纔發現原來那些看似復雜的數據分析,在R語言的加持下,竟然變得如此清晰和可行。書中的案例分析非常貼近實際,從輿情監測到用戶畫像構建,再到內容推薦算法的初步探討,都緊緊圍繞著新媒體的痛點和需求展開。我尤其喜歡書中對於一些核心概念的解釋,比如用戶行為的量化、社交網絡的結構分析等等,作者都能夠用淺顯易懂的語言和清晰的邏輯來闡述,即使是初學者也能快速掌握。而且,書中的R語言代碼示例都寫得非常規範,可以直接復製粘貼運行,然後根據自己的數據進行調整,這大大降低瞭學習成本,也讓我這個R語言新手能夠快速上手,開始自己的數據探索之旅。總而言之,這本書就像一個得力的助手,為我打開瞭新媒體數據挖掘的大門,讓我看到瞭數據背後隱藏的巨大能量,也激發瞭我進一步深入研究的興趣。
評分我一直認為,數據分析的價值最終體現在應用上,而這本書在這方麵做得尤為齣色。它不是那種隻會講理論,或者隻會展示幾個簡單示例的書籍,而是真正關注如何將R語言應用於解決新媒體領域的實際問題。書中所涵蓋的議題非常廣泛,從最基礎的數據采集和清洗,到更高級的文本情感分析、話題挖掘,再到對社交網絡傳播路徑的模擬分析,幾乎囊括瞭新媒體數據挖掘的各個環節。我尤其對書中關於輿情監測和負麵信息預警的部分印象深刻,它提供瞭一套完整的解決方案,包括如何構建關鍵詞庫、如何利用機器學習模型進行情感分類、如何實時追蹤熱點話題等等。這對於需要時刻關注品牌聲譽和應對危機管理的公關和市場部門來說,無疑是極具價值的。而且,書中的很多技術點都緊跟行業前沿,比如如何利用自然語言處理技術分析用戶評論,如何通過圖譜分析挖掘 KOL 影響力等,都為我們提供瞭新的思路和方法。這本書讓我深刻認識到,R語言在新媒體數據分析領域的作用遠不止於簡單的統計,它更是一種強大的工具,能夠幫助我們發現隱藏在數據中的洞察,驅動業務增長。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有