隨著互聯網技術的快速發展和廣泛應用,網絡媒體已經成為重要的信息傳播和交流平颱,同時也是網絡輿情形成和傳播的主要載體。網絡輿情通常由突發社會公共事件觸發,反映瞭人們對某一公共事件所錶達的認知、態度、情感和傾嚮性,具有虛擬化、快捷化、多元化、開放性、匿名性及互動性等特點。隨著網絡輿論影響力的增強,網絡輿情已經成為各級政府瞭解社情民意的重要窗口。 隨著網絡輿論對社會和公眾影響的不斷增大,齣現瞭網絡炒作、造謠傳謠等不良的現象,損害瞭網絡媒體公信力,擾亂瞭網絡正常傳播秩序,産生瞭錯誤的輿論導嚮,極易引發社會群體性事件。因此,加強互聯網管理和輿論治理非常重要和必要。 國傢大力推進網絡輿情監控體係建設,加強對網絡輿情監測和引導。網絡輿情監測係統在互聯網輿情監測中發揮瞭重要的作用,其係統核心技術就是網絡輿情分析技術。網絡輿情分析技術主要涉及網絡信息采集技術、網絡輿情傳播機製、話題檢測與跟蹤技術、文本分割技術、文本情感分析技術等。本書主要介紹瞭網絡輿情分析所涉及的主要方法和關鍵技術,全書共有7章,分彆介紹瞭網絡輿情概論、網絡信息采集技術、微博網絡信息傳播機製、網絡論壇輿情傳播機製、話題檢測與跟蹤技術、文本分割技術和文本情感分析技術。在介紹主要模型和算法時,還給齣瞭模型和算法的實驗驗證,以便讀者加深對模型和算法的理解。本書可作為網絡空間安全學科相關專業的研究生和本科生教材,也可作為從事相關工作的科技人員及管理人員的參考書。
目 錄
第1章 網絡輿情概論 1
1.1 網絡輿情概述 1
1.1.1 輿情與輿論 1
1.1.2 網絡輿情 2
1.1.3 網絡輿情演化 3
1.1.4 網絡輿情實例 5
1.2 網絡輿論空間治理 8
1.2.1 網絡炒作問題 8
1.2.2 網絡大V問題 9
1.2.3 政務微博作用 10
1.3 網絡輿情傳播平颱 13
1.3.1 微博網絡 13
1.3.2 網絡論壇 15
1.4 網絡輿情分析技術 16
1.4.1 網絡輿情監測係統 16
1.4.2 網絡信息采集技術 17
1.4.3 話題檢測與跟蹤技術 20
1.4.4 文本情感分析技術 22
第2章 網絡信息采集技術 25
2.1 引言 25
2.2 搜索引擎概念 25
2.2.1 通用搜索引擎 25
2.2.2 主題搜索引擎 27
2.3 網絡蜘蛛概念 29
2.3.1 基本概念 29
2.3.2 通用蜘蛛 29
2.3.3 主題蜘蛛 32
2.4 網頁搜索算法 34
2.4.1 網頁特徵選取 34
2.4.2 網頁搜索算法 36
2.4.3 鏈接分級搜索 41
2.5 網頁相似度計算 43
2.5.1 嚮量空間模型 44
2.5.2 相似度計算 45
2.6 主題蜘蛛組成 48
2.6.1 係統結構 48
2.6.2 主題確立模塊 49
2.6.3 爬行模塊 49
2.6.4 相似度計算模塊 53
2.6.5 搜索策略模塊 53
2.6.6 係統界麵 54
第3章 微博網絡信息傳播機製 56
3.1 引言 56
3.2 微博用戶轉發特性 57
3.2.1 轉發行為特性 57
3.2.2 轉發特性分析 61
3.3 微博轉發行為預測 66
3.3.1 預測算法 66
3.3.2 算法驗證 72
3.4 微博轉發峰值分析 76
3.4.1 時間序列概念 76
3.4.2 峰值特性分析 77
3.5 微博意見領袖識彆 87
3.5.1 識彆方法 87
3.5.2 算法驗證 89
第4章 網絡論壇輿情傳播機製 94
4.1 引言 94
4.2 網絡論壇輿情形成模型 95
4.2.1 網絡論壇結構 95
4.2.2 輿情形成模型 96
4.2.3 模型驗證 98
4.3 網絡論壇意見領袖識彆 100
4.3.1 論壇有嚮網絡圖模型 101
4.3.2 論壇意見領袖識彆算法 102
4.3.3 算法驗證 103
4.4 網絡水軍熱帖檢測 106
4.4.1 熱點話題特徵提取 107
4.4.2 水軍熱帖檢測算法 110
4.4.3 算法驗證 110
4.5 網絡水軍賬號檢測 112
4.5.1 檢測算法 113
4.5.2 算法驗證 116
第5章 話題檢測與跟蹤技術 119
5.1 引言 119
5.2 基本概念 120
5.2.1 TDT目標和任務 120
5.2.2 TDT語料 122
5.2.3 TDT評價指標 122
5.3 相關技術 124
5.3.1 錶示模型 124
5.3.2 相似度計算 125
5.3.3 特徵項選取 126
5.3.4 文本聚類 127
5.3.5 文本分類 130
5.4 話題檢測算法 133
5.4.1 K-MEANS算法 133
5.4.2 模糊聚類方法 135
5.4.3 蟻群聚類算法 138
5.4.4 算法驗證 139
5.5 話題跟蹤算法 145
5.5.1 KNN算法及改進 145
5.5.2 算法驗證 146
5.6 熱點話題檢測 148
5.6.1 檢測方法 148
5.6.2 算法驗證 151
第6章 文本分割技術 155
6.1 引言 155
6.2 基本概念 156
6.2.1 文本分割點 156
6.2.2 文本分割方法 157
6.2.3 文本分割算法評價 159
6.3 基於LDA模型的文本分割 161
6.3.1 LDA模型 161
6.3.2 LDA模型改進 165
6.3.3 相似度計算 167
6.3.4 邊界識彆策略 168
6.3.5 算法驗證 169
6.4 基於VSM模型的文本分割 174
6.4.1 特徵項選取 174
6.4.2 語義段分割方法 176
6.4.3 算法驗證 179
第7章 文本情感分析技術 181
7.1 引言 181
7.2 基本概念 182
7.2.1 文本情感分析層次 182
7.2.2 文本情感分析方法 184
7.2.3 語言建模方法 184
7.3 句子情感分析方法 185
7.3.1 主題句識彆方法 185
7.3.2 主觀句識彆方法 189
7.3.3 主觀關係識彆方法 192
7.3.4 算法驗證 195
7.4 段落情感分析方法 198
7.4.1 語義段句子情感標注 199
7.4.2 語義段句子權重計算 199
7.4.3 語義段情感計算方法 200
7.4.4 算法驗證 202
7.5 文本情感分析模型 205
7.5.1 文本情感模型 205
7.5.2 模型參數估計 208
7.5.3 語言模型評價 209
7.5.4 算法驗證 211
參考文獻 214
前 言
隨著互聯網技術的快速發展和廣泛應用,網絡媒體已經成為重要的信息傳播和交流平颱,網絡媒體被稱為繼報紙、雜誌、廣播、電視四大傳統媒體之後的第五媒體,人們通過網絡媒體提供的新聞、微博、論壇、博客等網絡服務可以快捷地交流和共享信息資源,實現廣泛的溝通交流,受眾不僅僅是信息的接收者,同時也是信息的傳播者。因此,網絡媒體成為民眾錶達民意、交流情感的主要窗口,同時也是網絡輿情形成和傳播的載體。
網絡輿情通常由突發社會公共事件觸發,反映瞭人們對某一公共事件所錶達的認知、態度、情感和傾嚮性,具有虛擬化、快捷化、多元化、開放性、匿名性及互動性等特點,主要通過網絡新聞、微博、論壇帖子、博客博文等網絡媒體進行傳播,其中微博網站和網絡論壇是主要的信息傳播平颱。隨著網絡輿論影響力的增強,網絡輿情已經成為各級政府瞭解社情民意、改進工作作風、提高執政能力的重要窗口。
隨著網絡輿論對社會和公眾影響的不斷增大,齣現瞭以網絡炒作為營生的網絡公關公司、網絡推手、網絡水軍等。網絡公關公司以營利為目的,為瞭炒作某個話題、人物或産品,雇傭瞭大量的網絡水軍,在網絡推手的組織下,短時期內在互聯網的各大網絡論壇上大量地發布煽動性帖子,並通過跟帖、轉帖及編發評論等方式炮製網絡熱點事件,營造虛假民意,從而形成虛假的網絡輿情。網絡公關公司、網絡推手、網絡水軍等形成瞭灰色利益鏈,他們在實現“客戶”利益的同時也獲得自身利益。隨著微博的興起,網絡水軍把造謠和傳謠的主要陣地從網絡論壇轉至微博,形成瞭網絡推手、網絡水軍造勢和網絡大V的轉發影響力相結閤的網絡謠言製造和傳播的灰色利益鏈,個彆網絡大V在突發重大公共事件中發錶不當言論,或者以“求闢謠”、“求證”等方式故意擴散謠言,導緻不明真相的網民盲目跟風,損害瞭網絡媒體公信力,擾亂瞭網絡正常傳播秩序,産生瞭錯誤的輿論導嚮,危及政府的公信力,極易引發社會群體性事件。
中央高度重視互聯網管理和輿論治理,在《中共中央關於製定國民經濟和社會發展第十三個五年規劃的建議》中指齣,“牢牢把握正確輿論導嚮,健全社會輿情引導機製,傳播正能量。加強網上思想文化陣地建設,實施網絡內容建設工程,發展積極嚮上的網絡文化,淨化網絡環境”。國傢通過開展打擊網絡謠言等專項行動,依法懲戒瞭利用互聯網進行造謠惑眾的“秦火火”、“立二拆四”等網絡大V,使不法網絡大V和網絡謠言遭到壓製性打擊,一些被稱為“推牆派”、“鑿船派”、“體製婊”的網絡負能量群體被有效遏製,網絡輿論空間逐步呈現風清氣正之勢。
由於網絡輿情已成為各級政府瞭解社情民意的重要窗口,因此國傢大力推進網絡輿情監控體係建設,各級宣傳主管部門以及主流新聞媒體等都設立瞭網絡輿情監測機構,加強對網絡輿情監測和引導。在網絡輿情監測中,麵對海量的網絡信息,必須藉助於信息技術來實現網絡輿情監測的自動化和智能化。於是,各種網絡輿情監測係統便應運而生,其係統核心技術就是網絡輿情分析技術。
網絡輿情分析技術是一種大數據應用,首先需要對網絡輿情來源的網絡信息進行實時監測和采集,然後對采集到的網絡信息進行處理和分析,主要涉及網絡信息采集技術、網絡輿情傳播機製、話題檢測與跟蹤技術、文本分割技術、文本情感分析技術等。網絡輿情分析技術屬於交叉性技術,涉及自然語言處理、計算語言學、人工智能、機器學習、信息檢索、數據挖掘等多個研究領域和學科方嚮。
本書主要介紹網絡輿情分析所涉及的主要方法和關鍵技術,全書共有7章,第1章為網絡輿情概論,主要介紹網絡輿情概述、網絡輿論空間治理、網絡輿情傳播平颱、網絡輿情分析技術等內容;第2章為網絡信息采集技術,主要介紹搜索引擎概念、網絡蜘蛛概念、網頁搜索算法、網頁相似度計算、主題蜘蛛組成等內容;第3章為微博網絡信息傳播機製,主要介紹微博用戶轉發特性、微博轉發行為預測、微博轉發峰值分析、微博意見領袖識彆等內容;第4章為網絡論壇輿情傳播機製,主要介紹網絡論壇輿情形成模型、網絡論壇意見領袖識彆、網絡水軍熱帖檢測、網絡水軍賬號檢測等內容;第5章為話題檢測與跟蹤技術,主要介紹話題檢測與跟蹤的基本概念、相關技術、話題檢測算法、話題跟蹤算法、熱點話題檢測等內容;第6章為文本分割技術,主要介紹文本分割的基本概念、基於LDA模型的文本分割、基於VSM模型的文本分割等內容;第7章為文本情感分析技術,主要介紹文本情感分析的基本概念、句子情感分析方法、段落情感分析方法、文本情感分析模型等內容。
本書在介紹主要模型和算法時,還給齣瞭模型和算法的實驗驗證,以便讀者加深對相關模型和算法的理解。本書可以作為網絡空間安全學科相關專業的研究生和本科生教材,對從事相關工作的科技人員及管理人員也能起到很好的參考和啓示作用。
由於網絡輿情分析技術比較復雜,本書很難覆蓋相關技術的方方麵麵,難免存在不足和疏漏之處,歡迎廣大讀者批評指正。
本書的主要內容來自於作者及其研究團隊的工作總結,張博、羅知林、徐會傑、石磊、楊惠、樊娜及彭鼕等同誌參與瞭相關研究工作,並為本書的撰寫做齣瞭貢獻,對此錶示感謝。
最後,感謝西北工業大學教材專著齣版基金對本書的大力資助。
作 者
於西北工業大學
我是一個偏嚮定性研究的學者,起初對這種偏嚮“技術實現”的書籍興趣不大,但朋友極力推薦後我還是翻閱瞭。結果發現,這本書的理論基礎構建得異常紮實,它並非隻是停留在操作層麵。作者對“輿情”這一概念的定義、演變,以及其背後的社會心理學動因的探討,非常深刻。它將冰冷的技術手段,融入瞭對人性的洞察之中。比如,書中關於“沉默的螺鏇”在網絡環境下的變體分析,讓我對當前的信息傳播生態有瞭更深層次的理解。它巧妙地將傳播學理論與最新的數據挖掘算法結閤起來,形成瞭一種跨學科的分析視角。這本書的價值在於,它不隻教你“如何做”,更教你“為什麼這樣做是閤理的”,這對於希望建立自己分析體係的人來說,是最好的指路明燈。
評分說實話,我對這種技術類的書籍通常持保留態度,很多都會陷入晦澀難懂的公式和算法堆砌,但《網絡輿情分析技術》完全顛覆瞭我的印象。它的敘述方式非常注重“應用場景”,這一點我尤其欣賞。比如,書中詳細拆解瞭如何利用自然語言處理技術來量化公眾的“滿意度”和“抵觸情緒”,並且給齣瞭可以直接操作的步驟和代碼示例(雖然我不是程序員齣身,但看懂其中的邏輯已經足夠瞭)。我特彆喜歡它探討的“預警機製”部分,它不再是簡單地告訴你“數據很重要”,而是教你如何設定閤理的閾值,在危機發生前就捕捉到蛛絲馬跡。這對於任何需要進行品牌維護或危機公關的專業人士來說,都是無價之寶。這本書的深度和廣度兼具,讀完後,我立刻嘗試將書中的一些方法應用到我正在負責的一個小項目中,效果立竿見影,數據分析的效率和準確性都有瞭顯著提升。
評分拿到這本書時,我最大的疑慮是它會不會太“時效性”強,轉眼就過時瞭。然而,閱讀體驗錶明,這本書的內核是非常穩固和長遠的。它花瞭大量篇幅講解的是基礎算法原理和邏輯構建,而不是依賴於某個特定平颱的熱門功能。我尤其欣賞其中關於“話題聚類”和“情感傾嚮性詞典構建”的章節,這些是任何輿情分析工作都繞不開的基礎功。作者沒有迴避技術本身的復雜性,而是用清晰的類比和層層遞進的解釋,讓一個非技術背景的讀者也能跟上節奏。這本書的節奏感把握得極好,既有宏觀的戰略思考,也有微觀的戰術執行指導。它更像是一本“方法論的基石”,而不是一本“工具箱”,確保讀者在未來麵對新的技術浪潮時,依然能保持分析的定力與準確性。
評分這是一本能讓人産生“豁然開朗”感覺的書。在我看來,目前市麵上很多同類書籍都在強調“大數據”,但真正有效的方法論卻很少。這本書的獨特之處在於,它並沒有被海量的數據所裹挾,而是精準地抓住瞭“有效信息”的提煉過程。它對“信息繭房”效應的分析,以及如何通過交叉驗證和多源數據融閤來打破這種局限,簡直是神來之筆。我過去常苦惱於如何從海量的社交媒體噪音中,篩選齣真正具有代錶性的聲音,這本書提供瞭一套嚴謹的過濾和權重分配機製。更讓我驚喜的是,它還涉及到瞭倫理和法律的邊界問題,這體現瞭作者的遠見和責任感。這本書的排版和圖示設計也做得非常用心,復雜的流程圖和概念圖,讓人一目瞭然,極大地減輕瞭理解的負擔。
評分這本書簡直是為我量身定製的!我最近一直在研究社交媒體上的熱門話題,總覺得欠缺一個係統的方法論。這本書的結構非常清晰,從基礎的數據抓取到復雜的文本挖掘,每一步都講解得深入淺齣。特彆是它對不同類型輿情事件的案例分析,簡直是教科書級彆的。我記得有一章專門講瞭如何識彆“情緒漂移”,這對我過去工作中遇到的很多睏惑都提供瞭全新的視角。作者顯然在這方麵下瞭大功夫,不僅有理論支撐,還有大量實戰經驗的總結。讀完後,我感覺自己對整個輿情分析的流程都有瞭一個鳥瞰式的理解,不再是零散的知識點瞭。作者的文筆流暢自然,讀起來完全沒有那種枯燥的技術手冊感,反而像是一位資深的專傢在與你麵對麵交流,循循善誘地引導你進入這個領域。這本書的價值,在於它提供的不僅僅是“工具”,更是一種“思維框架”。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有