駕馭文本:文本的發現 組織和處理

駕馭文本:文本的發現 組織和處理 pdf epub mobi txt 電子書 下載 2025

Grant S. Ingersoll(格蘭特·英格索爾),Thomas S. Morton(托馬斯·莫頓),Andrew L. Farris(安德魯·法裏斯) 著,王斌 譯
圖書標籤:
  • 文本挖掘
  • 自然語言處理
  • 信息檢索
  • 文本分析
  • 數據科學
  • 機器學習
  • 文本處理
  • 知識發現
  • 信息組織
  • 文本工程
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 電子工業齣版社
ISBN:9787121252303
版次:1
商品編碼:11737329
品牌:Broadview
包裝:平裝
開本:16開
齣版時間:2015-07-01
用紙:膠版紙
頁數:340
正文語種:中文

具體描述

內容簡介

文本處理是目前互聯網內容應用(如搜索引擎、推薦引擎)的關鍵技術。本書涵蓋瞭文本處理概念和技術的多個方麵,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識彆、分類、聚類、標簽生成、摘要、問答等。本書的特點在於通過實例來理解文本處理的這些概念和技術,讀者利用現有的開源工具就可以自己實現這些實例。

作者簡介

王斌,博士,中國科學院信息工程研究所研究員,博士生導師,研究方嚮為信息檢索與自然語言處理。主持科研項目20餘項,發錶學術論文120餘篇,譯有《信息檢索導論》、《大數據:互聯網大規模數據挖掘與分布式處理》、《機器學習實戰》、《Mahout實戰》等書籍。現為中國中文信息學會理事、信息檢索專委會、社會媒體處理專委會及語言與知識計算專業委員會委員,《中文信息學報》編委,中國計算機學會高級會員及中文信息處理專委會委員。

目錄

第1章 開始駕馭文本 1
11 駕馭文本重要的原因 2
12 預覽:一個基於事實的問答係統 4
121 嗨,弗蘭肯斯坦醫生 5
13 理解文本很睏難 8
14 駕馭的文本 11
15 文本及智能應用:搜索及其他 13
151 搜索和匹配 13
152 抽取信息 14
153 對信息分組 15
154 一個智能應用 15
16 小結 15
17 相關資源 16
第2章 駕馭文本的基礎 17
21 語言基礎知識 18
211 詞語及其類彆 19
212 短語及子句 20
213 詞法 21
22 文本處理常見工具 23
221 字符串處理工具 23
222 詞條及切詞 23
223 詞性標注 25
224 詞乾還原 27
225 句子檢測 29
226 句法分析和文法 31
227 序列建模 33
23 從常見格式文件中抽取內容並做預處理 34
231 預處理的重要性 35
232 利用Apache Tika抽取內容 37
24 小結 39
25 相關資源 40
第3章 搜索 41
31 搜索和多麵示例:Amazoncom 42
32 搜索概念入門 44
321 索引內容 45
322 用戶輸入 47
323 利用嚮量空間模型對文檔排名 51
324 結果展示 54
33 Apache Solr搜索服務器介紹 57
331 首次運行Solr 58
332 理解Solr中的概念 59
34 利用Apache Solr對內容構建索引 63
341 使用XML構建索引 64
342 利用Solr和Apache Tika對內容進行抽取和索引 66
35 利用Apache Solr來搜索內容 69
351 Solr查詢輸入參數 71
352 抽取內容的多麵展示 74
36 理解搜索性能因素 77
361 數量判定 77
362 判斷數量 81
37 提高搜索性能 82
371 硬件改進 82
372 分析的改進 83
373 提高查詢性能 85
374 其他評分模型 88
375 提升Solr性能的技術 89
38 其他搜索工具 91
39 小結 93
310 相關資源 93
第4章 模糊字符串匹配 94
41 模糊字符串匹配方法 96
411 字符重閤度度量方法 96
412 編輯距離 99
413 n元組編輯距離 102
42 尋找模糊匹配串 105
421 在Solr中使用前綴來匹配 105
422 利用trie樹進行前綴匹配 106
423 使用n元組進行匹配 111
43 構建模糊串匹配應用 112
431 在搜索中加入提前輸入功能 113
432 搜索中的查詢拼寫校正 117
433 記錄匹配 122
44 小結 127
45 相關資源 128
第5章 命名實體識彆 129
51 命名實體的識彆方法 131
511 基於規則的實體識彆 131
512 基於統計分類器的實體識彆 132
52 基於OpenNLP的基本實體識彆 133
521 利用OpenNLP尋找人名 134
522 OpenNLP識彆的實體解讀 136
523 基於概率過濾實體 137
53 利用OpenNLP進行深度命名實體識彆 137
531 利用OpenNLP識彆多種實體類型 138
532 OpenNLP識彆實體的背後機理 141
54 OpenNLP的性能 143
541 結果的質量 144
542 運行性能 145
543 OpenNLP的內存使用 146
55 對新領域定製OpenNLP實體識彆 147
551 訓練模型的原因和方法 147
552 訓練OpenNLP模型 148
553 改變建模輸入 150
554 對實體建模的新方法 152
56 小結 154
57 進一步閱讀材料 155
第6章 文本聚類 156
61 Google News中的文檔聚類 157
62 聚類基礎 158
621 三種聚類的文本類型 158
622 選擇聚類算法 160
623 確定相似度 161
624 給聚類結果打標簽 162
625 聚類結果的評估 163
63 搭建一個簡單的聚類應用 165
64 利用Carrot2對搜索結果聚類 166
641 使用Carrot2API 166
642 使用Carrot2對Solr的搜索結果聚類 168
65 利用Apache Mahout對文檔集聚類 171
651 對聚類的數據進行預處理 172
652 K-means聚類 175
66 利用Apache Mahout進行主題建模 180
67 考察聚類性能 183
671 特徵選擇與特徵約簡 183
672 Carrot2的性能和質量 186
673 Mahout基準聚類算法 187
68 緻謝 192
69 小結 192
610 參考文獻 193
第7章 分類及標注 195
71 分類及歸類概述 197
72 分類過程 200
721 選擇分類機製 201
722 識彆文本分類中的特徵 202
723 訓練數據的重要性 203
724 評估分類器性能 206
725 將分類器部署到生産環境 208
73 利用Apache Lucene構建文檔分類器 209
731 利用Lucene對文本進行分類 210
732 為MoreLikeThis分類器準備訓練數據 212
733 訓練MoreLikeThis分類器 214
734 利用MoreLikeThis分類器對文檔進行分類 217
735 測試MoreLikeThis分類器 220
736 將MoreLikeThis投入生産環境 223
74 利用Apache Mahout訓練樸素貝葉斯分類器 223
741 利用樸素貝葉斯算法進行文本分類 224
742 準備訓練數據 225
743 留存測試數據 229
744 訓練分類器 229
745 測試分類器 231
746 改進自舉過程 232
747 將Mahout貝葉斯分類器集成到Solr 234
75 利用OpenNLP進行文檔分類 238
751 迴歸模型及最大熵文檔分類 239
752 為最大熵文檔分類器準備訓練數據 241
753 訓練最大熵文檔分類器 242
754 測試最大熵文檔分類器 248
755 生産環境下的最大熵文檔分類器 249
76 利用Apache Solr構建標簽推薦係統 250
761 為標簽推薦收集訓練數據 253
762 準備訓練數據 255
763 訓練Solr標簽推薦係統 256
764 構建推薦標簽 258
765 對標簽推薦係統進行評估 261
77 小結 263
78 參考文獻 265
第8章 構建示例問答係統 266
81 問答係統基礎知識 268
82 安裝並運行QA代碼 270
83 一個示例問答係統的架構 271
84 理解問題並産生答案 274
841 訓練答案類型分類器 275
842 對查詢進行組塊分析 279
843 計算答案類型 280
844 生成查詢 283
845 對候選段落排序 285
85 改進係統的步驟 287
86 本章小結 287
87 相關資源 288
第9章 未駕馭的文本:探索未來前沿 289
91 語義、篇章和語用:探索高級NLP 290
911 語義 291
912 篇章 292
913 語用 294
92 文檔及文檔集自動摘要 295
93 關係抽取 298
931 關係抽取方法綜述 299
932 評估 302
933 關係抽取工具 303
94 識彆重要內容和人物 303
941 全局重要性及權威度 304
942 個人重要性 305
943 與重要性相關的資源及位置 306
95 通過情感分析來探測情感 306
951 曆史及綜述 307
952 工具及數據需求 308
953 一個基本的極性算法 309
954 高級話題 311
955 用於情感分析的開源庫 312
96 跨語言檢索 313
97 本章小結 315
98 相關資源 315

精彩書摘

  這顯著地提高瞭web搜索引擎及更小型搜索引擎的門檻。盡管大的互聯網引擎能夠訪問Google一樣的資源,但是小係統往往沒法訪問大量查詢日誌或像HTML鏈接一樣的文檔結構,也沒法使用其他用戶相關反饋機製來提供對用戶而言很有價值的信息。花時間構建復雜方案之前,我們給齣有助於改進結果的兩個關鍵事項。
  1.用戶訓練:有時需要給用戶展示齣,通過學習一些關鍵語法技巧(如短語等)可以將檢索結果提高到何種程度。
  2.外部知識:是否存在某個指示信息使得一篇或多篇文檔比其他文檔更重要?例如,也許該文檔是CEO寫的,或者100個人中有99人將其標為有用,或者該文檔的邊緣收益是對比文檔的五倍。不管是什麼,都要想辦法將這個知識編碼到係統當中並作為搜索的一個因素。如果搜索係統不容許這麼做,那麼可能是時候構建一個新係統瞭!
  除瞭用戶訓練和使用索引的先驗知識之外,還有很多辦法可以提高查詢速度和精度。首先,在大部分情況下,查詢詞項之間應該是AND而非0R的關係。例如,用戶輸人的是Jumping Jack Flash,那麼假設不是搜索短語的話,該查詢應該轉換成的等價形式為Jumping AND Jack AND Flash而不是。通過使用JAND,所有的查詢詞項都應該匹配。當然這種做法幾乎可以肯定會提高正確率,但是可能會降低召迴率。由於采用這種做法隻需要對更少的文檔進行評分,因此其速度肯定會更快。使用AND可能會導緻零結果查詢,但是如果想要結果的話之後可以迴退到一個0R查詢。對於簡單查詢AND可能不會産生足夠的結果的一個唯一可能是文檔集非常小(大概來講,少於200000篇文檔)。
  注意 這裏的AND使用並不意味著所有的搜索引擎都支持這種語法,但是Solr使用這種語法,因此為簡單解釋起見我們就保留這樣的描述。
  ……

前言/序言


駕馭文本:文本的發現、組織與處理 在信息爆炸的時代,我們每天都被海量的文本信息所包圍——從新聞報道、學術論文,到社交媒體上的討論、個人筆記,再到代碼庫中的注釋和文檔。這些文本是知識的載體,是思想的結晶,更是我們理解世界、進行決策的重要依據。然而,文本的浩瀚如煙海,如何纔能有效地從中發現所需、將其梳理清晰、並加以靈活運用,成為瞭一個日益嚴峻的挑戰。 《駕馭文本:文本的發現、組織與處理》正是應運而生,旨在為讀者提供一套係統性的方法論和實用的工具,幫助您在紛繁復雜的文本世界中遊刃有餘,將零散的信息轉化為有價值的知識,讓文本成為您高效工作、深入學習的強大助推器。本書並非直接提供某個領域的知識乾貨,而是著眼於“如何處理文本”這個更根本性的問題,它提供的是一套普適性的能力,讓您能夠更有效地去獲取、理解和應用任何領域的文本信息。 第一篇:文本的發現——在信息洪流中定位寶藏 在信息爆炸的今天,獲取信息並非難事,難的是找到真正有價值、與您需求契閤的信息。本篇將深入探討文本的發現策略,幫助您從海量的文本數據中精準地“淘金”。 信息需求的界定與提煉: 在開始搜索之前,清晰地界定您到底需要什麼信息至關重要。我們將指導您如何將模糊的疑問轉化為具體、可操作的搜索目標,理解需求背後的深層動機,從而更有針對性地進行信息搜集。這包括但不限於:從宏觀到微觀的問題拆解,識彆核心關鍵詞,預判信息的來源和類型,以及考慮信息的時效性、權威性等。 高效的搜索策略與技巧: 掌握高效的搜索技巧是發現文本信息的第一道關卡。本書將係統介紹各種搜索工具的運用,從搜索引擎的高級語法(如布爾邏輯、精確匹配、排除關鍵詞)到專業數據庫(如圖書館數據庫、學術搜索引擎、行業報告平颱)的使用方法。我們會深入分析不同搜索場景下的最佳實踐,例如如何為學術研究設計搜索關鍵詞,如何為商業決策尋找市場情報,如何為個人興趣探索相關文獻。 信息源的評估與篩選: 並非所有信息都值得信賴。在信息發現的過程中,學會辨彆信息源的可靠性、權威性和客觀性是必不可少的。本篇將提供一套評估信息源的標準,幫助您區分事實與觀點,識彆偏見與誤導,從而過濾掉低質量、不準確的信息。我們將從作者的專業背景、齣版物的聲譽、引用的來源、論證的邏輯等方麵進行詳盡的分析。 主動的信息獲取模式: 除瞭被動搜索,我們還將引導讀者建立主動的信息獲取習慣。這包括訂閱高質量的資訊源、利用RSS Feed、關注行業專傢和意見領袖、以及參與專業社群的討論。通過這些方式,您可以及時獲取最新的信息動態,並從中發現潛在的、未被直接搜索到的寶貴內容。 利用新興技術輔助發現: 隨著人工智能技術的發展,一些新的文本發現工具應運而生。本書將探討如何利用這些工具,例如智能推薦係統、主題建模工具等,來拓展您的信息視野,發現您可能從未主動尋找但卻高度相關的內容。 第二篇:文本的組織——構建清晰的知識框架 發現信息隻是第一步,如何將這些零散的文本信息有效地組織起來,構建一個清晰、邏輯嚴謹的知識框架,是提升信息利用效率的關鍵。本篇將聚焦於文本的組織方法。 核心概念的識彆與梳理: 在閱讀和整理文本時,首先需要識彆齣其中包含的核心概念、關鍵術語和重要觀點。我們將介紹係統性的方法來提取這些要素,並理解它們之間的相互關係。這可能涉及到對定義、分類、層級結構的分析。 文本結構的拆解與分析: 不同的文本有其獨特的結構,理解並拆解這些結構有助於我們更好地把握內容的邏輯脈絡。我們將學習如何分析文章的論證結構、章節劃分、段落邏輯等,從而理解作者的寫作意圖和信息傳遞路徑。 信息分類與標簽體係的建立: 為瞭便於檢索和復用,為文本信息建立有效的分類和標簽體係至關重要。本書將探討不同的分類維度(如主題、時間、來源、重要性等),以及如何設計一套個性化的、易於維護的標簽係統。我們將介紹層級分類、關鍵詞標簽、甚至語義標簽等多種方式。 筆記與摘要的有效方法: 學習如何高效地做筆記和寫摘要,是鞏固理解、提煉精髓的直接手段。我們將介紹康奈爾筆記法、思維導圖、以及不同類型的摘要(如描述性摘要、評價性摘要)的技巧,並強調如何根據不同的目的來調整筆記和摘要的側重點。 知識圖譜與關聯網絡的構建: 對於更復雜的信息體係,構建知識圖譜或關聯網絡能幫助您看到信息之間深層次的聯係。本篇將介紹如何從文本中提取實體和關係,並利用工具或手工方式來可視化這些聯係,從而形成更宏觀的知識視圖。 個性化知識庫的設計與實踐: 最終,我們將引導讀者如何將上述方法融會貫通,設計並構建一個屬於自己的個性化知識庫。這可能是一個數字化的筆記係統,一個精心組織的文檔庫,甚至是一個個人維基。關鍵在於,這個知識庫能夠真正服務於您的學習、工作和思考需求。 第三篇:文本的運用——讓信息服務於行動 擁有瞭發現和組織文本的能力,我們就能更有效地將這些信息轉化為實際的行動和産齣。本篇將側重於文本的運用。 信息檢索與迴顧的高效化: 構建好的知識庫,其價值在於能夠快速、準確地檢索和迴顧所需信息。我們將分享高效的信息檢索策略,以及如何通過迴顧和復習,加深對知識的理解和記憶。 論證與說理的文本構建: 無論是撰寫學術論文、項目報告,還是商業計劃書,都需要清晰的邏輯和有力的論證。本書將指導您如何從已有的文本信息中提取論據,構建嚴謹的論證結構,並用清晰、有說服力的語言錶達齣來。 知識遷移與創新思維的激發: 真正的文本駕馭能力在於將已有的知識進行遷移和重組,從而激發新的想法和創新。我們將探討如何跨領域地藉鑒文本信息,如何通過類比、組閤等方式産生新的認知,從而推動個人的學習和工作創新。 解決問題與輔助決策: 文本信息是解決問題和輔助決策的重要依據。本書將展示如何利用收集、組織和理解的文本信息,來分析問題、評估方案,並最終做齣更明智的決策。 內容創作與知識分享: 掌握瞭文本的發現、組織和處理,您就能更自信地進行內容創作,並將自己的知識和見解分享給他人。我們將提供一些關於寫作、編輯、甚至內容傳播的實用建議,讓您的文本産齣更具價值和影響力。 持續學習與迭代優化: 文本的處理能力不是一蹴而就的,而是一個持續學習和迭代優化的過程。本書將鼓勵讀者不斷嘗試新的工具和方法,反思自己的文本處理習慣,並根據實際需求不斷調整和完善自己的能力體係。 《駕馭文本:文本的發現、組織與處理》是一本實踐導嚮的書籍,它不是提供現成的答案,而是賦予您發現和創造答案的能力。通過學習本書,您將不再被海量文本所淹沒,而是能夠主動地駕馭它們,讓信息成為您洞察世界、實現目標的強大工具。無論您是學生、研究人員、企業人士,還是任何渴望提升信息素養的個體,《駕馭文本》都將是您在這個知識時代不可或缺的夥伴。

用戶評價

評分

最近我一直在思考,在這個信息爆炸的時代,我們如何纔能不被海量的信息所淹沒,而是能夠主動地去選擇、去理解、去利用這些信息。這本書的名字,尤其是“駕馭”二字,讓我眼前一亮。我希望它能夠提供一些能夠幫助我“駕馭”文本的實用技巧和方法。我非常期待“文本的發現”這一部分,它是否會介紹一些能夠幫助我們從海量信息中挖掘齣有價值內容的策略?例如,如何快速定位文章的核心論點,或者如何辨彆信息的真僞?“組織”文本,則讓我聯想到如何更好地構建自己的知識體係,如何將零散的信息進行歸類和整閤,形成更有條理的認知。而“處理”文本,則更像是對信息進行加工和提煉,我希望能夠學習到一些關於文本分析、信息總結,甚至是如何將文本信息轉化為實際行動的技巧。總而言之,我希望這本書能夠成為我提升信息素養的得力助手,讓我不再被動地接受信息,而是能夠主動地去駕馭信息。

評分

坦白說,我買這本書是因為它的名字在書店裏特彆顯眼,那種“駕馭”二字的力度,讓我覺得它應該能解決我生活中一些實際的睏擾。我平時工作需要閱讀大量的報告和資料,經常感到力不從心,信息太多,抓不住重點,而且讀完之後很多內容很快就忘記瞭。我希望這本書能夠提供一些思維上的轉變,或者一些具體的操作方法,讓我能夠更聰明地閱讀,而不是更辛苦地閱讀。我特彆想知道,它會不會討論到如何區分信息的價值,哪些信息是真正重要的,哪些隻是噪音?以及,讀完一篇很長的文章,如何快速地提取齣它的精髓,而不是被細節淹沒?“文本的發現”聽起來很神秘,我希望它能教我一些“火眼金睛”的本領,快速定位有價值的內容。“組織”和“處理”則更像是“修煉內功”的部分,我希望能夠學到一套係統的方法,讓自己在麵對大量文本時,能夠有條不紊,遊刃有餘。我期待這本書能夠給我帶來一種“豁然開朗”的感覺,讓我真正掌握“駕馭”文本的能力。

評分

這本書的封麵設計非常吸引人,那種沉靜的藍色和金色的字體,仿佛預示著一場深入的知識探索。拿到手中,它的紙張質感也很不錯,翻閱時帶著一種舒適的沙沙聲,這種觸感在如今普遍追求輕薄的時代顯得尤為難得。我一直對“文本”這個概念感到既熟悉又陌生,每天都在與文字打交道,但真正去思考它的本質、它的生成過程、以及我們如何更有效地利用它,卻鮮少有係統的梳理。這本書的名字,尤其是“駕馭”二字,給我一種掌控感,讓我覺得讀完之後,自己能夠更遊刃有餘地處理信息爆炸的時代。我期待它能提供一些新穎的視角,或者一些實用的方法論,幫助我擺脫在海量信息中迷失方嚮的睏境。我希望作者能夠深入淺齣地講解那些看似抽象的理論,並用貼近生活的例子來佐證,這樣纔能真正打動讀者,讓我覺得“原來文本還有這一層含義”、“原來處理文本可以這樣”。畢竟,知識的學習最終還是要落到應用上,我希望這本書能成為我通往更高效信息處理之路的指路明燈,而不是僅僅停留在理論層麵。

評分

我最近一直在思考如何更有效地管理自己的知識體係,尤其是在這個信息爆炸的時代,每天接觸到的信息量是驚人的,而如何將這些零散的信息整閤、提煉,並最終轉化為自己的知識,變成一個持續迭代的循環,一直是我頭疼的問題。我希望這本書能在這方麵提供一些啓發。我特彆感興趣的是“文本的發現”這一部分,它會不會涉及到一些信息檢索的技巧,或者如何從大量的文本中快速找到核心要點的方法?“組織”這個詞也讓我非常期待,是不是會有關於如何構建個人知識庫,或者如何進行高效筆記整理的章節?“處理”則更加實用,我希望能學習到一些關於文本分析、信息歸納,甚至是如何利用工具來輔助文本處理的技巧。我並非專業的學者,更傾嚮於那些能夠快速上手、立竿見影的方法,所以如果書中能包含一些案例分析,或者提供一些可操作的步驟,那就更好瞭。我希望這本書能像一位經驗豐富的嚮導,帶領我穿越信息迷霧,找到屬於自己的知識寶藏。

評分

我一直覺得,我們生活在一個被文本包圍的世界,從社交媒體的碎片化信息,到學術論文的嚴謹論證,文本無處不在,但我們對它的理解卻往往停留在字麵意義。這本書的名字,特彆是“發現”、“組織”和“處理”這幾個關鍵詞,觸動瞭我內心深處的好奇。我很好奇,“發現”文本的奧秘,是否意味著能夠看到文字背後的意圖、結構和邏輯?“組織”文本,又將如何幫助我構建更清晰的思維框架,或者梳理我雜亂的思路?而“處理”文本,則讓我聯想到如何更有效地消化信息,甚至是如何通過文本來影響他人。我希望這本書能為我打開一扇新的大門,讓我不僅僅是閱讀文本,更是與文本進行一場深刻的對話。我期待作者能夠分享一些獨特的見解,可能是關於文本的演變,可能是關於不同類型文本的解讀策略,亦或是關於如何用文本來解決現實問題。我希望這本書能提供一些“乾貨”,讓我讀完之後,能夠真正感受到自己的認知在提升,能力在增強。

評分

本書不錯,值得購買,自我意見

評分

學習下,文本分析,不錯的學習資料

評分

文本處理是目前互聯網內容應用(如搜索引擎、推薦引擎)的關鍵技術。本書涵蓋瞭文本處理概念和技術的多個方麵,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識彆、分類、聚類、標簽生成、摘要、問答等。本書的特點在於通過實例來理解文本處理的這些概念和技術,讀者利用現有的開源工具就可以自己實現這些實例。

評分

學習自然語言處理用的,希望能好好學習。

評分

還沒來得及看呢,不過應該很好

評分

學習自然語言處理用的,希望能好好學習。

評分

書籍是人類進步的階梯啊。。。

評分

公司選擇性購買,給同事們看的,物流很快,應該會有幫助

評分

挺好的,,,,,,,,,

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有