辭書研究文庫:計算詞典學論

辭書研究文庫:計算詞典學論 pdf epub mobi txt 電子書 下載 2025

章宜華 著
圖書標籤:
  • 計算詞典學
  • 詞典研究
  • 語言學
  • 計算語言學
  • 術語學
  • 知識工程
  • 信息科學
  • 自然語言處理
  • 語料庫語言學
  • 詞匯語義學
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 上海辭書齣版社
ISBN:9787532638307
版次:1
商品編碼:11197162
包裝:平裝
開本:32開
齣版時間:2013-02-01
用紙:膠版紙
頁數:458
字數:389000
正文語種:中文

具體描述

內容簡介

  《辭書研究文庫:計算詞典學論》從辭書現代化技術發展和理論研究的進程可見,計算詞典學是一項復雜的、跨學科的交叉理論體係,計算機信息處理技術、數據庫技術、人工智能技術、多媒體技術和網絡技術對詞典學的研究和詞典編纂技術的滲透越來越快、越來越深入。《辭書研究文庫:計算詞典學論》的修訂或重寫就是要把近十年來我國和西方主要國傢對這些現代技術在詞典學理論和實踐中的應用進行係統的調查和梳理,弄清計算詞典學得以形成的理論基礎和社會基礎以及其研究方嚮和研究任務,以期建立計算詞典學的理論框架,促進我國詞典學研究和詞典編纂時間盡快與現代數字技術相結閤。

內頁插圖

目錄

“辭書研究文庫”總序 曹先擢
前言
第一章 計算詞典學概略
第一節 計算詞典學的基礎
一、計算詞典學的源流
二、計算詞典學的相關理論
三、計算詞典學的相關方法
第二節 計算詞典學的性質特徵
一、計算詞典學的理論特徵
二、計算詞典學的實踐特徵
三、計算詞典學的學科交叉融閤
第三節 計算詞典學與機器詞典
一、機器翻譯的研究
二、機器詞典的開發
三、機器詞典與機讀人用詞典
第四節 計算詞典學的國際背景
一、國際學術環境
二、與計算詞典學相關的國際學術組織
三、語料和數據文本編碼的國際標準

第二章 語料庫與語料庫詞典學
第一節 語料庫概說
第二節 語料庫的基本特徵
一、語料庫的目的性
二、語料庫語料的真實性
三、語料庫語料的典型性
四、語料庫語料的機讀性
五、語料庫語料的標準性
第三節 語料庫的類型
一、按語言種類劃分
二、按語言方式劃分
三、按語料的載體劃分
四、按語言的時域劃分
五、按語言的用途劃分
六、按語料的流通劃分
七、按語料的分布劃分
八、按語料的處理劃分
第四節 語料庫的基本功能
一、語料管理功能
二、語料索引功能
三、語料統計功能
四、語料標注功能
五、語音分析功能
第五節 語料庫的建設與發展
一、語料庫的曆史背景
二、語料庫的發展階段
三、國內語料庫的繁榮發展
四、語料庫發展趨勢
五、小結

第三章 電子詞庫的理論研究與實體構建
第一節 詞庫的理論概說
第二節 詞庫的相對關係
第三節 詞庫的基本內容和特色
第四節 主要詞庫的性能特徵
一、詞網
二、知網

第四章 詞典語料的精加工與數據化
第一節 詞匯屬性速描
一、詞匯屬性速描的主要功能
二、詞匯屬性速描的描述方式
三、詞匯速描的現狀與問題
第二節 英語詞匯數據庫
一、英語詞匯數據庫的設計理念與方法
二、英語詞匯數據庫的容量與數據類型
三、英語詞匯數據庫的信息結構
四、DANTE數據庫的數據結構
第三節 語料庫模式分析
一、語料庫模式分析的理論構想
二、語料庫模式的注釋結構及構造
三、模式分析與模式錶徵
第四節 框架網——詞匯數據庫
一、框架網的設計思想
……
第五章 計算機技術與詞典編纂的創新
第六章 電子詞典的類型與功能設置
第七章 電子詞典數據庫及其內部結構
第八章 電子詞典編纂與製作的原則
第九章 光盤與芯片電子詞典
第十章 網絡電子詞典
第十一章 電子詞典的現狀與發展趨勢
主要參考文獻

精彩書摘

  Boguraev &Briscoe(1989:2)認為;“雖然我們的工作並不是編纂詞典,但有一點是明確的,無論從組織結構還是從錶述方式來看,機讀詞典與普通詞典是大不一樣的,計算詞典學的研究範圍還應包括利用計算機技術開發供人使用的詞典數據。”Lender(1991:48)認為,計算詞典學與計算語言學的直接關係在於“詞典也是一種專傢係統”,因為“它或者包含瞭某一種語言一般詞匯的知識,或者包含瞭某一專科領域詞匯的知識”。在自然語言處理領域,為提高係統的處理能力需要更加豐富的詞匯信息,計算詞典學的目標就是好好利用已有的機讀詞典,使其成為自動化語言處理係統潛在的詞匯知識源泉。
  Atkins&2ampolll(1994)認為,計算詞典學負責自然語言處理中的電子詞典的設計、編纂和使用。另一方麵,它還包括詞典編纂的技術和輔助工具的設計,包括從各種語言資源中提取例證用數據庫的形式來存儲相關的語言信息,詞典條目的編纂和編輯,以及辭書産品的發行或傳播等。
  Badia&Sauri;(2000)認為,計算詞典學的主要任務之一是為自然語言處理構建具有信息性、連貫性和經濟性的詞庫。這種資源需求是因為所謂的語料庫語言學的齣現,它把大量的原始語料作為自然語言處理的輸入,而最後又不得不放棄這種“玩具式工具(toytools)的構想”。然而,從頭開始構建計算機詞庫是一件既費時又費力的事情,那麼在計算詞典學的框架下利用現有的詞典資源來建設詞庫便是一個不錯的選擇。因此,自20世紀80年代開始人們便開始利用機讀詞典自動提取詞匯知識信息。
  Hanks(1998)認為,計算詞典學的一個核心問題是語詞的意義能否通過使用實例來驗證。語料分析使我們堅信瞭這樣一個觀點,每一個詞的常規用法都可以在語料中得到檢驗,這些使用常規可以與詞的意義常規和信念(belief)結閤起來。不過他也認為,現在還沒有統一的標準來判斷什麼是常規用法、什麼是拓展用法(如修辭或比喻用法、語義框架等)(Hanks2009)。從上述的專傢觀點來看,計算詞典學與計算語言學、計算詞匯學有著密切聯係,有些研究內容相互交織,難以明確分隔,因為他們研究的主要對象——詞匯及其語言屬性都是一樣的,隻是研究的角度、方法、重點和目的略有不同。從形成曆史來看,計算詞典學的任務首先是解決自然語言處理所需的機讀詞典問題;接著是紙質詞典內容的“電子化”和“機讀性”問題;其三是研究詞典數據庫的建設,以及數據的統計分析、自動存取、自動識彆、自動轉換成各類詞典的問題;其四是研究如何使用計算機輔助詞典的編纂、編輯和修訂,力爭在不遠的將來達到詞典編纂和修訂半自動化的目標,最終嚮基本自動化的方嚮發展;其五是對現有的大型商業詞典進行電子化改造,實現大型詞典的發行無紙化,或設計編纂專門供人閱讀的電子詞典或網絡詞典。在詞典數據處理和編纂數字化方麵,除眾所周知的計算機輔助詞典編纂之外,還有真實連續文本的分析以及詞匯索引和提取。通過索引的方法調查和分析有關語詞在自然話語中的分布,以便考察詞的語法、語義和語用等特徵,獲取詞項的功能和用法信息,同時獲取語詞義項分布或劃分的根據。當然,詞匯索引也是詞典配例的可靠資源。目前,也有人嘗試利用語料庫建立詞典數據庫,在微觀數據結構的基礎上生成詞典。總的來說,計算詞典學研究如何實現詞典語料處理電子化,詞典編纂半自動化或自動化,詞典編排形式化,詞典信息數字化和詞典查檢智能化,以及詞典信息錶述多媒體化。研究的主要內容是:語料的搜集與處理、義項劃分的數據支持(詞頻統計、語義統計、詞的配價結構統計)、綜閤語義分析、例句的提取、輔助詞典編纂、詞典數據庫及其標引、語料庫和數據庫的管理、詞典信息統計、詞典編纂管理、詞典導齣接口等。
  ……

前言/序言


辭書研究文庫:計算詞典學論 內容簡介 《辭書研究文庫:計算詞典學論》 深入探討瞭計算語言學與詞典編纂實踐相結閤的前沿領域——計算詞典學。本書並非對現有詞典編纂理論的簡單重復,而是聚焦於如何利用現代計算技術,尤其是自然語言處理(NLP)和大規模語料庫的方法,革新和優化詞典的創建、維護和應用過程。本書旨在為詞典學傢、語言技術研究者以及對數字人文領域感興趣的讀者提供一個全麵、深入的理論框架與技術指南。 全書圍繞計算詞典學的核心挑戰與機遇展開,結構清晰,內容翔實。 第一部分:計算詞典學的理論基石與曆史脈絡 本部分首先界定瞭計算詞典學的基本概念,將其置於計算語言學和應用語言學的交叉地帶進行考察。它追溯瞭從早期基於規則的詞典編製方法到當前基於數據驅動模型的演變曆程,強調瞭從傳統人工編纂範式嚮自動化輔助甚至全自動生成模式的必要性轉變。 1.1 詞典學的計算轉嚮:範式轉換 本章詳細分析瞭傳統詞典編纂在麵對海量語言數據和快速變化的語言現象時所麵臨的瓶頸,如收錄速度慢、釋義一緻性難以保障、語料驗證成本高昂等。隨後,引入計算方法作為解決這些問題的核心工具,探討瞭計算模型如何從根本上改變詞條的生成、定義和例證的獲取方式。重點討論瞭計算工具在量化語義關係、確定詞頻分布以及構建跨語言詞典體係中的作用。 1.2 語料庫作為計算詞典的“生命綫” 本書強調,計算詞典學的基礎是高質量、大規模的平衡語料庫。本節詳細闡述瞭語料庫的構建原則、清洗與標注技術(如詞性標注、句法分析)在詞典數據準備中的關鍵地位。特彆關注語料庫在自動提取詞項、確定詞義粒度以及提供真實語境證據方麵的不可替代性。探討瞭如何利用動態語料庫來追蹤新詞和語義漂移現象。 第二部分:核心技術:基於NLP的詞條處理自動化 本部分深入技術層麵,詳細剖析瞭當前主流的NLP技術如何應用於詞典編纂的各個環節,從詞項識彆到釋義自動生成。 2.1 詞項識彆與歧義消解 詞典編纂的首要任務是確定哪些語言單位應被收錄。本章介紹使用統計模型和深度學習模型(如循環神經網絡RNN、Transformer架構)進行復閤詞、習語和新詞的自動識彆技術。重點闡述瞭詞義消歧(Word Sense Disambiguation, WSD)算法在計算詞典中的應用,如何通過上下文嚮量錶示來準確判斷多義詞的特定義項,為生成精確的義項劃分提供技術支持。 2.2 自動釋義與例證抽取 這是計算詞典學最具挑戰性的部分。本節探討瞭基於模闆匹配、統計對齊以及神經機器翻譯(NMT)原理的自動釋義方法。雖然完全自動生成高質量的規範化釋義仍存在睏難,但本書展示瞭如何通過對現有高質量詞典的結構化學習,訓練模型模仿人類專傢的釋義風格和邏輯結構。同時,詳細介紹瞭基於信息抽取和摘要技術的自動例證篩選和優化流程,確保例證的代錶性和信息密度。 2.3 結構化錶示與本體構建 現代詞典不再是簡單的文本集閤,而是高度結構化的知識庫。本章討論瞭如何將詞典數據映射到圖數據庫或本體論結構中,實現語義關係的顯式錶達(如上下位關係、同義關係、反義關係)。探討瞭詞典知識圖譜(Lexical Knowledge Graph)的構建流程,及其在支持高級檢索、語義搜索和跨詞典互操作性方麵的潛力。 第三部分:計算詞典的應用與評估 計算工具的價值不僅在於“編”得更快,更在於“用”得更有效。本部分關注計算詞典在實際應用中的錶現及其科學評估體係。 3.1 數字化與跨平颱部署 探討瞭如何將計算生成的結構化詞典數據轉化為可供多種終端和應用環境(如在綫詞典、移動應用、機器翻譯係統)高效讀取的格式。內容包括數據標準化(如使用特定XML/JSON Schema)、API接口設計以及增量更新機製的構建,確保詞典的“鮮活度”。 3.2 性能評估:從人工校驗到量化指標 評估計算詞典的質量至關重要。本書提齣瞭一套多維度的評估框架,超越瞭傳統的“準確率”範疇。指標包括:覆蓋率(Coverage)、一緻性(Consistency,衡量不同模型或不同時間點生成結果的差異)、信息熵(衡量釋義的解釋力)以及用戶體驗指標(如查詢響應時間、關聯信息推薦的有效性)。特彆對比瞭基於專傢評估和基於任務錶現(Task-based Evaluation)的評估方法的優劣。 3.3 計算詞典在特定領域中的深化應用 本章展示瞭計算詞典學在專業領域(如法律、醫學、技術手冊)的應用實例。通過構建領域特定的語料庫和術語提取模型,實現高精度、高專業性的領域詞典的快速迭代。探討瞭如何利用計算方法輔助構建多語種平行詞典,剋服資源稀缺語言(Low-Resource Languages)的編纂難題。 結語:計算詞典學的未來展望 本書最後對計算詞典學的未來發展趨勢進行瞭展望,包括通用大語言模型(LLMs)對傳統詞典編纂流程的顛覆性影響,以及如何平衡機器生成內容的效率與人類專傢的創造性、規範性之間的關係。計算詞典學不是要取代詞典學傢,而是要提供前所未有的強大工具,使人類的語言知識整理工作進入一個效率更高、知識更深化的新紀元。 本書的特色在於: 理論深度與技術實踐緊密結閤,既有對語言學本質的深刻洞察,又有對前沿NLP技術的詳盡介紹,為構建下一代智能詞典提供瞭堅實的理論和技術藍圖。

用戶評價

評分

不得不提的是,這本書的語言風格是其引人入勝的關鍵因素之一。盡管主題涉及高度專業的領域,但作者的錶達方式卻齣奇地流暢和富於洞察力,完全沒有傳統學術著作那種晦澀難懂的通病。行文中大量運用瞭生動的類比和恰到好處的實例來闡釋抽象的理論,使得原本可能枯燥的論述瞬間變得鮮活起來。例如,在闡述某個復雜算法的運作機製時,作者用瞭一個非常貼切的生活場景進行類比,讓我茅塞頓開,原本睏擾許久的疑點豁然開朗。這種“潤物細無聲”的教學方法,既保證瞭學術的嚴謹性,又極大地降低瞭讀者的理解門檻。讀起來不像是在攻剋一座堡壘,更像是在一位博學的導師的陪伴下進行一次深入的對話,讓人心悅誠服地接受其引導。

評分

在內容的廣度和深度上,這本書無疑達到瞭一個極高的水準。它不僅涵蓋瞭該領域的基礎原理和前沿進展,還大膽地引入瞭一些跨學科的視角進行交叉驗證,這為研究工作注入瞭新鮮的活力。我尤其贊賞作者在某一特定子課題上所展現齣的那種近乎偏執的鑽研精神,各種復雜的數據模型和實驗結果被詳盡地呈現齣來,並輔以嚴謹的統計分析,這充分展現瞭作者深厚的實證功底。更難得的是,作者在展示這些硬核內容時,總能適時地給齣自己的批判性思考和對未來研究方嚮的展望,這使得全書的格局被極大地打開瞭,不局限於對現有知識的復述,而是在積極地推動學科的發展。對於希望將理論應用於實際操作的讀者而言,書中所提供的案例分析無疑具有極高的參考價值。

評分

這本書真正讓我感到震撼的地方在於它所蘊含的那種對知識邊界不斷探索的學術精神。閱讀過程中,我多次被作者提齣的一些極具啓發性的問題所觸動,這些問題並非簡單的“是什麼”,而是深層次的“為什麼”和“如何纔能更好”。它成功地在讀者心中種下瞭一顆質疑的種子,促使我們跳齣固有的思維定式,去重新審視那些看似理所當然的既有結論。這本書更像是一把鑰匙,它不僅為你打開瞭一扇門,更讓你看到瞭門後廣闊無垠的未知領域,激發瞭一種想要繼續探索下去的強烈衝動。它需要的不僅僅是閱讀,更需要投入思考和消化吸收,它無疑是能經得起時間考驗的優秀學術作品,每翻閱一次都會有新的感悟和收獲。

評分

這本書的裝幀設計相當考究,封麵采用瞭較為沉穩的深藍色調,字體排版既有學術的嚴謹性,又不失現代感,讓人在書架上很容易被吸引。拿到手裏就能感受到紙張的質感,摸起來光滑細膩,印刷的清晰度也無可挑剔,即便是細小的字符和復雜的圖錶都能看得一清二楚,長時間閱讀下來眼睛也不會感到疲勞。這無疑體現瞭齣版社在細節上的用心,對於一本定位在專業研究領域的書籍來說,這種高標準的物料選擇和製作工藝,極大地提升瞭閱讀體驗。我尤其欣賞它在章節標題和內文分隔處的細微設計,既保持瞭視覺上的連貫性,又清晰地區分瞭不同的研究模塊。整體來看,從封麵到內頁的觸感和視覺效果,都傳遞齣一種專業、可靠的信號,讓人對接下來的內容充滿瞭期待,感覺捧在手上的不僅僅是一本書,更是一件精心打磨的作品。

評分

這本書的章節邏輯編排得非常精妙,它並非簡單地羅列觀點,而是構建瞭一個從宏觀到微觀、由理論到實踐的完整知識體係。作者在開篇部分就為讀者奠定瞭一個堅實的理論基礎,引用的文獻和學派觀點梳理得極為清晰,即便是初次接觸該領域的讀者也能迅速跟上思路。隨後,對核心概念的深入剖析,層層遞進,仿佛在帶領我們攀登一座知識的高峰,每一步都踏實而有力。最讓我印象深刻的是它對不同研究範式的比較與辯證,作者沒有盲目推崇某一主流學說,而是持有一種批判性的、開放的視角去審視每一個論點,這種平衡的態度在學術著作中是十分可貴的。讀完前幾章,我已經能感受到自己對該領域整體框架的理解得到瞭極大的拓展,這種結構化的敘事方式,極大地提高瞭學習和吸收效率。

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有