辞书研究文库:计算词典学论

辞书研究文库:计算词典学论 pdf epub mobi txt 电子书 下载 2025

章宜华 著
图书标签:
  • 计算词典学
  • 词典研究
  • 语言学
  • 计算语言学
  • 术语学
  • 知识工程
  • 信息科学
  • 自然语言处理
  • 语料库语言学
  • 词汇语义学
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 上海辞书出版社
ISBN:9787532638307
版次:1
商品编码:11197162
包装:平装
开本:32开
出版时间:2013-02-01
用纸:胶版纸
页数:458
字数:389000
正文语种:中文

具体描述

内容简介

  《辞书研究文库:计算词典学论》从辞书现代化技术发展和理论研究的进程可见,计算词典学是一项复杂的、跨学科的交叉理论体系,计算机信息处理技术、数据库技术、人工智能技术、多媒体技术和网络技术对词典学的研究和词典编纂技术的渗透越来越快、越来越深入。《辞书研究文库:计算词典学论》的修订或重写就是要把近十年来我国和西方主要国家对这些现代技术在词典学理论和实践中的应用进行系统的调查和梳理,弄清计算词典学得以形成的理论基础和社会基础以及其研究方向和研究任务,以期建立计算词典学的理论框架,促进我国词典学研究和词典编纂时间尽快与现代数字技术相结合。

内页插图

目录

“辞书研究文库”总序 曹先擢
前言
第一章 计算词典学概略
第一节 计算词典学的基础
一、计算词典学的源流
二、计算词典学的相关理论
三、计算词典学的相关方法
第二节 计算词典学的性质特征
一、计算词典学的理论特征
二、计算词典学的实践特征
三、计算词典学的学科交叉融合
第三节 计算词典学与机器词典
一、机器翻译的研究
二、机器词典的开发
三、机器词典与机读人用词典
第四节 计算词典学的国际背景
一、国际学术环境
二、与计算词典学相关的国际学术组织
三、语料和数据文本编码的国际标准

第二章 语料库与语料库词典学
第一节 语料库概说
第二节 语料库的基本特征
一、语料库的目的性
二、语料库语料的真实性
三、语料库语料的典型性
四、语料库语料的机读性
五、语料库语料的标准性
第三节 语料库的类型
一、按语言种类划分
二、按语言方式划分
三、按语料的载体划分
四、按语言的时域划分
五、按语言的用途划分
六、按语料的流通划分
七、按语料的分布划分
八、按语料的处理划分
第四节 语料库的基本功能
一、语料管理功能
二、语料索引功能
三、语料统计功能
四、语料标注功能
五、语音分析功能
第五节 语料库的建设与发展
一、语料库的历史背景
二、语料库的发展阶段
三、国内语料库的繁荣发展
四、语料库发展趋势
五、小结

第三章 电子词库的理论研究与实体构建
第一节 词库的理论概说
第二节 词库的相对关系
第三节 词库的基本内容和特色
第四节 主要词库的性能特征
一、词网
二、知网

第四章 词典语料的精加工与数据化
第一节 词汇属性速描
一、词汇属性速描的主要功能
二、词汇属性速描的描述方式
三、词汇速描的现状与问题
第二节 英语词汇数据库
一、英语词汇数据库的设计理念与方法
二、英语词汇数据库的容量与数据类型
三、英语词汇数据库的信息结构
四、DANTE数据库的数据结构
第三节 语料库模式分析
一、语料库模式分析的理论构想
二、语料库模式的注释结构及构造
三、模式分析与模式表征
第四节 框架网——词汇数据库
一、框架网的设计思想
……
第五章 计算机技术与词典编纂的创新
第六章 电子词典的类型与功能设置
第七章 电子词典数据库及其内部结构
第八章 电子词典编纂与制作的原则
第九章 光盘与芯片电子词典
第十章 网络电子词典
第十一章 电子词典的现状与发展趋势
主要参考文献

精彩书摘

  Boguraev &Briscoe(1989:2)认为;“虽然我们的工作并不是编纂词典,但有一点是明确的,无论从组织结构还是从表述方式来看,机读词典与普通词典是大不一样的,计算词典学的研究范围还应包括利用计算机技术开发供人使用的词典数据。”Lender(1991:48)认为,计算词典学与计算语言学的直接关系在于“词典也是一种专家系统”,因为“它或者包含了某一种语言一般词汇的知识,或者包含了某一专科领域词汇的知识”。在自然语言处理领域,为提高系统的处理能力需要更加丰富的词汇信息,计算词典学的目标就是好好利用已有的机读词典,使其成为自动化语言处理系统潜在的词汇知识源泉。
  Atkins&2ampolll(1994)认为,计算词典学负责自然语言处理中的电子词典的设计、编纂和使用。另一方面,它还包括词典编纂的技术和辅助工具的设计,包括从各种语言资源中提取例证用数据库的形式来存储相关的语言信息,词典条目的编纂和编辑,以及辞书产品的发行或传播等。
  Badia&Sauri;(2000)认为,计算词典学的主要任务之一是为自然语言处理构建具有信息性、连贯性和经济性的词库。这种资源需求是因为所谓的语料库语言学的出现,它把大量的原始语料作为自然语言处理的输入,而最后又不得不放弃这种“玩具式工具(toytools)的构想”。然而,从头开始构建计算机词库是一件既费时又费力的事情,那么在计算词典学的框架下利用现有的词典资源来建设词库便是一个不错的选择。因此,自20世纪80年代开始人们便开始利用机读词典自动提取词汇知识信息。
  Hanks(1998)认为,计算词典学的一个核心问题是语词的意义能否通过使用实例来验证。语料分析使我们坚信了这样一个观点,每一个词的常规用法都可以在语料中得到检验,这些使用常规可以与词的意义常规和信念(belief)结合起来。不过他也认为,现在还没有统一的标准来判断什么是常规用法、什么是拓展用法(如修辞或比喻用法、语义框架等)(Hanks2009)。从上述的专家观点来看,计算词典学与计算语言学、计算词汇学有着密切联系,有些研究内容相互交织,难以明确分隔,因为他们研究的主要对象——词汇及其语言属性都是一样的,只是研究的角度、方法、重点和目的略有不同。从形成历史来看,计算词典学的任务首先是解决自然语言处理所需的机读词典问题;接着是纸质词典内容的“电子化”和“机读性”问题;其三是研究词典数据库的建设,以及数据的统计分析、自动存取、自动识别、自动转换成各类词典的问题;其四是研究如何使用计算机辅助词典的编纂、编辑和修订,力争在不远的将来达到词典编纂和修订半自动化的目标,最终向基本自动化的方向发展;其五是对现有的大型商业词典进行电子化改造,实现大型词典的发行无纸化,或设计编纂专门供人阅读的电子词典或网络词典。在词典数据处理和编纂数字化方面,除众所周知的计算机辅助词典编纂之外,还有真实连续文本的分析以及词汇索引和提取。通过索引的方法调查和分析有关语词在自然话语中的分布,以便考察词的语法、语义和语用等特征,获取词项的功能和用法信息,同时获取语词义项分布或划分的根据。当然,词汇索引也是词典配例的可靠资源。目前,也有人尝试利用语料库建立词典数据库,在微观数据结构的基础上生成词典。总的来说,计算词典学研究如何实现词典语料处理电子化,词典编纂半自动化或自动化,词典编排形式化,词典信息数字化和词典查检智能化,以及词典信息表述多媒体化。研究的主要内容是:语料的搜集与处理、义项划分的数据支持(词频统计、语义统计、词的配价结构统计)、综合语义分析、例句的提取、辅助词典编纂、词典数据库及其标引、语料库和数据库的管理、词典信息统计、词典编纂管理、词典导出接口等。
  ……

前言/序言


辞书研究文库:计算词典学论 内容简介 《辞书研究文库:计算词典学论》 深入探讨了计算语言学与词典编纂实践相结合的前沿领域——计算词典学。本书并非对现有词典编纂理论的简单重复,而是聚焦于如何利用现代计算技术,尤其是自然语言处理(NLP)和大规模语料库的方法,革新和优化词典的创建、维护和应用过程。本书旨在为词典学家、语言技术研究者以及对数字人文领域感兴趣的读者提供一个全面、深入的理论框架与技术指南。 全书围绕计算词典学的核心挑战与机遇展开,结构清晰,内容翔实。 第一部分:计算词典学的理论基石与历史脉络 本部分首先界定了计算词典学的基本概念,将其置于计算语言学和应用语言学的交叉地带进行考察。它追溯了从早期基于规则的词典编制方法到当前基于数据驱动模型的演变历程,强调了从传统人工编纂范式向自动化辅助甚至全自动生成模式的必要性转变。 1.1 词典学的计算转向:范式转换 本章详细分析了传统词典编纂在面对海量语言数据和快速变化的语言现象时所面临的瓶颈,如收录速度慢、释义一致性难以保障、语料验证成本高昂等。随后,引入计算方法作为解决这些问题的核心工具,探讨了计算模型如何从根本上改变词条的生成、定义和例证的获取方式。重点讨论了计算工具在量化语义关系、确定词频分布以及构建跨语言词典体系中的作用。 1.2 语料库作为计算词典的“生命线” 本书强调,计算词典学的基础是高质量、大规模的平衡语料库。本节详细阐述了语料库的构建原则、清洗与标注技术(如词性标注、句法分析)在词典数据准备中的关键地位。特别关注语料库在自动提取词项、确定词义粒度以及提供真实语境证据方面的不可替代性。探讨了如何利用动态语料库来追踪新词和语义漂移现象。 第二部分:核心技术:基于NLP的词条处理自动化 本部分深入技术层面,详细剖析了当前主流的NLP技术如何应用于词典编纂的各个环节,从词项识别到释义自动生成。 2.1 词项识别与歧义消解 词典编纂的首要任务是确定哪些语言单位应被收录。本章介绍使用统计模型和深度学习模型(如循环神经网络RNN、Transformer架构)进行复合词、习语和新词的自动识别技术。重点阐述了词义消歧(Word Sense Disambiguation, WSD)算法在计算词典中的应用,如何通过上下文向量表示来准确判断多义词的特定义项,为生成精确的义项划分提供技术支持。 2.2 自动释义与例证抽取 这是计算词典学最具挑战性的部分。本节探讨了基于模板匹配、统计对齐以及神经机器翻译(NMT)原理的自动释义方法。虽然完全自动生成高质量的规范化释义仍存在困难,但本书展示了如何通过对现有高质量词典的结构化学习,训练模型模仿人类专家的释义风格和逻辑结构。同时,详细介绍了基于信息抽取和摘要技术的自动例证筛选和优化流程,确保例证的代表性和信息密度。 2.3 结构化表示与本体构建 现代词典不再是简单的文本集合,而是高度结构化的知识库。本章讨论了如何将词典数据映射到图数据库或本体论结构中,实现语义关系的显式表达(如上下位关系、同义关系、反义关系)。探讨了词典知识图谱(Lexical Knowledge Graph)的构建流程,及其在支持高级检索、语义搜索和跨词典互操作性方面的潜力。 第三部分:计算词典的应用与评估 计算工具的价值不仅在于“编”得更快,更在于“用”得更有效。本部分关注计算词典在实际应用中的表现及其科学评估体系。 3.1 数字化与跨平台部署 探讨了如何将计算生成的结构化词典数据转化为可供多种终端和应用环境(如在线词典、移动应用、机器翻译系统)高效读取的格式。内容包括数据标准化(如使用特定XML/JSON Schema)、API接口设计以及增量更新机制的构建,确保词典的“鲜活度”。 3.2 性能评估:从人工校验到量化指标 评估计算词典的质量至关重要。本书提出了一套多维度的评估框架,超越了传统的“准确率”范畴。指标包括:覆盖率(Coverage)、一致性(Consistency,衡量不同模型或不同时间点生成结果的差异)、信息熵(衡量释义的解释力)以及用户体验指标(如查询响应时间、关联信息推荐的有效性)。特别对比了基于专家评估和基于任务表现(Task-based Evaluation)的评估方法的优劣。 3.3 计算词典在特定领域中的深化应用 本章展示了计算词典学在专业领域(如法律、医学、技术手册)的应用实例。通过构建领域特定的语料库和术语提取模型,实现高精度、高专业性的领域词典的快速迭代。探讨了如何利用计算方法辅助构建多语种平行词典,克服资源稀缺语言(Low-Resource Languages)的编纂难题。 结语:计算词典学的未来展望 本书最后对计算词典学的未来发展趋势进行了展望,包括通用大语言模型(LLMs)对传统词典编纂流程的颠覆性影响,以及如何平衡机器生成内容的效率与人类专家的创造性、规范性之间的关系。计算词典学不是要取代词典学家,而是要提供前所未有的强大工具,使人类的语言知识整理工作进入一个效率更高、知识更深化的新纪元。 本书的特色在于: 理论深度与技术实践紧密结合,既有对语言学本质的深刻洞察,又有对前沿NLP技术的详尽介绍,为构建下一代智能词典提供了坚实的理论和技术蓝图。

用户评价

评分

不得不提的是,这本书的语言风格是其引人入胜的关键因素之一。尽管主题涉及高度专业的领域,但作者的表达方式却出奇地流畅和富于洞察力,完全没有传统学术著作那种晦涩难懂的通病。行文中大量运用了生动的类比和恰到好处的实例来阐释抽象的理论,使得原本可能枯燥的论述瞬间变得鲜活起来。例如,在阐述某个复杂算法的运作机制时,作者用了一个非常贴切的生活场景进行类比,让我茅塞顿开,原本困扰许久的疑点豁然开朗。这种“润物细无声”的教学方法,既保证了学术的严谨性,又极大地降低了读者的理解门槛。读起来不像是在攻克一座堡垒,更像是在一位博学的导师的陪伴下进行一次深入的对话,让人心悦诚服地接受其引导。

评分

这本书的装帧设计相当考究,封面采用了较为沉稳的深蓝色调,字体排版既有学术的严谨性,又不失现代感,让人在书架上很容易被吸引。拿到手里就能感受到纸张的质感,摸起来光滑细腻,印刷的清晰度也无可挑剔,即便是细小的字符和复杂的图表都能看得一清二楚,长时间阅读下来眼睛也不会感到疲劳。这无疑体现了出版社在细节上的用心,对于一本定位在专业研究领域的书籍来说,这种高标准的物料选择和制作工艺,极大地提升了阅读体验。我尤其欣赏它在章节标题和内文分隔处的细微设计,既保持了视觉上的连贯性,又清晰地区分了不同的研究模块。整体来看,从封面到内页的触感和视觉效果,都传递出一种专业、可靠的信号,让人对接下来的内容充满了期待,感觉捧在手上的不仅仅是一本书,更是一件精心打磨的作品。

评分

在内容的广度和深度上,这本书无疑达到了一个极高的水准。它不仅涵盖了该领域的基础原理和前沿进展,还大胆地引入了一些跨学科的视角进行交叉验证,这为研究工作注入了新鲜的活力。我尤其赞赏作者在某一特定子课题上所展现出的那种近乎偏执的钻研精神,各种复杂的数据模型和实验结果被详尽地呈现出来,并辅以严谨的统计分析,这充分展现了作者深厚的实证功底。更难得的是,作者在展示这些硬核内容时,总能适时地给出自己的批判性思考和对未来研究方向的展望,这使得全书的格局被极大地打开了,不局限于对现有知识的复述,而是在积极地推动学科的发展。对于希望将理论应用于实际操作的读者而言,书中所提供的案例分析无疑具有极高的参考价值。

评分

这本书真正让我感到震撼的地方在于它所蕴含的那种对知识边界不断探索的学术精神。阅读过程中,我多次被作者提出的一些极具启发性的问题所触动,这些问题并非简单的“是什么”,而是深层次的“为什么”和“如何才能更好”。它成功地在读者心中种下了一颗质疑的种子,促使我们跳出固有的思维定式,去重新审视那些看似理所当然的既有结论。这本书更像是一把钥匙,它不仅为你打开了一扇门,更让你看到了门后广阔无垠的未知领域,激发了一种想要继续探索下去的强烈冲动。它需要的不仅仅是阅读,更需要投入思考和消化吸收,它无疑是能经得起时间考验的优秀学术作品,每翻阅一次都会有新的感悟和收获。

评分

这本书的章节逻辑编排得非常精妙,它并非简单地罗列观点,而是构建了一个从宏观到微观、由理论到实践的完整知识体系。作者在开篇部分就为读者奠定了一个坚实的理论基础,引用的文献和学派观点梳理得极为清晰,即便是初次接触该领域的读者也能迅速跟上思路。随后,对核心概念的深入剖析,层层递进,仿佛在带领我们攀登一座知识的高峰,每一步都踏实而有力。最让我印象深刻的是它对不同研究范式的比较与辩证,作者没有盲目推崇某一主流学说,而是持有一种批判性的、开放的视角去审视每一个论点,这种平衡的态度在学术著作中是十分可贵的。读完前几章,我已经能感受到自己对该领域整体框架的理解得到了极大的拓展,这种结构化的叙事方式,极大地提高了学习和吸收效率。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有