编辑推荐
本书系统地总结了人脸识别研究领域,填补国内有关该领域图书的空白,很好地总结了近年人脸识别算法研究成果,并提供了具体算法实现和研究结果,为该领域研究人员提供很好的借鉴。从事人脸识别研究的读者结合本书及最新的相关科技期刊进行人脸识别研究,可以大大地减少研究前期为进入本领域而进行论文阅读和相关论文总结所需要的时间。目前各地对人脸识别研究更加关注和投入,出版这本图书可为相关领域研究人员提供便捷工具,并提高研究机构在该领域研究的普及化。
内容简介
《人脸识别原理及算法:动态人脸识别系统研究》系统介绍了人脸识别研究领域的研究状况以及作者在人脸识别领域的研究工作和研究成果,全书共分为3个部分。
第1部分首先介绍了人脸识别的基础:计算机视觉和模式识别的原理,并介绍了20世纪70年代以来国内外人脸识别研究的研究动态和主要方法,以及国内外人脸识别研究的主要成果和用途。
第2部分介绍了基于双属性图的人脸识别算法,该算法采用人脸特征检测、主成分分析方法、Gabor函数等建立了一个人脸特征识别和属性特征匹配的人脸识别方法,并结合人脸图像的局部特征和全局特征,能够有效地利用从三维到二维投影的人脸图像信息之间的关联性。
第3部分介绍了动态场景下的人脸识别方法,该方法综合应用了人脸定位、人脸识别、视频处理等算法。
《人脸识别原理及算法:动态人脸识别系统研究》的读者对象主要为研究模式识别的科技人员以及高等院校高年级的学生和研究生。读者通过阅读《人脸识别原理及算法:动态人脸识别系统研究》可以系统地学习人脸识别研究的方法,并掌握国内外相关技术的最新进展。
作者简介
沈理,1959年毕业于浙江大学机电工程系,当前是中科院计算技术研究所研究员、博士生导师,从事计算机科学领域的研究工作。
刘翼光,2000年毕业于中科院计算技术研究所,曾主持或参加多项国家自然科学基金、中科院“九五”重点项目、国家863项目等。
熊志勇,于1999年在中科院研究所获得博士学位,研究方向为人脸图像识别。母亲啊从事线通信基站的设计研发工作。
内页插图
目录
第1部分 人脸识别介绍
第1章 人脸识别概论
1.1 历史背景
1.2 人脸识别相关学科的进展
1.2.1 神经生理学方面的进展
1.2.2 脑神经学方面的进展
1.2.3 计算机视觉方面的进展
1.3 模式识别理论
1.3.1 预处理
1.3.2 特征提取
1.3.3 分类
1.4 人脸图像识别主要研究的问题
1.4.1 数据采样
1.4.2 干扰因素
1.5 人脸图像识别系统的构成
1.5.1 人脸图像预处理
1.5.2 图像表示与特征提取
1.5.3 图像识别
第2章 人脸识别研究综述
2.1 研究现状
2.2 常用的静态人脸图像识别方法
2.2.1 几何特征方法
2.2.2 特征脸方法
2.2.3 局部特征分析技术
2.2.4 模板匹配
2.2.5 图匹配
2.2.6 人工神经网络方法
2.2.7 柔性形状模型技术
2.2.8 综合的方法
2.3 人脸检测以及人脸跟踪
2.4 人脸图像识别的应用前景
2.5 一些商用人脸识别软件
2.5.1 TrueFace
2.5.2 Face-It
2.5.3 Technology Recognition Systems
第2部分 静态人脸图像识别
第3章 人脸特征探测
3.1 简介
3.2 参数化模型法
3.2.1 图像的各种表示
3.2.2 眼睛模型表示
3.2.3 嘴巴模型和鼻子模型
3.2.4 方法的优缺点
3.3 基于模板的探测方法
3.3.1 模板表示
3.3.2 图像标准化
3.3.3 方法的优缺点
3.4 利用数学算子进行探测
3.4.1 特征探测模型
3.4.2 方法的优缺点
3.5 小结
第4章 基于通用形变模型的人脸轮廓特征提取
4.1 引言
4.2 通用形变模型的形成
4.2.1 轮廓特征点的选取
4.2.2 形变模型的形成
4.2.3 形变模型的能量
4.3 模型匹配
4.3.1 全局匹配
4.3.2 局部匹配
4.4 实验
4.5 小结
第5章 基于主成分分析方法的人脸图像识别及人脸局部特征探测
5.1 引言
5.2 主成分分析方法在人脸图像识别中的应用
5.2.1 特征向量的表示能力
5.2.2 特征向量的选择
5.2.3 光照的影响
5.2.4 尺度的影响
5.2.5 旋转因素的影响
5.2.6 小结
5.3 人脸局部特征探测
5.3.1 逐步求精定位法
5.3.2 实验
5.4 利用局部特征识别人脸图像
5.5 小结
第6章 人脸图像的双属性图表示
6.1 引言
6.2 Gabor变换
6.2.1 傅里叶变换
6.2.2 Gabor变换
6.3 基于数学变换的特征提取
6.3.1 特征的生成
6.3.2 实验
6.3.3 实验结果
6.3.4 小结
6.4 人脸图像的双属性图表示
6.4.1 关系图
6.4.2 属性图
6.4.3 双属性图
6.5 小结
第7章 人脸图像识别
7.1 引言
7.2 待识人脸图像的表示
7.2.1 局部特征点的确定
7.2.2 局部主成分特征的确定
7.2.3 Gabor系数特征的确定
7.3 双属性图匹配
7.3.1 匹配函数
7.3.2 lt的确定
7.3.3 光照的处理
7.3.4 尺度的处理
7.3.5 平面旋转人脸图像的处理
7.3.6 深度旋转人脸图像的处理
7.3.7 图像识别
7.3.8 方法的有效性
7.4 实验
7.4.1 图像尺度及旋转情况的确定
7.4.2 人脸图像识别
7.5 小结
第8章 人脸图像识别程序实现
8.1 主成分分析算法的MATLAB实现
8.2 Gabor变换
8.3 使用动态模板方法进行识别
8.4 Gauss变换用于提取图像的特征
第3部分 动态人脸识别研究
第9章 动态人脸识别系统
9.1 研究背景及条件
9.1.1 研究背景
9.1.2 研究对象和限定条件
9.2 样本获取
9.2.1 视频格式
9.3 隐马尔科夫模型
9.4 动态人脸识别系统框架
9.4.1 预处理
9.4.2 相关性处理
9.4.3 隐马尔科夫模型的状态及属性确定
9.4.4 观察序列概率分布计算
9.4.5 隐马尔科夫模型的训练
9.4.6 隐马尔科夫模型的识别
第10章 动态人脸图像定位算法
10.1 动态人脸图像定位问题
10.2 Hausdorff距离
10.3 人脸图像定位算法
10.4 实验结果
第11章 动态人脸识别的相关性
11.1 人脸图像的相关性表示
11.2 动态人脸的相关系数
11.2.1 特征子空间相关系数
11.2.2 插值相关系数
11.2.3 图像内部信息相关系数
11.2.4 3种相关系数的实验比较
11.3 相关性处理与动态图像分割
第12章 动态人脸图像识别
12.1 隐马尔科夫模型的基本问题
12.1.1 估价问题和前向算法
12.1.2 解码问题和Viterbi算法
12.1.3 训练问题
12.1.4 识别问题
12.2 基于隐马尔科夫模型的动态人脸识别系统
12.2.1 隐马尔科夫模型的状态及属性图像
12.2.2 观察序列数目
12.2.3 观察序列初始概率分布
12.2.4 相关系数与初始概率调整
12.2.5 隐马尔科夫模型训练和动态人脸图像识别
12.3 实验结果与分析
12.3.1 实验结果
12.3.2 与相关实验结果的对比
12.4 隐马尔科夫模型与动态图像分割
12.5 动态人脸图像识别中外界影响的处理
12.5.1 有外界影响的动态人脸识别
12.5.2 动态人脸识别算法在外界影响下的调整
第13章 结束语
参考文献
术语
前言/序言
《智能视觉:从感知到决策的边界探索》 内容概要: 本书深入剖析了当今计算机视觉领域的核心进展与未来趋势,并非聚焦于单一的人脸识别技术,而是以更加宏观和前瞻的视角,探讨智能系统如何从海量视觉数据中提取信息、理解场景,并最终做出智能决策。内容涵盖了从基础的图像处理与特征提取,到复杂的深度学习模型架构与训练方法,再到高级的场景理解、物体跟踪、行为识别以及跨模态融合等前沿议题。本书旨在为读者构建一个系统化的智能视觉知识体系,揭示其在人工智能浪潮中的关键作用,并展望其在各行各业的颠覆性应用潜力。 第一章:视觉的起源与智能的萌芽 本章将带领读者回顾人类视觉系统的演化历程,理解生物视觉为何能如此高效地处理视觉信息,并以此为灵感,探讨计算机如何模仿和超越生物视觉能力。我们将追溯计算机视觉的早期发展,从简单的图像处理技术,如边缘检测、角点检测,到经典的特征描述子,如SIFT、SURF,解析它们在不同场景下的优势与局限。同时,本章也将介绍早期人工智能研究中关于“感知”的概念,以及如何将这些基础的视觉信息整合成更高级的认知能力。我们将触及早期的模式识别方法,如支持向量机(SVM)、决策树等,为后续深度学习的介绍奠定基础。本章的重点在于勾勒出智能视觉发展的宏观脉络,强调“从像素到意义”的转变过程,为后续章节的深入探讨铺设坚实的理论框架。 第二章:深度学习:重塑视觉理解的基石 深度学习的出现无疑是计算机视觉领域的一场革命。本章将详尽介绍深度学习的核心概念,包括人工神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等。我们将深入剖析CNN的经典结构,如LeNet、AlexNet、VGG、GoogLeNet、ResNet等,解析它们在层级特征提取、感受野、参数共享等方面的设计理念,以及它们如何通过多层非线性变换,从低级像素信息逐步学习到高级语义特征。读者将了解到梯度下降、反向传播等关键训练算法,以及数据增强、正则化、Batch Normalization等提高模型泛化能力的技术。此外,本章还将探讨RNN及其变种(如LSTM、GRU)在处理序列性视觉信息(如视频)方面的作用,为理解动态场景分析打下基础。本章将通过丰富的实例和可视化图解,帮助读者直观理解深度学习模型的内部运作机制。 第三章:物体检测与分割:点亮场景中的每一个“你” 在智能视觉系统中,准确地识别并定位场景中的物体是至关重要的一步。本章将系统介绍当前主流的物体检测与分割算法。我们将从传统的基于滑动窗口和分类器的方法讲起,引出“两阶段”检测器,如R-CNN系列(R-CNN, Fast R-CNN, Faster R-CNN),解析其在区域提议网络(RPN)和候选区域分类上的创新。随后,我们将深入探讨“单阶段”检测器,如YOLO系列和SSD,分析它们如何通过端到端的方式实现高效率的检测,并讨论其在实时性上的优势。在物体分割方面,本章将区分语义分割、实例分割和全景分割,并详细介绍相关的算法,如FCN、U-Net、Mask R-CNN等。我们将探讨损失函数的设计、锚框(anchor box)的优化、非极大值抑制(NMS)等关键技术,以及它们在不同应用场景下的权衡取舍。 第四章:场景理解与三维重建:洞悉空间的奥秘 不仅仅是识别物体,智能系统还需要理解物体之间的关系以及整个场景的语义信息。本章将聚焦于场景理解与三维重建。我们将介绍如何利用深度学习模型进行场景分类、场景解析(scene parsing),以及理解图像中的空间关系(如物体间的遮挡、相对位置)。在三维视觉方面,本章将探讨从单目或双目图像恢复场景三维结构的方法,包括立体匹配、光流法、以及基于深度学习的单目深度估计。我们将介绍SLAM(Simultaneous Localization and Mapping)技术的基本原理,理解其在机器人导航、增强现实等领域的关键作用。此外,本章还将涉及场景图(scene graph)的构建,即用图结构表示场景中物体及其关系,从而实现更深层次的场景理解。 第五章:运动分析与行为识别:解码动态世界 视频是信息流动的载体,理解视频中的运动与行为是智能视觉的重要组成部分。本章将深入探讨运动分析与行为识别。我们将从光流估计、背景减除等经典方法出发,介绍如何捕捉和分析像素级别的运动信息。随后,我们将转向基于深度学习的视频理解,重点介绍3D CNN、CNN+LSTM等模型在视频分类、动作识别任务中的应用。我们将探讨时空特征的学习,以及如何有效地处理长时序的视频数据。本章还将涉及物体跟踪(object tracking)算法,包括单目标跟踪和多目标跟踪,解析卡尔曼滤波、粒子滤波等传统方法,以及基于深度学习的跟踪算法,如Siamese网络在跟踪中的应用。行为识别方面,我们将讨论细粒度行为识别、群体行为分析等更具挑战性的问题。 第六章:跨模态融合与生成:连接视觉与其他感官 智能系统并非孤立地处理视觉信息,而是需要将其与文本、音频等其他模态的信息进行融合,以实现更全面的理解和交互。本章将聚焦于跨模态融合技术。我们将介绍如何利用深度学习模型实现图像描述生成(image captioning),即根据图像内容生成自然语言描述。反之,我们也将探讨文本到图像生成(text-to-image generation)的技术,如GANs(Generative Adversarial Networks)在生成逼真图像方面的应用。此外,本章还将涉及视觉问答(visual question answering, VQA)等任务,理解系统如何结合图像内容和文本问题,给出准确的答案。这种跨模态的融合能力,使得智能系统能够更接近人类的认知方式,实现更丰富、更自然的交互。 第七章:前沿进展与未来展望:智能视觉的无限可能 本章将对当前计算机视觉领域的一些最前沿的研究方向进行梳理和展望。我们将探讨自监督学习、弱监督学习在降低数据标注成本方面的潜力,以及它们如何驱动更通用的视觉模型。神经渲染(Neural Rendering)、NeRF(Neural Radiance Fields)等技术将带领我们领略虚拟现实和三维内容生成的全新篇章。我们还将讨论模型的可解释性(explainability)和鲁棒性(robustness),以及如何让智能视觉系统更加值得信赖。此外,本章还将对智能视觉在自动驾驶、智慧医疗、智能安防、虚拟现实/增强现实、个性化推荐等领域的颠覆性应用进行深入探讨,勾勒出智能视觉技术未来发展的广阔前景。我们将强调,智能视觉的边界并非局限于“识别”,而是延展至“理解”、“决策”乃至“创造”,其发展潜力无穷。 本书特色: 体系化构建: 从基础概念到前沿技术,层层递进,构建完整的智能视觉知识体系。 理论与实践结合: 深入剖析算法原理,并辅以实际应用场景的讨论,帮助读者理解理论的落地。 前瞻性视角: 关注最新研究动态,揭示未来发展趋势,为读者提供长远的洞察。 易于理解: 采用清晰的语言和丰富的图解,降低理解难度,适合不同背景的读者。 启发思考: 鼓励读者独立思考,探索智能视觉的更多可能性。 适读人群: 对人工智能、机器学习、计算机视觉感兴趣的在校学生和研究人员。 希望提升自身技能,拓展技术视野的软件工程师、算法工程师。 对前沿科技充满好奇,希望了解智能视觉如何改变世界的各界人士。 《智能视觉:从感知到决策的边界探索》将带领您踏上一段激动人心的旅程,揭示智能系统如何“看见”世界,“理解”世界,并最终“影响”世界。