编辑推荐
《现代多媒体通信技术》系统地讲述多媒体通信技术的关键技术,言简意赅,配套教辅丰富。
内容简介
多媒体通信技术是现代信息与通信技术的一个重要分支。本书系统地讲述了多媒体通信技术的关键技术。本书共分10章,首先从人类的生理特性出发,介绍了人的听觉感知和视觉感知特性,并讲解相关的音视频信号概念、颜色和多媒体色彩管理; 接着在多媒体信息处理方面介绍了数据压缩基本原理、音频压缩编码,并以*新的HEVC标准为例详细介绍了视频压缩编码; 在多媒体信息传输方面主要介绍了流媒体传输、控制、同步机制; 并针对目前网络体系等的复杂性介绍了异构网络环境中视频处理与传输方法,最后介绍了立体视觉与三维电视技术的相关知识。
本书适合作为高等院校电子与通信类各专业高年级本科教材,也可作为低年级研究生的教学参考书,还可供从事多媒体通信的工程技术人员参考。
目录
第1章多媒体通信技术概论
1.1多媒体的基本概念
1.1.1多媒体及多媒体技术
1.1.2多媒体技术的特点
1.2多媒体技术的发展历程
1.3多媒体通信的特点
1.3.1多媒体通信的特点
1.3.2多媒体通信终端的特点
1.4多媒体通信中的关键技术
1.4.1音视频编解码技术
1.4.2多媒体网络通信技术
1.4.3多媒体存储技术
1.4.4多媒体数据库
1.5流媒体技术
1.6多媒体通信的应用领域
习题一
第2章人的听觉感知与声音信号
2.1人类的听觉系统
2.2人耳的听觉特性
2.2.1声强级和响度
2.2.2听阈与痛阈
2.2.3听觉定律
2.2.4人耳的听觉效应
2.3声音信号
2.3.1人声信号
2.3.2音乐信号
2.3.3其他声信号
2.4*声音质量评价方法
2.4.1基于人体的生理反应评价方法
2.4.2声品质评价方法简述
2.4.3噪声的主观感觉
习题二
第3章人的视觉感知与视频信号
3.1人的视觉系统
3.2人眼视觉特性
3.2.1亮度感觉特性
3.2.2光敏感特性
3.2.3亮度自适应与亮点偏差感知
3.2.4空间掩模与时间掩模
3.2.5视觉注意机制
3.2.6视觉掩蔽效应
3.2.7视觉暂留与闪烁
3.2.8视觉显著性
3.3视频信号
3.4电视视频信号的制式
3.4.1NTSC制
3.4.2PAL制
3.4.3SECAM制
3.5电视信号原理
习题三
第4章色彩与多媒体颜色管理
4.1色彩的形成原理和描述方法
4.1.1光源、物体和人眼的颜色视觉
4.1.2色彩的描述
4.2多媒体设备与色彩
4.2.1多媒体色彩设备类型
4.2.2设备的呈色原理
4.2.3设备的颜色表达能力——色域
4.3多媒体设备的颜色管理
4.3.1色彩管理
4.3.2色彩校准
4.3.3色彩特征化和ICC特性文件
4.3.4色彩转换
4.3.5色域映射
习题四
第5章语音与音频压缩编码
5.1语音与音频编码技术概况
5.1.1语音与音频压缩的必要性
5.1.2语音与音频压缩的区别
5.1.3音频压缩方法
5.2语音与音频编码技术
5.2.1时域编码
5.2.2频带编码
5.3目前主流音频压缩编码标准及应用
5.3.1MPEG��1
5.3.2MPEG��2
5.3.3MPGE��4 HE�睞AC
5.3.4MPEG通用语音与音频编码算法
5.3.5*语音频编码的未来发展方向
5.4*常用的音频信号处理软件
5.5*常见的音频格式
5.5.1无损压缩的音频编码文件格式
5.5.2有损压缩的音频编码文件格式
习题五
第6章视频压缩编码: 以HEVC为例
6.1视频压缩编码概述
6.2HEVC概述
6.3HEVC中的图像分割方式
6.4编码单元
6.5帧内预测
6.5.1帧内预测模式
6.5.2帧内预测流程
6.6运动估计与运动补偿
6.6.1运动估计和运动补偿的基本原理
6.6.2影响运动估计的主要因素
6.6.3搜索策略
6.6.4HEVC中的运动估计流程
6.6.5运动融合
6.6.6高级运动矢量预测
6.7变换与量化
6.7.1离散余弦变换
6.7.2量化与量化矩阵
6.8HEVC的后处理技术
6.8.1去方块滤波
6.8.2样点自适应补偿
6.8.3自适应环路滤波技术
6.9熵编码
6.9.1CAVLC
6.9.2CABAC
6.9.3HEVC标准熵编码过程
6.10并行运算优化设计
6.11*码率控制
6.11.1率失真理论
6.11.2码率控制与率失真优化
习题六
第7章流媒体传输与控制
7.1流媒体技术概况
7.1.1流式传输基础
7.1.2流媒体播放方式
7.1.3流媒体系统基本结构
7.2流媒体传输和控制协议
7.2.1传输层协议
7.2.2实时传输协议RTP
7.2.3实时传输控制协议RTCP
7.2.4实时流传输协议RTSP
7.2.5资源预留协议RSVP
7.3基于RTCP反馈的拥塞控制
7.3.1拥塞控制的方式
7.3.2RTCP反馈拥塞控制的实现
7.4流媒体码流复接
7.4.1基本概念
7.4.2流程
习题七
第8章流媒体同步机制
8.1多媒体同步的标准
8.2多媒体同步的参考模型
8.2.1媒体层
8.2.2流层
8.2.3对象层
8.3典型同步模型
8.3.1时间轴模型
8.3.2时间间隔模型
8.3.3层次模型
8.3.4时序Petri网模型
8.4网络环境下的流媒体同步
8.4.1流媒体同步关系
8.4.2流媒体同步的分类
8.4.3流媒体同步规范
8.4.4多级同步机制
8.5影响流媒体同步的关键因素及解决方案
8.5.1延时与抖动
8.5.2乱序
8.6缓冲区容量设置及自适应带宽技术
8.6.1自适应带宽技术
8.6.2流内同步中缓冲大小设置及自适应带宽技术
8.6.3流间同步中缓冲大小设置及自适应带宽技术
习题八
第9章异构网络环境中视频处理与传输
9.1流媒体技术应用于异构环境主要面临的挑战
9.2视频质量自适应概览
9.3视频可伸缩编码
9.3.1可伸缩性编码概念
9.3.2可伸缩视频编码
9.4流媒体视频质量自适应技术
9.4.1流媒体视频质量自适应技术概况
9.4.2采用SVC的流媒体质量自适应技术
9.5视频转码
9.5.1视频转码器框架结构
9.5.2视频转码技术分类介绍
9.5.3视觉显著性在视频转码领域的应用
习题九
第10章立体视觉与三维电视技术
10.1三维电视的发展
10.2立体视觉原理
10.2.1单眼的视觉的局限性
10.2.2双目视觉与深度暗示
10.3多视点裸眼3D显示技术
10.3.1深度提取算法
10.3.2DIBR算法
10.4三维电视技术
10.4.13DTV系统架构
10.4.23DTV立体显示技术
10.4.33DTV系统的3D数据表示
10.4.43DTV视频编码技术
习题十
参考文献
精彩书摘
第3章
CHAPTER 3
人的视觉感知与视频信号
视觉是人类最重要的感觉。人类从外界获取的信息中,有75%来自于视觉。随着多媒体时代的来临,数字信号处理技术、计算机技术和通信技术越来越紧密地结合在了一起,其应用涉及视频帮助窗口、视频会议、视频预览技术、视频编辑和视频教程等。以往的电视信号多以模拟信号方式进行处理,如今,利用数字信号处理算法,可以达到提高处理质量、扩展应用范围的目的。
图像及视频信息与其他信息形式相比,更直观、更具体、更生动,并且所包含的信息量大。本章主要介绍人的视觉系统和人眼视觉特性、视频信号、电视视频信号制式和电视信号原理等方面的知识,为后续学习的信号处理做准备。
3.1人的视觉系统
人眼是人身体中最重要的感觉器官,非常完善、精巧和不可思议,是生命长期进化到高级形式的必然产物。视觉中涉及的各种生理组件被统称为视觉系统,在心理学、认知学、神经科学、分子生物学中是很多研究的重点。视觉感知是通过处理包含在可见光中的信息解释周围环境的能力。
人眼是一个构造极其复杂的器官,形状近似球体。图3��1描述了人眼的生理结构。当人眼注视外界某物体时,由物体发出或反射、透视的光线通过眼球聚焦在视网膜上。视网膜上的光敏细胞受光刺激产生神经冲动,经视觉神经传递到视觉中枢,就产生了视觉。
图3��1人眼的构成
从光学角度而言,人眼等价于一架高度自动化的摄像机,它由一系列透镜以及能将外部景象成像在视网膜上的可变光圈组成。而其主要的成像原理就是物理学中的折射定律。当平行于透镜的光线通过凸透镜时会聚集成一个像,根据凸透镜的成像特性,物体所成像的位置与物体距透镜的距离有关。
在视觉中有一个重要的单位叫做视角,其定义为α=2arctanS/2D,用以表示面积为S的图像在距人眼距离为D的位置对人眼产生的张角,其单位为cpd(circles per degree),常被用来表示图像的空间频率。可见光的光线是范围为380~780nm的电磁波,它使我们的眼睛产生了明亮的感觉(见图3��2)。
图3��2可见光范围
人类视觉信息处理系统是由视觉器官、视觉通路和多级视觉中枢组成的,实现着视觉信息的产生、传递和处理。考虑到其中的视觉信息处理过程的复杂性,研究学者又将其划分为视感觉处理和视知觉处理两个阶段。这样,人眼视觉信息的处理则如图3��3所示。
图3��3人眼视觉的信息传递过程
尽管人眼成像能力较强,但是在视网膜上所成的像实际上已经包含一些失真,其中典型的失真是模糊失真。通常用理想的点或线光源在视网膜上所成的像作为模糊失真的度量,称为人眼的点扩散
(Point Spread Function,PSF)
或线扩散函数(Line Spread Function,LSF)。
显然,模糊失真的程度与人眼瞳孔的直径大小有关,瞳孔直径越大,产生的模糊失真越严重,反之亦然。图3��4是在瞳孔直径为3mm时所测得的点扩散函数。
图3��4点扩散函数
3.2人眼视觉特性
3.2.1亮度感觉特性
人眼对于辐射功率相同而波长不同的光所产生的亮度感觉是不相同的。1933年国际照明委员会经过大量实验和统计,给出人眼对不同波长光亮度感觉的相对灵敏度,称为相同视敏度。它的意义是: 人眼对各种波长光的亮度感觉灵敏度是不相同的(如图3��5所示)。实验表明: 在同一亮度环境中,辐射功率相同的条件下,波长等于555nm的黄绿光对人的亮度感觉最大,并令其亮度感觉灵敏度为1; 人眼对其他波长光的亮度感觉灵敏度均小于黄绿光(555nm),所以其他波长光的相对灵敏度V(I)都小于1。例如,波长为660nm的相对视敏度V(660)=0.061,所以这种红光的辐射功率应比555nm的黄绿光大16,才能给人相同的亮度感觉。当I<380nm i="">780nm时,V(I)=0,这说明紫外线和红外线的辐射功率再大,也不能引起亮度感觉(所以红外线和紫外线是不可见光)。这也是自然选择的结果,假如人眼对红外线也能反映,那么这种近似光雾的热辐射将会成为人们观察外部世界的一种干扰。
图3��5相对视敏函数曲线
3.2.2光敏感特性
人类视觉系统能适应非常广的亮度范围,从非常暗到非常亮之间的范围可以达12级。人眼对外界物体的判别更大程度是依赖于物体与背景之间的对比度,而并不依赖于背景的绝对亮度。
经过对人眼的视觉特性和其工作机制的研究可知,频率和方向不同时,人眼对信息的敏感度都不一样。低频率下,信息敏感度相对于高频率要高,而在对角方向时,人眼对信息的敏感性最弱。在经过大量的研究和论证后,人们陆续给出了多种视觉心理模型刻画人类视觉感知特性。其中,比较著名的对比度敏感性函数(Contrast Sensitivity Function,CSF)模型由Mannos等人提出。 CSF能够将人眼对于空间频率的敏感特性进行很好的刻画。对比度敏感性函数又被称为空间调制转移函数(Modulation Transfer Function,MTF),它是描述空间频率的函数,表示为:
CSFf=DODI(3��1)
其中, f 表示空间频率,单位为周/度(Cycles/Degree),DO和DI分别表示输出对比度和输入对比度。Mannos等人经过大量视觉感知的研究和实验,最终给出对比度敏感性函数(CSF)的公式为:
CSFf=2.60.192+0.114fexp-(0.114f)1.1(3��2)
其中,空间频率f=f2x+f2y,fx和fy分别表示水平方向的空间频率和垂直方向的空间频率。
图3��6描述了CSF与空间归一化频率之间的关系,从图中可以得出人眼视觉系统对较低或较高的空间频率不太敏感,而对0.03~0.23之间的空间频率(中频区域)最为敏感。CSF具有带通滤波器的特性。在0.2左右时达到顶峰,这时人眼的敏感度最高,随着视觉刺激频率的上升或者下降,人眼的敏感程度迅速下降。
图3��6CSF与空时频率的关系
Campbell�睷obson实验中的CSF图来解释这一特征,如图3��7所示,沿着水平方向,每一行像素值的强度按照正弦方式变化,同时图像的频率以对数形式增加,即具体变现为图中的每一个柱状条中间暗、两边亮,并且从左到右柱状竖条交替变化的速度上升; 沿着竖直方向,从上到下图像对比度以对数形式逐渐上升,具体变现为柱状竖条从上到下和周围像素相比越发突出。假设人眼感知到的对比度和图像对比度相同,那么从左到右,人眼所看到的所有竖条都有着同样的高度。但是,人眼实际观测到的竖条高度中间部分的高于两边,符合CSF函数的形状,这就说明了频率这一因素影响了人眼对对比度的感知程度,即相比于高频处的失真,人眼对低频处的失真更加敏感。
图3��7Campbell�睷obson CSF图
3.2.3亮度自适应与亮点偏差感知
1. 亮度自适应
人眼对亮度的感知符合韦伯定律,可以用如下形式表示:
ΔII=K(3��3)
其中,I 代表背景的亮度,ΔI代表人眼刚刚觉察到的前景相对于背景区域亮度的增量,两者的比值K 是一个常量,这种现象叫做人眼的亮度自适应或者亮度掩盖,也就是说,背景区域的亮度影响了人眼对前景区域亮度刺激的判断。亮度自适应表明了人眼识别的是前景和背景之间的相对变化量而不是亮度的绝对值。
在图3��8中,中心四个方块的灰度值其实是一样的,但是由于背景颜色的不同,导致了人眼对其颜色的误判。同时,我们也会发现在几个亮度变化的方框交接边缘会有一种轮廓感,称为马赫带(Mach Band)效应,这是因为人类的视觉系统有增强边缘对比度的机制。
图3��8亮度敏感度和马赫带效应图示
2. 亮度偏差的感知
研究成果表明,人眼所能感觉到的最小亮度差与观察对象的背景有关,即视觉对亮度偏差的敏感程度随背景亮度变化呈非线性变化,总的来说,在高亮度背景区,人眼对亮度偏差的辨别力比在低亮度区要强。
如图3��9所示直观显示了视觉在不同背景条件下的感知差异,图3��9(b)是将图3��9(a)中的所有灰度级值加上50得到的,这等效于将原图像整体亮度提升了50个灰度级。从这两图对比可以看出,原图像中暗区不可见信息或难以分辨的信息(如人物衣服区域和墙上的部分文字)在亮背景下变得可见或更易辨别。但图像整体亮度的提升并没有改变原图像暗区灰度之间的偏差。
图3��9视觉在不同亮度背景下的视觉差异
尽管人们很早就发现了亮度阈值效应,即人眼的分辨能力无法区分相邻的灰度级差别,只有当单个像素的灰度级其局部背景平均亮度的偏差超过某一阈值(通常阈值≥4)时,才能被人眼所感知,这一现象称为视觉的亮度阈值效应。当背景越暗时,人眼的感知能力越弱,随着灰度的增加,人眼的感知能力也迅速增强; 直到灰度级在90~160之间时,人眼的感知能力达到最强,偏差大于4即可被感知,随后感知能力又慢慢随灰度级的增加而减弱。因此,如果将待增强图像的重要区域的灰度值大部分配置于人眼感知能力很强的灰度区域,同时将图像中灰度值较小的区域的灰度级拉伸,使其灰度级差别不那么接近,这样从理论上来说,图像增强效果会更好。但由于视觉机理太复杂,且和视觉心理有关,因此目前还没有建立一个精确的数学模型。
3.2.4空间掩模与时间掩模
掩模(Masking)被定义为: 当激励A(通常称为掩模激励)存在时,造成人眼对激励B的感知被加强或减弱的现象。掩模特性是人眼多通道特性中的重要组成部分。
图3��10掩模曲线
可以通过测量激励的对比度感知门限的变化来计算空间掩模效应,图3��10显示了对比度门限值随掩模激励对比度的变化曲线。
其中,横坐标为掩模激励的对比度的对数值,纵坐标为激励对比度感知门限的对数值,CT0表示没有掩模激励存在时的对比度门限。当掩模激励对比度大于CM0时,人眼对目标的对比度感知门限随掩模激励对比度的增大而增大,但是当掩模激励处于CM0附近时,会产生两种情况: A表示目标对比度感知门限上升; 而B表示目标对比度感知门限反而下降,说明此时由于掩模的存在,使得目标更容易被人眼感知。
时间掩模是指由于激励的时域不连续性而造成的视觉感知门限被改变的现象。研究表明,当视频帧从黑到白或从白到黑变化时,视觉对比度感知门限的上升会持续万分之几秒。研究认为,人眼对场景切换后的第一帧具有的失真感知能力会降低。
3.2.5视觉注意机制
图3��11是几个视觉注意示例图,从图中可以非常明显地感受到视觉注意的存在。这三幅图像中,图3��11(a)中的圆环、图3��11(b)中的圆盘和图3��11(c)中的线段会迅速引起人们的注意。之所以会出现这样的反应,正是由于视觉注意机制在发生作用。
图3��11视觉注意的示例图
Harris认为“集中性”和“警觉性”是注意机制的最基本特征,并以此为基础,从功能上将视觉注意划分为4种类型:
�r 选择性注意(Selective Attention): 用来选择部分视觉信息,以满足大脑有限的信息处理能力的需要;
�r 分离性注意(Parsing Attention): 用来将目标与背景相分离,以便进行模式识别;
�r 引导性注意(Directing Attention): 用来引导紧急中断、正常探测和维持关注等行为的切换;
�r 警觉性注意(Alertness Attention): 用来唤醒潜在的视觉注意处理过程。
3.2.6视觉掩蔽效应
当若干种不同的视觉刺激同时出现在人眼的视野当中时,其他刺激会对人眼对某一种刺激的感知程度产生影响,这一种现象叫做掩蔽效应。
掩蔽效应的强度可以用去掉和加上掩蔽信号这两种情况下,人眼对刺激信号的可见性差异来表示。如图3��12所示,左图为刺激信号,该刺激信号为均匀分布的高斯白噪声图像; 右图为将白噪声图像与掩蔽图信号的合成图。通过对右图的观察我们可以发现,刺激信号在纹理区域明显减弱,例如图中女性的头巾处; 而平坦区域的刺激信号强度较大,例如女性的面部。也就是说掩蔽信号影响了刺激信号对人眼的刺激作用,导致人眼对刺激信号的感知发生了变化。通常情况下,掩蔽效应在刺激信号和掩蔽信号两者的位置、频率、方向相同时达到最大。在图像质量评估
现代多媒体通信技术/高等学校电子信息类专业系列教材 epub pdf mobi txt 电子书 下载 2024
现代多媒体通信技术/高等学校电子信息类专业系列教材 下载 epub mobi pdf txt 电子书 2024