• / 109
  • 下载费用:10 金币  

多媒体数据压缩编码技术

关 键 词:
多媒体数据压缩技术 多媒体数据压缩编码技术 多媒体数据压缩 多媒体数据数据压缩编码 多媒体数据压缩编码
资源描述:
多媒体技术及应用 华北电力大学 何慧 第5章 多媒体数据压缩编码压缩编码 技 术术 www.ncepu.edu.cn 本章概要 多媒体数据压缩编码的重要性和分类 统计编码 预测编码 变换编码4 1 2 3 多媒体数据压缩编码的国际标准5 www.ncepu.edu.cn 1. 多媒体数据压缩编码压缩编码 的重要性和分类类 • 信息时代的重要特征是信息的数字化,数字化了 的信息带来了“信息爆炸”。 • 数字计算机面临的是数值、文字、语言、音乐、 图形、动画、电视视频图像等多种媒体承载的由 模拟量转化成数字量信息的吞吐、存储和传输的 问题。数字化了的视频和音频信号的数量之大非 常惊人。 • 多媒体数据存在大量的冗余,通过去除那些冗余 数据可以使原始数据极大地减少,因此,多媒体 数据压缩编码技术就是研究如何利用多媒体数据 的冗余性来减少数据量的方法。 www.ncepu.edu.cn 1.1 重要性 • 一页印在B5纸上的文件,若以中等分辨率( 300dpi约12像素点/mm)扫描采样,其数据量约 6.61MB/页,一片650MB的CD-ROM可存放98 页。 • 双通道立体声激光唱盘(CD-DA),采样频率为 44.1kHz,采样精度16位/样本,一个650MB的 CD-ROM可存储约一个小时的音乐。 • 数字音频磁带(DAT),采样频率48kHz,采样精 度16位/样本,一个650M的CD-ROM,可存约2小 时的节目。 www.ncepu.edu.cn 1.1 重要性 • 源输入格式(source input formation, SIF),NTSC制、色彩、4:4:4采样: --每帧数据量352×240×3=253KB --每秒数据量(位率)253×30=7.603MB/s --一片CD-ROM节目时间(650÷7.706)/60=1.42分/片 • 国际无线电咨询委员会(international consultative committee for radio, ICCR)格式,PAL制、4:4:4采样: --每帧数据量720×576×3=1.24MB --每秒数据量1.24×25=31.3MB/s --一片CD-ROM节目时间650÷31.1=20.9秒/片 www.ncepu.edu.cn 1.1 重要性 • 这样大的数据量,无疑给存储器的存储容量、通 信干线的信道传输率以及计算机的速度都增加了 极大的压力。 • 解决这一问题,单纯用扩大存储器容量、增加通 信干线的传输率的办法是不现实的。数据压缩技 术是个行之有效的方法。 • 通过数据压缩手段把信息数据量压下来,以压缩 形式存储和传输,既紧缩节约了存储空间,又提 高了通信干线的传输效率,同时使计算机实时处 理音频、视频信息,以保证播放出高质量的视 频、音频节目成为可能。 www.ncepu.edu.cn 1.2 可能性 • 空间冗余 --同一景物表面上各采样点的 颜色之间往往存在着空间连贯性,但 是基于离散像素采样来表示物体颜色 的方式通常没有利用景物表面颜色的 这种空间连贯性,从而产生了空间冗 余。 --可以通过改变物体表面颜色 的像素存储方式来利用空间连贯性, 达到减少数据量的目的。 www.ncepu.edu.cn 1.2 可能性 • 时间冗余 --这是序列图像(电视图像、运动图像)表示中经常包 含的冗余。 --序列图像一般为位于一时间轴区间内的一组连续画面 ,其中的相邻帧往往包含相同的背景和移动物体,只不过移 动物体所在的空间位置略有不同,所以后一帧的数据与前一 帧的数据有许多共同的地方,这种共同性是由于相邻帧记录 了相邻时刻的同一场景画面,所以称为时间冗余。 www.ncepu.edu.cn 1.2 可能性 • 结构冗余 --在有些图像的纹理区,图像 的像素值存在着明显的分布模式, 例如,方格状的地板图案等。我们 称此为结构冗余。 --已知分布模式,可以通过某 一过程生成图像。 www.ncepu.edu.cn 1.2 可能性 • 知识冗余 --有些图像的理解与某些知识有相 当大的相关性。例如,人脸的图像有固 定的结构。这类规律性的结构可由先验 知识和背景知识得到,我们称此类冗余 为知识冗余。 --根据已有的知识,对某些图像中 所包含的物体,我们可以构造其基本模 型,并创建对应各种特征的图像库,进 而图像的存储只需要保存一些特征参数 ,从而可以大大减少数据量。知识冗余 是模型编码主要利用的特性。 www.ncepu.edu.cn 1.2 可能性 • 视觉冗余 --事实表明,人类的视觉系统对图像场的敏感性是非均匀 和非线性的。然而,在记录原始的图像数据时,通常假定视觉 系统是线性和均匀的,对视觉敏感和不敏感的部分同等对待, 从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开 来编码)更多的数据,这就是视觉冗余。 --通过大量实验,发现以下视觉的非均匀特 征。 ü视觉系统对图像的亮度和色彩度的敏感性相差很大; ü随着亮度的增加,视觉系统对量化误差的敏感度降低; ü人眼的视觉系统在图像的边缘和非边缘区域分开来处理; ü人类的视觉系统总是把视网膜上的图像分解成若干个空间 有向的频率通道后再进一步处理。 www.ncepu.edu.cn 1.2 可能性 • 图像区域的相同性冗余 --它是指在图像中的两个或多个区域所对应的所有像素 值相同或相近,从而产生的数据重复性存储,这就是图像区 域的相似性冗余。 --在以上的情况下,记录了一 个区域中各像素的颜色值,则与其 相同或相近的其他区域就不在记录 其中各像素的值。 --向量量化方法就是针对这种 冗余性的图像压缩编码方法。 www.ncepu.edu.cn 1.2 可能性 • 纹理的统计冗余 --有些图像纹理尽管不严格服 从某一分布规律,但是它在统计的 意义上服从该规律。利用这种性质 也可以减少表示图像的数据量,所 以我们称之为纹理的统计冗余。 www.ncepu.edu.cn 1.3 多媒体数据压缩压缩 方法的分类类 • 根据质量有无损失可分为:有损失编码和 无损失编码。 • 按照骑作用域在空间域或频率域上分为: 空间方法、变换方法和混合方法。 • 根据是否自适应分为自适应性编码和非自 适应性编码。一般来说,每一个编码方法 都有其相应的自适应方法。 www.ncepu.edu.cn 1.3 多媒体数据压缩压缩 方法的分类类 www.ncepu.edu.cn 1.3 多媒体数据压缩压缩 方法的分类类 • 脉冲编码调制 --数据编码方式之一。主要过程是将话音、图像等模拟信号每 隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五 人取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。 • 预测编码 --编码器记录的不是样本的真实值,而是它对预测值的差。这 种编码方式称为差值脉冲编码调制(DPCM)。预测值由欲编码图像 信号的过去信息决定。通常采用线性预测。由于空间相关性,真实值 与预测值的差值的变化范围远远小于真实值的变化范围,因而可以彩 较少的位数来表示。另外,若利用人的视觉特性对差值进行非均匀量 化,则会获得更高的压缩比。 www.ncepu.edu.cn 1.3 多媒体数据压缩压缩 方法的分类类 • 变换编码 --其主要思想是利用图像块内像素值之间的相关性,把图像变 换到一组新的基上,使得能量集中在少数变换系数上,通过存储这些 系数从而达到压缩图像的目的。在变换编码中,由于对整幅图进行变 换的计算量太大,所以一般把原始图像分成许多个矩形区域子图像独 立进行变换。如DCT变换。 • 统计编码 --最常用的统计编码是Huffman编码。其基本原理是根据信源 的频率进行编码。对于出现频率大的符号用较少的位数来表示,而对 于出现频率小的符号用较多位数来表示。这种方法的压缩率取决符号 的分布频率,分布越集中压缩效果越好。 --还有一种算术编码方法,也是统计编码。算术编码适合于信 源符号概率比较接近的情况。在JPEG的扩展系统中,用算术编码代 替Huffman编码。 www.ncepu.edu.cn 1.3 多媒体数据压缩压缩 方法的分类类 • 混合编码 --一般是将预测编码和变换编码合并使用。比如在一个方向上 进行变换,在另一个方向上用DPCM对变换系数进行预测编码。或是 对动态图像二维变换加上时间方向上的DPCM预测。 www.ncepu.edu.cn 2. 统计编码统计编码 • 数据压缩技术的理论基础是信息论。根据信息论的原理, 可以找到最佳数据压缩编码方法,数据压缩的理论极限是 信息熵。 • 如果要求在编码过程中不丢失信息量,即要求保存信息熵 ,这种信息保持编码又叫做熵保存编码,或者熵编码。熵 编码是无失真数据压缩,用这种编码结果经解码后可无失 真的恢复出原图像。 • 当考虑到人眼对失真不易觉察的生理特征时,有些图像编 码不严格要求熵保存,信息可允许部分失真以换取高的数 据压缩比,这种编码是有失真压缩,通常运动图像的数据 压缩是有失真编码,这就是著名的香农(Shannon)率失 真理论,即信息编码率与允许的失真关系的理论。 www.ncepu.edu.cn 2.1 统计编码统计编码 原理 • 信息编码器模型 其中: X是消息集,由几个信号单元xj构成(j=1,2,…,n) Z是输出集,由几个码字zj构成(j=1,2,…,n), zj与xj一一对应。 Am是符号集,由m个码元ai构成(i=1,2,…,m),符号集中的码元组成输出 码字。 编码器 信源(消息集 ) 编码输出集(接收端 ) 符号集 www.ncepu.edu.cn • 当信源发出某个随机事件(消息)xj后, 接收端收到一个相应的码字zj,从数量上 说,所收到的码字中包含多大的信息量, 或者说多少有用的信息呢? 2.1 统计编码统计编码 原理 www.ncepu.edu.cn • 信息是用不确定性的量度定义的。一个消 息的可能性越小,其信息越多;而消息的 可能性越大,则其信息越少。在数学上, 所传输的消息是其出现概率的单调下降函 数。 • 所谓信息量是指从N个相等可能事件中选出 一个时间所需要信息量或含量,也就是在 辨识N个事件中特定的一个事件的过程中需 要提问“是或否”的最少次数。 2.1 统计编码统计编码 原理 www.ncepu.edu.cn 2.1 统计编码统计编码 原理 • 例子:要从1~64个数中选定某一个数,不论回答是或否 都消去了半数的可能事件,这样继续问下去,只要提问6 次这类问题,就能从64个数中选定某一个。这是因为每提 问一次都会得到1比特的信息量。 因此,在64个数中选定某一个数所需要的信息量是 • 设从N个数中选定任一个数x的概率为p(x),假定选定任 意一个数的概率都相等,即p(x)=1/N,因此信息量为 www.ncepu.edu.cn 2.1 统计编码统计编码 原理 • 信息论定义了一种度量信息量的方法: 其中,P(xj)是信源X发出xj的先验概率。I(xj)的含义是 ,信源X发出xj这个消息(随机事件)后,接收端收到信 息量的量度;或者说接收端可能收到信源发出的是哪一个 随机事件的不确定性。 ü 当随机事件xj发生的先验概率P(xj)大时,I(xj)小, 那么这件事发生的可能性大,不确定性小,信息量少。 反之,人们没有估计到的事件,一旦发生,I(xj)大, 包含的信息量很大,即所谓爆炸性新闻。 ü I(xj)称xj发生后的自信息量,它也是一个随机变量。 www.ncepu.edu.cn 2.1 统计编码统计编码 原理 • 信源X发出的xj(j=1,2,…,n),共n个随机 事件的自信息统计平均(求数学期望),即 H(X)在信息论中称为信源X的“熵”,它的含义 是信源X发出任意个随机变量的平均信息量。 --当α取2时,H(X)的单位为比特(bit); --当α取e时,H(X)的单位为奈特(Net); --图像编码中,α取2. 重点 www.ncepu.edu.cn 2.1 统计编码统计编码 原理 • 熵的范围 • 在编码中用熵值衡量是否为最佳编码。若以 表示 编码器输出码字的平均长度,则 ü当 有冗余,不是最佳; ü当 不可能; ü当 最佳编码( 稍大于 ) • 熵值是平均码长 的下限。 www.ncepu.edu.cn 2.1 统计编码统计编码 原理 • 熵的计算。 例:1. 若n=8,所有随机事件等概率发生,则求熵。 2. 若n=8,其中某一事件必然发生,其他事件不发生,求 熵。 解:1. p(x1)= p(x2)= p(x3)= p(x4)= p(x5)= p(x6)= p(x7)= p(x8)=1/8 2. p(x1)= 1, p(x2)= p(x3)= p(x4)= p(x5)= p(x6)= p(x7)= p(x8)=0 • 等概率事件的熵最大。 www.ncepu.edu.cn 2.2 霍夫曼(Huffman)编码编码 •最佳编码定理 定理:在变字长码中,对于出现概率大的 信息符号编以短字长的码,对于出现概率 小的信息符号编以长字长的码,如果码字 长度严格按照符号概率的大小的相反顺序 排列,则平均码字长度一定小于按任何其 他符号顺序排列方式得到的码字长度。 www.ncepu.edu.cn 2.2 霍夫曼(Huffman)编码编码 • Huffman编码方法问世于1952年,广泛应 用于各种数据压缩技术中,且仍不失为熵 编码中的最佳编码方法。 • Huffman编码方法就是利用了最佳编码定 理,把信源符号按概率大小顺序排列,并 设法按逆次序分配码字的长度。 www.ncepu.edu.cn 2.2 霍夫曼(Huffman)编码编码 • Huffman编码的具体步骤如下: 1. 概率统计(如对一幅图像,或m幅同种类型图像作灰 度信号统计),得到n个不同概率的信息符号; 2. 将n个信源信息符号的n个概率,按概率大小排列; 3. 将n个概率中,最后两个小概率相加,这是概率个数 减为n-1个; 4. 将n-1个概率,按大小重新排序; 5. 重复3,将新排序后的最后两个小概率再相加,相加 和与其余概率再排序; 6. 如此反复重复n-2次,得到只剩两个概率序列; 7. 以二进制码元(0,1)赋值,构成霍夫曼码字。 编码结束。 www.ncepu.edu.cn 2.2 霍夫曼(Huffman)编码编码 • Huffman编码举例 Xx1x2x3x4x5x6x7x8 P(X)0.200.190.180.170.150.100.0050.005 信源X的符号及其概率 : 编码过程: x1 0.20 x2 0.19 x3 0.18 x4 0.17 x5 0.15 x6 0.10 x7 0.005 x8 0.005 1 0 0.01 1 0 0.11 1 0 0.26 1 0 0.35 1 0 0.39 1 0 0.61 1 0 1 编码结果: 01 00 111 110 101 1001 10001 10000 www.ncepu.edu.cn 符号 x1x2x3x4x5x6x7x8 码字 (Wi) w1= 01 w2= 00 w3= 111 w4= 110 w5= 101 w6= 1001 w7= 10001 w8= 10000 码长 22333455 编码结果: 平均码长: 熵: 2.2 霍夫曼(Huffman)编码编码 www.ncepu.edu.cn 2.2 霍夫曼(Huffman)编码编码 如果上表中,首次对缩 减信源最后两个概率最小的 符号用码符号标记为0,1时 ,也可反过来标记为1,0, 则可得到另一组霍夫曼码。 上述过程的等价编码树: w7w8 01 w6 01 01 w5 w3w4 01 0 1 w1w2 01 01 注意 : www.ncepu.edu.cn • 霍夫曼编码的特点: ü形成的编码不是惟一的,但他们的平均码长 是相同的,不存在本质上的区别。 ü对不同信源的编码效率不同。当信源概率为 2的负幂次方时,效率最高。当信源概率相 等时,效率最低。 ü编码后,形成一个Huffman编码表,解码 时必须参照该表,该表在存储和传输时都会 占有一定的空间和信道。 2.2 霍夫曼(Huffman)编码编码 www.ncepu.edu.cn 2.3 行程编码编码 • 由字符(或信号采样值)构成的数据流中 相同的字符(或字符串)会连续重复出现 ,连续出现的次数称为游程长度RL(Run Length)。 • 行程编码(Run Length Coding, RLC) 将重复的数据值序列(或称为“流”)用重 复次数和单个数据值来代替。行程编码又 称“运行长度编码”或“游程编码”。 www.ncepu.edu.cn 2.3 行程编码编码 • 在实际应用中,有多种形式的RLC编码。 ü 使用指示符的行程编码 例如:字符串“RTSAAAAEEEEEQQBBB”其行程编码字符串 为“*1R*1T*1S*4A*5E*2Q*3B” 从编码中看出,一个RLC编码串的长度为3,所以,只有当 RL3时数据压缩才有意义。 ü 不使用指示符的行程编码 不使用指示符的行程编码仅用出现的字符和其连续重复的次 数表示这串字符。 例如:字符串“8888888555555222224440000000009” 其行程编码序列为“875625430991” 压缩指示符重复的字符重复次数 www.ncepu.edu.cn 2.3 行程编码编码 • 在对图像数据进行编码时,沿一定方向排列的具 有相同灰度值的像素可看成是连续符号,使用行 程编码,可大幅度减少数据量。 • 行程编码分为定长行程编码和不定长行程编码两 种类型。 • 行程编码的压缩比与数据流中字符重复出现的概 率及长度有关。在数据中字符重复出现次数相同 的情况下,重复字符串的平均长度越长,压缩比 就越高;在重复字串的平均长度相同的情况下, 重复字符出现的次数越多,压缩比也越高。 www.ncepu.edu.cn 2.4 算术编码术编码 • 算术编码(Arithmetic Coding, AC)是 20世纪60年代由P. Elias提出的,其基 本原理是将编码的消息表示成实数0~1之间 的一个间隔,取间隔中的一个数表示消 息。消息越长,编码表示它的间隔就越小 ,表示这一间隔所需的二进制位数就越 多。 www.ncepu.edu.cn 2.4 算术编码术编码 • 算术编码的具体步骤如下: 1. 编码器在开始时将“当前间隔”设置为[0,1); 2. 根据信源符号的概率,将“当前间隔”分为子间隔,每 个符号一个子间隔,子间隔大小为信源符号的概率; 3. 根据信源符号序列,编码器选择子间隔对应于下一个 符号,并使它成为新的“当前间隔”,编码将“当前间 隔”分为子间隔,子间隔的大小与下一个符号的概率 成比例; 4. 重复步骤3,直到符号序列的最后一位,消息的编码 输出可以是最后一个间隔中的任意数。 编码结束。 www.ncepu.edu.cn 2.4 算术编码术编码 • 算术编码举例 信源符号,概率和初始编码间隔 : 符号 ABCD 概率 0.10.40.20.3 初始编码间隔 [0,0.1)[0.1,0.5)[0.5,0.7)[0.7,1] 如果二进制消息序列的输入为:CADACDB 则编码过程: 信源符号 11 10 01 00 0.5 C 输入 0 1 A 0.70.52 0.5 D 0.52 0.514 A 0.5146 0.514 C 0.51442 0.5143 D 0.51442 0.514384 0.514402 0.5143876 B 输 出 为 期 间 任 意 数 www.ncepu.edu.cn 2.4 算术编码术编码 • 上述编码过程可由下表详细说明: 步骤输入符号编码间隔编码判决 1C[0.5,0.7]符号的间隔范围[0.5,0.7] 2A[0.5,0.52][0.5,0.7]间隔的第1个1/10 3D[0.514,0.52][0.5,0.52]间隔的最后3个1/10 4A[0.514,0.5146][0.514,0.52]间隔的第1个1/10 5C[0.5143,0.51442][0.514,0.5146]间隔从第5个1/10开始的2个1/10 6D[0.514384,0.51442][0.5143,0.51442]间隔的最后3个1/10 7B [0.5143876,0.514402 ] [0.514384,0.51442]间隔从第1个1/10开始的4个1/10 8从[0.5143876,0.514402]中选择一个数作为输出:0.5143876 www.ncepu.edu.cn 2.4 算术编码术编码 • 解码过程可由下表详细说明: 步骤间隔译码符号译码判决 1[0.5,0.7]C0.51439在间隔 [0.5,0.7) 2[0.5,0.52]A0.51439在间隔 [0.5,0.7)的第1个1/10 3[0.514,0.52]D0.51439在间隔[0.5,0.52)的第7个1/10 4[0.514,0.5146]A0.51439在间隔[0.514,0.52]的第1个1/10 5[0.5143,0.51442]C0.51439在间隔[0.514,0.5146]的第5个1/10 6[0.514384,0.51442]D0.51439在间隔[0.5143,0.51442]的第7个1/10 7[0.51439,0.5143948]B0.51439在间隔[0.51439,0.5143948]的第1个1/10 8译码的消息:C A D A C D B www.ncepu.edu.cn • 算术编码的特点: ü算术编码有基于概率统计的固定模式,也有 相对灵活的自适应模式。所谓自适应模式的 工作方式是:为各个符号设定相同的概率初 始值,然后根据出现的符号做相应的改变。 自适应模式适用于不进行概率统计的场合。 ü当信号源符号的出现概率接近时,算术编码 的效率高于霍夫曼编码。 ü算术编码的实现相应地比霍夫曼编码复杂, 但在图像测试中表明,算术编码效率比霍夫 曼编码效率高5%左右。 2.4 算术编码术编码 www.ncepu.edu.cn 2.5 LZW编码编码 • LZW(Lempel Ziv Welch)压缩编码是一种字典 式无损压缩编码,主要用于图像数据的压缩。 • LZW压缩技术把数据流中复杂的数据用简单的代 码来表示,并把代码和数据的对应关系建立一个 转换表,又叫“字符串表”。压缩过程中生成的转 换表,记录了代码和数据的对应关系,并且只用 于压缩过程。在解压过程中,LZW压缩编码会生 成另一个用于解压缩的转换表,该表与压缩时产 生的转换表完全相同,数据以严格对应的无损方 式被还原。 www.ncepu.edu.cn 2.5 LZW编码编码 • LZW编码的具体步骤如下: 1.开始时的词典(转换表)包括所有可能的词根(Root),即基本符号的编码, 而当前前缀P是空的; 2.当前字符C=字符流中的下一个字符; 3.判断“前缀-当前字符”串P+C是否在词典中: 如果“是”:P=P+C;//P+C作为新的前缀 如果“否”: ①把代表当前前缀P的码字输出到码字流;//输出前缀P的代码 ②把“前缀-当前字符”串P+C添加到词典中; ③令P=C。//当前字符C成为新的前缀并编码 4.判断输入字符流中是否还有码字要译: 如果“是”,就返回到2; 如果“否”: ①把代表当前前缀P的码字输入到码字流; ②结束。 编码结束。 www.ncepu.edu.cn 2.5 LZW编码编码 • LZW编码的特点: ü LZW压缩技术的处理过程比较复杂,该过程完全可逆,对 于简单图像和平滑且噪声小的信号源具有较高的压缩比, 并且有较高的压缩和解压缩速度; ü LZW压缩技术对于可预测性不大的数据具有较好的处理效 果,常用于GIF格式的图像压缩,其平均压缩比在2:1以 上,最高压缩比可达3:1。 ü 除用于图像数据处理以外,LZW压缩技术还被用于文本程 序等数据压缩领域。对于数据流中连续重复出现的字节和 字串,LZW压缩技术具有很高的压缩比。 www.ncepu.edu.cn 3. 预测编码预测编码 • 预测编码(Predictive Coding)是统 计冗余数据压缩理论的三个重要分支之一 ,它的理论基础是现代统计学和控制论。 • 预测编码主要是减少了数据在时间和空间 上的相关性,因而对于时间序列数据有着 广泛的应用价值。在数字通信系统中,例 如语音的分析与合成,图像的编码与解码 ,预测编码已得到了广泛的实际应用。 www.ncepu.edu.cn 3. 预测编码预测编码 • 预测编码是根据某一模型利用以往的样本 值对于新样本值进行预测,然后将样本的 实际值与预测值相减得到一个误差值,对 这一误差值进行编码。如果模型足够好且 样本序列在时间上相关性较强,那么误差 信号的幅度将远远小于原始信号,从而可 以用较少的电平类对其差值量化得到较大 的数据压缩结果。 www.ncepu.edu.cn 3.1 预测编码预测编码 的基本原理 • PCM编码是等长二进制码,其编码率不够小,比如,对于 256级灰度的黑白图像,每像素需8位;对于彩色图像, 每像素需24位。所以直接以PCM编码、存储或传送数字图 像,其总数据量还是太庞大,无法实现,因此需要采用更 高压缩比的压缩编码方法。预测编码方法是一种较为实用 广泛采用一种压缩编码方法。 • 预测编码方法原理,是从相邻像素之间有强的相关性特点 考虑的。比如当前像素的灰度或颜色信号,数值上与其相 邻像素总是比较接近,除非处于边界状态。那么,当前像 素的灰度或颜色信号的数值,可用前面一出现的像素的值 ,进行预测(估计),得到一个预测值(估计值)将实际 值与预测值求差,对这个差值信号进行编码、传送,这种 编码方法称为预测编码方法。 www.ncepu.edu.cn 3.1.1 DPCM的基本原理 • 线性预测编码方法,也称差值脉冲编码调制法 (Different Pulse Code Modulation, DPCM)。 --一幅二维静止图像,设空间坐标 像素点的实际灰 度为 , 是根据以前已出现的像素点的灰度对该点 的预测灰度,也称预测值或估计值。计算预测值的像素,可 以是同意扫描行的前几个像素,或者是前几行上的像素,甚 至是前几帧的相邻像素。实际值和预测值之间的差值,以下 式表示: 将此差值定义为预测误差。由于图像像素之间有极强的 相关性,所以这个预测误差是很小的。编码时,不是对像素 点的实际灰度 进行编码,而是对预测误差信号 进 行量化、编码、发送,由此而得名为差值脉冲编码调制法。 www.ncepu.edu.cn 3.1.1 DPCM的基本原理 • DPCM系统包括发送、接收和信道传输3个 部分。 --发送端由编码器、量化器、预测器和加减法器组成; --接收端包括解码器和预测器等; --信道传送以虚线表示。 • DPCM系统具有 结构简单,容 易用硬件实现 (接收端的预 测器和发送端 的预测器完全 相同)的优 点。 www.ncepu.edu.cn 3.1.2 最佳线线性预测预测 • 如图为像素 的预测域图,途中标出 像素的3个相邻像素, 由先前(同行 一点,上一行两点)三点预测,定义为 构成三阶预测器。 其中,a1,a2,a3称预测 系数,都是待定参数。如果预 测器中预测系数是固定不变的 常数,称之为线性预测。 www.ncepu.edu.cn 3.1.2 最佳线线性预测预测 www.ncepu.edu.cn 3.1.2 最佳线线性预测预测 • 预测误差 • 线性预测器中,a1,a2,a3是待定参数, 当a1,a2,a3满足使预测误差最小,且保 持固定不变时,便构成最佳线性预测器。 www.ncepu.edu.cn 3.1.2 最佳线线性预测预测 • 应用均方误差最小准则,求出预测系数a1, a2,a3以获得 的最佳线性预测值 均方误差的表达式为 将预测值与实际值之间的均方误差 ,对a1,a2,a3求偏导,令 解方程,得a1,a2,a3,即为最佳线性预测系数。 www.ncepu.edu.cn 3.2 自适应预测编码应预测编码 • 在DPCM系统中,是预测系数和量化器参数一次设 计好后不再改变,对于图像平坦区和边缘处会导 致令人讨厌的噪声,因此引入自适应差值脉冲编 码调制(Adaptive DPCM, ADPCM)系统。 • 自适应技术的概念是预测器的预测系数和量化器 的量化参数,能够根据图像的局部区域分布特点 而自动调整。 • ADPCM系统包括:自适应预测,即预测系数的自 适应调整;自适应量化,即量化器参数的自适应 调整两部分。 www.ncepu.edu.cn 3.2.1 自适应预测应预测 • 一个三阶预测器的预测值计算公式为 现在增加一个可变参数“m”,得 式中m是一个自适应参数,m的取值依据量 化误差的大小自适应调整。 www.ncepu.edu.cn 3.2.1 自适应预测应预测 • 设量化器最大输出为 ,最小输出为 ,某一个预测误差的量化输出为 当 m不变 m自动变大 m自动减小 • M自动增大,使 随之增大,预测误差 减小,使斜率过载尽快收敛;m自动减小, 使 随之减小,预测误差加大,使量 化器输出不致正负跳变,减轻颗粒噪声。 www.ncepu.edu.cn 3.2.2 自适应应量化 • 自适应量化的概念是,根据图像局部区域 的特点,自适应地修改和调整量化器的参 数,包括量化器输出的动态范围,量化器 判决电平(量化器步长)等。 • 实际上是在量化器分层确定后,当预测误 差值小时,将量化器的输出动态范围减小 ,量化器步长减小;当预测误差大时,将 量化器的输出范围扩大,量化器步长扩 大。参数改变的原则,是量化误差低于该 误差下的视觉阈值,将误差掩盖。 www.ncepu.edu.cn 3.2.2 自适应应量化 • 自适应量化的具体实现方法是: ü 先定义一视觉掩盖函数M 这个掩盖函数的含义是,当4 个差值e1,e2,e3,e4中有一个 较大数值,那么对预测f时所形成 的量化误差,构成“掩盖效应”, 即掩盖量化噪声,使人眼难以察 觉。 www.ncepu.edu.cn 3.2.2 自适应应量化 ü 设量化分层级数为16,确定以下4种情况下的量化输 出电平值。 a) 当视觉掩盖函数M72时,M=72的可见度阈值约7.5 www.ncepu.edu.cn 3.3 帧间预测编码帧间预测编码 • 帧间编码技术处理的对象是序列图像(也 称为运动图像)。是把几帧的图像存储起 来做实时处理,利用帧间的时间相关性进 一步消除图像信号的冗余度,提高压缩 比。 • 基于预测技术的帧间预测编码方法:条件 补充法和运动补偿技术。 www.ncepu.edu.cn 3.3 帧间预测编码帧间预测编码 时间 B’C’ A’X’ 帧 BC AX 帧 www.ncepu.edu.cn 3.3.1 条件补补充法 • Mounts,Pease等人提出条件像素补充法规定, 若帧间各对应像素的亮度差超过阈值,则把这些 像素存在缓冲存储器中,并以恒定的传输速度传 送;而阈值以下的像素则不传送,在接收端用上 一帧相应像素值来代替。这样一幅电视图像可能 只传送其中较少部分的像素,且传送的只是帧间 差值,可以得到较好的压缩比。 • 条件补充法还可以和内插法相结合应用,称为条 件次取样。在时间轴采用次取样,对于未取样的 当前场某点,可以用隔场的4邻点的亮度的均值作 为该点亮度的预测值。 www.ncepu.edu.cn 3.3.2 运动补偿动补偿 技术术 • 在标准化视频编码方案MPEG中,运动补偿 技术是其使用的主要技术之一。尤其对于 运动部分只占整个画面较小的会议电视和 可视电视,引入运动补偿技术后,压缩比 可以提高很多。 • 运动补偿方法是跟踪画面内的运动情况对 其加以补偿之后再进行帧间预测。这项技 术的关键是运动向量的计算。 www.ncepu.edu.cn 3.3.2 运动补偿动补偿 技术术 • 运动向量的估值方法:块匹配算法 把图像分成若干子快图像,设子图像是M×N的矩形 块。设当前帧图像亮度信号为fk(m,n),前一次传送的图 像为fk-Ns(m,n),这里Ns为帧差数目。通常帧差Ns可能是 1,3或7.我们假定当前帧中的一个M×N子块是从第k-Ns 帧平行移动而来,并设M×N子块内所有像素都具有同一个 位移值(i,j)。假定运动物体在Ns帧差时间内水平和垂直 最大位移均为L,这样我们可以在第k-Ns帧搜索区SR内进 行搜索,这里SR搜索区为(M+2L,N+2L)。 www.ncepu.edu.cn 3.3.2 运动补偿动补偿 技术术 计算两帧中子块的相关函数 当相关函数NCCF(i,j)达到最小时,它的i和j值就 被认定为子块的水平和垂直位移值。由于上式计算量很大 ,通常用下列两式来代替。 MSE是均方误差,MAD是帧间绝对差,取MSE或MAD 最小时的i,j值就是水平和垂直的偏移量。 www.ncepu.edu.cn 4. 变换编码变换编码 • 变换编码不是直接对空域图像信号编码,而是首 先将空域图像信号影射变换到另一个正交矢量空 间(变换域或频域),产生一批变换系数,然后 对这些变换系数,进行编码处理。 • 在发送端将原始图像分隔成1到n个子图像块,每 个子图像块送入正交变换器做正交变换,变换器 输出变换系数经滤波、量化、编码后送信道传输 到达接收端,接收端作解码、逆变换、综合拼接 ,恢复出空域图像。 www.ncepu.edu.cn 4. 变换编码变换编码 子块1 子块2 子块n 正变换滤波量化 编码 信道 逆变换 解码 综合 拼接 原始图像 (发送) 恢复图像 www.ncepu.edu.cn 4.1 变换编码变换编码 的基本原理 • 变换编码技术已有近30年的历史,技术上 比较成熟,理论也较完备,广泛应用于各 种图像数据压缩,诸如单色图像、彩色图 像、静止图像、运动图像,以及多媒体计 算机技术中的电视帧内图像压缩和帧间图 像压缩等。 • 正交变换的种类很多,如傅立叶 (Fouries)变换、沃尔什(Walsh)变换、 余弦变换、K-L(Karhunen-Loeve)变换 等。 www.ncepu.edu.cn 4.2 最佳的正交变换变换 ——K-L变换变换 • 离散Karhunen-Loeve(K-L)变换是以图 像的统计特性为基础的一种正交变换,也 称为特征向量变换或主分量变换。 • 主分量变换技术早在1933年被霍特林 (Hotelling)发现,他曾对这种正交变换 作出了深入的研究。 • 当今在图像处理书中霍特林变换、K-L变换 都出现,其实所指的是同一种正交变换方 法——主分量法。 www.ncepu.edu.cn 4.3 离散余弦变换变换 DCT • 余弦变换是傅立叶变换的一种特殊情况。 在傅立叶级数展开式中,如果被展开的函 数是实偶函数,那么其傅立叶级数中只包 含余弦项,再将其离散化由此可导出余弦 变换,或称之为离散余弦变换(Discrete Cosine Transform, DCT)。 • DCT与K-L变换压缩性能和误差很接近,而 DCT计算复杂度适中,又具有可分离特性, 还有快速算法等特点。在JPEG、MPEG、 H.261等压缩标准都用到DCT进行数据压 缩。 www.ncepu.edu.cn 4.3 离散余弦变换变换 DCT • DCT变换是一种实数域变换,其变换核为实数的 余弦函数,计算速度较快,很适于做图像压缩。 设一幅图像,或者一幅图像的某个彩色分量经过数字 化后存为矩阵A,并设A为M×N矩阵,则2维DCT变换定义 为: 其中 DCT变换实际上是傅立叶变换的实数部分,它将一个 空间域的信号,变换为一个频域上的信号。 www.ncepu.edu.cn 4.3 离散余弦变换变换 DCT ü彩色图像 ü高645像素 ü宽600像素 ü在计算机中存储为3个 矩阵 ü每个矩阵为6
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:多媒体数据压缩编码技术
链接地址:https://www.maidoc.com/p-15676362.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 


收起
展开