第13章MPEG电视 水水水水*水水水水冰水水水水水水水水水水水客水水水水水水冰水水水水冰水水水水水水水水水水水水水冰水水水冰水水水水水水水水*水水冰水水水冰水 13.1电视图像的数据率 13.1.1ITU-RBT.601标准数据率 13.1.2VCD电视图像数据率的估算 13.1.3DVD电视图像数据率的估算 13.2数据压缩算法 13.2.1简介 13.2.2帧内图像I的压缩编码算法 13.2.3预测图像P的压缩编码算法 13.2.4双向预测图像B的压缩编码算 13.2.5电视图像的结构 13.3MPEG2的配置和等级 13.4MPEG-4电视图像编码 13.4.1电视图像对象区的概念 13.4.2电视图像编码方案 13.4.3电视图像分辨率可变编码 3.5HDTV格式 练习与思考题 参考文献和站点 水水水冰冰水水水水水水水本水水冰水客客冰本水水水水客水水水水木水水水客水水本*水冰水水水冰冰水水水水水冰水水水水水水水半水水水水本水冰水 MPEG-1和-2ideo标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同, 都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG-4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像 对象(WO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比 而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。 13.1电视图像的数据率 13.1.1ITU-RBT.601标准数据率 按照奈奎斯特( Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散 的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得 惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视 信号进行压缩。 为了在PAL、NTSC和 SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际 无线电咨询委员会(CCIR就制定了演播室质量的数字电视编码标准,这就是非常有名的 ITU-RBT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75Mz/s,在传输数字电视信号通道上的数 据传输率就达到为270Mb/s(兆位/秒)!,即 亮度(Y) 58样本/行×525行/帧×30帧/秒×10位/样本≡135兆位/秒(NTSC) 864样本/行×625行/帧×25帧/秒×10位/样本三135兆位/秒(PAL) Cr(R-y) 429样本/行×525行/帧×30帧/秒×10位/样本三68兆位/秒(NTSC) 429样本/行×625行/帧×25帧/秒×10位/样本三68兆位/秒(PAL) Cb(B-Y) 429样本/行×525行/帧×30帧/秒×10位/样本≡68兆位/秒(NTSC)
第13章 MPEG电视 *************************************************************************** 13.1 电视图像的数据率 13.1.1 ITU-R BT.601标准数据率 13.1.2 VCD电视图像数据率的估算 13.1.3 DVD电视图像数据率的估算 13.2 数据压缩算法 13.2.1 简介 13.2.2 帧内图像I的压缩编码算法 13.2.3 预测图像P的压缩编码算法 13.2.4 双向预测图像B的压缩编码算 法 13.2.5 电视图像的结构 13.3 MPEG-2的配置和等级 13.4 MPEG-4电视图像编码 13.4.1 电视图像对象区的概念 13.4.2 电视图像编码方案 13.4.3 电视图像分辨率可变编码 13.5 HDTV格式 练习与思考题 参考文献和站点 *************************************************************************** MPEG-1和-2 Video标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同, 都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG-4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像 对象(VO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比 而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。 13.1 电视图像的数据率 13.1.1 ITU-R BT.601标准数据率 按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散 的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得 惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视 信号进行压缩。 为了在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际 无线电咨询委员会(CCIR)就制定了演播室质量的数字电视编码标准,这就是非常有名的 ITU-R BT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,在传输数字电视信号通道上的数 据传输率就达到为270 Mb/s(兆位/秒)!,即 亮度(Y): 858样本/行×525行/帧×30帧/秒×10位/样本 135兆位/秒(NTSC) 864样本/行×625行/帧×25帧/秒×10位/样本 135兆位/秒(PAL) Cr (R-Y): 429样本/行×525行/帧×30帧/秒×10位/样本 68兆位/秒(NTSC) 429样本/行×625行/帧×25帧/秒×10位/样本 68兆位/秒(PAL) Cb (B-Y): 429样本/行×525行/帧×30帧/秒×10位/样本 68兆位/秒(NTSC)
第13章MPEG电视 429样本/行×625行/帧×25帧/秒×10位/样本≡68兆位/秒(PAL) 总计:27兆样本/秒×10位/样本=270兆位/秒 实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高, 亮度(Y) 720×480×30×10≡104Mb/s(NTSC) 720×576×25×10=104Mb/s(PAL) 色差(Cr,Cb):2×360×480×30×10≡104Mb/s(NTSC) 2×360×576×25×10=104Mb/s(PAL) 总计 207 Mb/s 如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s 13.1.2电视图像数据率的估算 如果考虑使用 Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15Mb/s,这就意味MPEG电视编码器的输出数据率 要达到1.15M/s。显而易见,如果存储166Ⅷb/s的数字电视信号就需要对它进行高度压缩, 压缩比高达166/1.15=1441 MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把MTSC和PAL数字电视转 换成公用中分辨率格式 CIF(Common Intermediate Format)的数字电视,这种格式相当于 VHS( Video Home System)的质量,于是彩色数字电视的数据传输率就减小到 352×240×30×8×1.5≡30Mb/s(NTSC) 352×288×25×8×1.530Mb/s(PAL)。 把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.1526:1。这就是MPEG-1技术 所能获得的压缩比 13.1.3电视图像数据率的估算 根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5Mb/s~4.7Mb/s时非 专家难于区分电视图像在压缩前后的之间差别。如果使用DWD- Video存储器来存储数字电视, 它的数据传输率虽然可以达到10.08Mb/s,但一张4.7GB的单面单层DWD盘要存放133分钟的 电视节目,按照数字电视信号的平均数据传输率为4.1Mb/s来计算,压缩比要达到:166/4.10 40:1 如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传 输率就减小到124Mb/s,即 720×480×30×8×1.5≡124Mb/s(NTSC) 720×576×25×8×1.5124Mb/s(PAL) 使用 DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比 为:124/4.130:1。 13.2数据压缩算法 13.2.1简介 电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电 视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正 如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余 表13-1电视图像压缩利用的各种冗余信息 目前用的主要方法 统计空间冗余像素间的相关性 换编码,预测编码 寺性时间冗余时间方向上的相关性 帧间预测,移动补偿 图像构造冗余 图像本身的构造 轮廓编码,区域分割 和识冗余 收发两端对人物的共有认识基于知识的编码 视觉冗余 人的视觉特性 非线性量化,位分配
第13章 MPEG电视 2 429样本/行×625行/帧×25帧/秒×10位/样本 68兆位/秒(PAL) 总计: 27兆样本/秒×10位/样本 = 270兆位/秒 实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高, 亮度(Y): 720×480×30×10 104 Mb/s (NTSC) 720×576×25×10 104 Mb/s (PAL) 色差(Cr,Cb): 2×360×480×30×10 104 Mb/s (NTSC) 2×360×576×25×10 104 Mb/s (PAL) 总计: ~ 207 Mb/s 如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s。 13.1.2 电视图像数据率的估算 如果考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15 Mb/s,这就意味MPEG电视编码器的输出数据率 要达到1.15 Mb/s。显而易见,如果存储166 Mb/s的数字电视信号就需要对它进行高度压缩, 压缩比高达166/1.15 144:1。 MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转 换成公用中分辨率格式CIF(Common Intermediate Format)的数字电视,这种格式相当于 VHS(Video Home System)的质量,于是彩色数字电视的数据传输率就减小到 352×240×30×8×1.5 30 Mb/s (NTSC) 352×288×25×8×1.5 30 Mb/s (PAL)。 把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15 26:1。这就是MPEG-1技术 所能获得的压缩比。 13.1.3 电视图像数据率的估算 根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5 Mb/s ~ 4.7 Mb/s时非 专家难于区分电视图像在压缩前后的之间差别。如果使用DVD-Video存储器来存储数字电视, 它的数据传输率虽然可以达到10.08 Mb/s,但一张4.7 GB的单面单层DVD盘要存放133分钟的 电视节目,按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到:166/4.10 40:1。 如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传 输率就减小到124 Mb/s,即 720×480×30×8×1.5 124 Mb/s (NTSC) 720×576×25×8×1.5 124 Mb/s (PAL) 使用DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比 为:124/4.1 30:1。 13.2 数据压缩算法 13.2.1 简介 电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电 视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正 如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余。 表13-1 电视图像压缩利用的各种冗余信息 种类 内容 目前用的主要方法 统计 空间冗余 像素间的相关性 变换编码,预测编码 特性 时间冗余 时间方向上的相关性 帧间预测,移动补偿 图像构造冗余 图像本身的构造 轮廓编码,区域分割 知识冗余 收发两端对人物的共有认识 基于知识的编码 视觉冗余 人的视觉特性 非线性量化,位分配
第13章MPEG电视 其他 不确定性因素 MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:①在空间方向上,图 像数据压缩采用JPG( Joint Photographic Experts group)压缩算法来去掉冗余信息。②在 时间方向上,图像数据压缩采用移动补偿( motion compensation)算法来去掉冗余信息 为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图 像:帧内图像I( intra),预测图像P( predicted)和双向预测图像B( bidirectionally interpolated),典型的排列如图13-01所示。这三种图像将采用三种不同的算法进行压缩。 B PIBB 图13-01MPEG专家组定义的三种图像 13.2.2帧内图像工的压缩编码算法 帧内图像Ⅰ不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法, 它的框图如图13-02所示。如果电视图像是用RGB空间表示的,则首先把它转换成 YCrCb空间 表示的图像。每个图像平面分成8×8的图块,对每个图块进行离散余弦变换DCT( discrete osine transform。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再 使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码 DPoM( Differential Pulse Code Modulation),交流分量系数用行程长度编码 RLE(run- length encoding),然后再用赫夫曼( Huffman)编码或者用算术编码。它的编码框 图如图13-2所示 YCbCr/CMYK 每个图象平面 每个 DcT量化 富夫曼编码/口DM RLE 图13-02帧内图像I的压缩编码算法框图 (I ESimon Fraser University School of Computing Science, Dr. Ze-Nian Li http://fas.sfu.ca/cs/undergrad/coursematerials/cmpt365/material/notes/content html)
第13章 MPEG电视 3 其他 不确定性因素 MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:① 在空间方向上,图 像数据压缩采用JPEG(Joint Photographic Experts Group)压缩算法来去掉冗余信息。② 在 时间方向上,图像数据压缩采用移动补偿(motion compensation)算法来去掉冗余信息。 为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图 像:帧内图像I(intra),预测图像P(predicted )和双向预测图像B(bidirectionally interpolated ),典型的排列如图13-01所示。这三种图像将采用三种不同的算法进行压缩。 图13-01 MPEG专家组定义的三种图像 13.2.2 帧内图像I的压缩编码算法 帧内图像I不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法, 它的框图如图13-02所示。如果电视图像是用RGB空间表示的,则首先把它转换成YCrCb空间 表示的图像。每个图像平面分成8×8的图块,对每个图块进行离散余弦变换DCT(discrete Cosine Transform)。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再 使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码 DPCM(Differential Pulse Code Modulation) , 交 流 分 量 系 数 用 行 程 长 度 编 码 RLE(run-length encoding),然后再用赫夫曼(Huffman)编码或者用算术编码。它的编码框 图如图13-2所示。 图13-02 帧内图像I的压缩编码算法框图 (引自Simon Fraser University School of Computing Science, Dr. Ze-Nian Li, http://fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT365/material/notes/contents. html)
第13章MPEG电视 13.2.3预测图像P的压缩编码算法 预测图像的编码也是以图像宏块( macroblock)为基本编码单元,一个宏块定义为I×J 像素的图像块,一般取16×16。预测图像P使用两种类型的参数来表示:一种参数是当前要 编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。移动矢量的 概念可用图13-03表示 坦尼克》电影上的镜头 移动矢量 图13-03移动矢量的概念 求解差值的方法如图13-04所示。假设编码图像宏块M是参考图像宏块M的最佳匹配块 它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作 4:1:1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移 动矢量也要进行赫夫曼编码。 13参考图象 DCT+量化+RL 签夫曼编码 图13-04预测图像P的压缩编码算法框图[2] 求解移动矢量的方法定义在图13-05中。在求两个宏块差值之前,需要找出编码图像中 的预测图像编码宏块MP1相对于参考图像中的参考宏块MR所移动的距离和方向,这就是移动 矢量( motion vec tor)
第13章 MPEG电视 4 13.2.3 预测图像P的压缩编码算法 预测图像的编码也是以图像宏块(macroblock)为基本编码单元,一个宏块定义为I×J 像素的图像块,一般取16×16。预测图像P使用两种类型的参数来表示:一种参数是当前要 编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。移动矢量的 概念可用图13-03表示。 图13-03 移动矢量的概念 求解差值的方法如图13-04所示。假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块, 它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作 4:1:1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移 动矢量也要进行赫夫曼编码。 图13-04 预测图像P的压缩编码算法框图[2] 求解移动矢量的方法定义在图13-05中。在求两个宏块差值之前,需要找出编码图像中 的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向,这就是移动 矢量(motion vector)
第13章MEG电视 预测絹码图象 搜索窗口 参考图象 最佳匹配 Macroblock Mh: Motion vector 被拽芽的志 (水平方向) Mv: Nodon Vector(垂直方向 图13-5移动矢量的算法框图 要使预测图像更精度,就要求找到与参考宏块M最佳匹配的预测图像编码宏块MP1。所 谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE( absolute difference)最小 作为匹配判据, AE= ∑D-g-,J-4),(=10 有些学者提出了以均方误差MSE(mean- square error)最小作为匹配判据, MSE=∑∑[(,n)-g(-d1,j-d,)2,(=j=16) 也有些学者提出以平均绝对帧差MAD( mean of the absolute frame difference)最小作 为匹配判据, MAD=∑∑|(n-g(-d1,j-d,),(=j=16) 其中,d和d分别是参考宏块M的移动矢量d(d,d)在X和Y方向上的矢量 从以上分析可知,对预测图像的编码实际上就是寻找最佳匹配图像宏块,找到最佳宏块 之后就找到了最佳移动矢量d(d,d)。 为减少搜索次数,现在已开发出许多简化算法用来寻找最佳宏块,下面介绍其中的三种。 1.二维对数搜索法(2 )-logarithmic search) 这种方法采用的匹配判据是MSE为最小。它的搜索策略是沿着最小失真方向搜索。二维 对数搜索方法如图13-06所示。在搜索时,每移动一次就检査5个搜索点。如果最小失真在中 央或在边界,就减少搜索点之间的距离。在这个例子中,步骤1,2,…,5得到的近似移动 矢量a(i,产2)、(i,产4)、(计+2,广4)、(计2,产5)和(计+2,产6),最后得到的移动矢 量为d(i+2,产6)
第13章 MPEG电视 5 图13-5 移动矢量的算法框图 要使预测图像更精度,就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。所 谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE(absolute difference)最小 作为匹配判据, − = = − − − 15 0 15 0 ( , ) ( , ) j x y i AE f i j g i d j d , (i = j = 16) 有些学者提出了以均方误差MSE(mean-square error)最小作为匹配判据, − − − 2 J 2 I 2 I J 1 = [ ( , ) ( , )] j x y i MSE f i j g i d j d , (i = j = 16) 也有些学者提出以平均绝对帧差MAD(mean of the absolute frame difference)最小作 为匹配判据, = ( , ) ( , ) 2 J 2 I I J 1 x y i j MAD f i j − g i − d j − d , (i = j = 16) 其中,dx和dy分别是参考宏块MRJ的移动矢量d(dx, dy)在X和Y方向上的矢量。 从以上分析可知,对预测图像的编码实际上就是寻找最佳匹配图像宏块,找到最佳宏块 之后就找到了最佳移动矢量d(dx,dy)。 为减少搜索次数,现在已开发出许多简化算法用来寻找最佳宏块,下面介绍其中的三种。 1. 二维对数搜索法(2D-logarithmic search) 这种方法采用的匹配判据是MSE为最小。它的搜索策略是沿着最小失真方向搜索。二维 对数搜索方法如图13-06所示。在搜索时,每移动一次就检查5个搜索点。如果最小失真在中 央或在边界,就减少搜索点之间的距离。在这个例子中,步骤1,2,…,5得到的近似移动 矢量d为(i,j-2)、(i,j-4)、(i+2,j-4)、(i+2,j-5)和(i+2,j-6),最后得到的移动矢 量为d(i+2,j-6)