MPEG-4视频编码技术1引言MPEG4是继MPEG-1,MPEG-2之后IS0/IEC推出的又一个重要的视音频编解码标准,1998年12月公布标准的第一个版本。与MPEG-1,MPEG-2相比,MPEG4具有很大的灵活性,其提供的码率低端可小于64Kbps,高端可大于8Mbps。标准提供对多种图像分辨率的支持,不但可以对白然视频进行高效率的编码,还具有对合成音视频对象、脸部模型、网格对象的编码能力,增加了对网络交互环境的支持,与计算机信息处理的结合更加密切。在编码方式上的重大改进是提出对象的概念,强调人与媒体对象的交互能力2]。概括来说,MPEG4的最重要特征是:高压缩率;对象的有效表达,对象操作,比特流编辑,对象基可分级性使内容基的交互性达到一个新的水平:通用存取:在差错环境下的鲁棒性使经MPEG-4编码的内容可在各种媒质上存取,如移动网络、有线连接。作为MPEG-4的重要部分,MPEG-4视频组开发了一种视频验证模型,其中给出说明特定功能的视频编码和解码算法。它是一个通用的平台,新的算法和工具若经核心试验证明是成功的,将加入或代替旧的算法,这样视频验证模型将不断更新,目前已发展到VM18.0L3。下面主要介绍MPEG-4的白然视频编码技术。2MPEG-4视频语法结构MPEG-4视频以视频对象为基础,视频对象定义为“具有一定语义的实体”。视频内容语法结构呈现一种层次结构,从高层到低层依次是视频序列(VS),视频对象(VO)、视频对象层(VOL)、视频对象组(GOV)和视频对象平面(VOP),其中视频序列是由一系列具有一定时问和空问关系的视频对象构成,一个视频对象可由多个视频对象层组成,VOL提供基于对象的分级支持。每个VOL由若干视频对象组构成,GOV提供随机切入的功能。GOV由一系列时问上相继的视频对象平面组成。VOP是基本的编码单位,编码时VOP将分成16x16的宏块并进一步分解为8x8的块。MPEG-4视频对象的编码框图如图日1所示。X'信息序列Xu=lu,uz..gunXPI复分量编码器1删用XP余' - i,u...n)矩Yp2交织器分量编码器2图.1VOP编码器结构图Fig.1 VOPencoded structure其中运动编码和纹理编码模块与MPEG-1,MPEG-2类似.只是操作单位是VOP。形状编码模块是MPEG-4特有的,用于编码α形状信息。MPEG-4应用了许多最先进的视频编码技术,可以说是吸收了MPEG-1,MPEG-2,H.263等标准的精华并有进一步的发展。下面逐一阐述MPEG-4自然视频编码的关键技术。3MPEG-4自然视频编码的关键技术
MPEG-4 视频编码技术 1 引言 MPEG 4是继MPEG-1,MPEG-2之后ISO/IEC推出的又一个重要的视音频编解码标准,1998 年 12 月公布标准的第一个版本。与 MPEG-1,M PEG-2 相比,MPEG 4 具有很大的灵活性,其 提供的码率低端可小于 64Kbps,高端可大于 8Mbps。标准提供对多种图像分辨率的支持,不 但可以对白然视频进行高效率的编码,还具有对合成音视频对象、脸部模型、网格对象的编 码能力,增加了对网络交互环境的支持,与计算机信息处理的结合更加密切。在编码方式上 的重大改进是提出对象的概念,强调人与媒体对象的交互能力[1,2]。概括来说,MPEG 4 的最 重要特征是:高压缩率;对象的有效表达,对象操作,比特流编辑,对象基可分级性使内容基 的交互性达到一个新的水平; 通用存取:在差错环境下的鲁棒性使经 MPEG-4 编码的内容可 在各种媒质上存取,如移动网络、有线连接。作为 MPEG-4 的重要部分,MPEG-4 视频组开发 了一种视频验证模型,其中给出说明特定功能的视频编码和解码算法。它是一个通用的平台, 新的算法和工具若经核心试验证明是成功的,将加入或代替旧的算法,这样视频验证模型将 不断更新,目前已发展到 VM 18. 0[3]。下面主要介绍 MPEG-4 的白然视频编码技术。 2 MPEG-4 视频语法结构 MPEG-4 视频以视频对象为基础,视频对象定义为“具有一定语义的实体”。视频内容 语法结构呈现一种层次结构,从高层到低层依次是视频序列(VS) ,视频对象(VO)、视频对象 层(VOL)、视频对象组(GOV)和视频对象平面(VOP),其中视频序列是由一系列具有一定时问 和空问关系的视频对象构成,一个视频对象可由多个视频对象层组成,VOL 提供基于对象的 分级支持。每个 VOL 由若干视频对象组构成, GOV 提供随机切入的功能。GOV 由一系列时问 上相继的视频对象平面组成。VOP 是基本的编码单位,编码时 VOP 将分成 16x 16 的宏块并 进一步分解为 8x8 的块。 MPEG-4 视频对象的编码框图如图 1 所 示 。 图.1 VOP 编码器结构图 Fig.1 VOP encoded structure 其中运动编码和纹理编码模块与 MPEG-1,MPEG-2 类似.只是操作单位是 VOP。形状编码 模块是 MPEG-4 特有的,用于编码 α 形状信息。MPEG-4 应用了许多最先进的视频编码技术, 可以说是吸收了 MPEG-1,MPEG-2,H. 263 等标准的精华并有进一步的发展。下面逐一阐述 MPEG-4 自然视频编码的关键技术。 3 MPEG-4 自然视频编码的关键技术
3.1视频对象平面的产生MPEG-4的视频编码单位是VOP,但标准并未规定生成VOP的具体算法,而将其列入公开研究的内容。VOP能否成功提取直接影响MPEG-4优越性的发挥,但由于VOP定义的主观性,目前国际上仍缺乏有效的提取方法。现有的VOP提取有全自动和半自动两种方案。全自动方案不需要人的帮助,整个提取过程白动进行,这只有在已知VOP具有某种特定的、能与图像的其他部分区分开的属性(如色度或运动属性)时才可行,其适应范围窄,儿乎没有实用价值。半自动方案又可分为两大类:一类是重要参数辅助输入的半自动方案,一类是人工初始输入的半自动方案。前一类方案依照人对序列和分割结果的判断调整算法的某些参数,如在ThomasMei二的方法中,在提取过程之前需要人工输入运动滤波器和对象跟踪器的有关参数才能使结果达到最佳。第二类方案是通过人的输入确定初始顿VOP的范围,利用一些算法获得初始VOP,并在后继帧中白动跟踪此VOP的形变和运动,如ActiveMOS方法。这类方法的优点是提取VOP的边缘较为准确,不但适用于运动视频对象,也适用于静止视频对象,是目前较为成熟的方法,其缺点是用户的工作量较大,无法实时进行。图2给出一种半白动VOP提取方案的演示图左图是初始顿用户给出对象的粗略边缘后用snake算法获得的VOP,右图表示在后继帧中用轮廓跟踪和运动估计技术白动产生的VOP。(a)第一顿(初始)的VOP(b)第二顿(跟踪顿)提取的结果(a)VOP in the first (initial) frame(b) VOPin the second (tracking)frame图.2VOP提取示意图Fig.2VOPextractionresult3.2形状编码VOP的形状编码可分为二值形状编码和灰度级形状编码两种,前者用二值掩模表示属于对象的区域,主要用于白然视频编码的场合,后者的形状α值可在[0,255]内取值,主要用于基于蓝屏组合或合成序列的混合序列中。二值形状α平面的形状宏块(BAB:16x16)有多种编码模式,其中I-VOP(顿内编码的VOP)有两种模式:INTRA,BAB转置后再做INTRA编码,应选产生码字最少的那一种模式。对P-VOP来说,还要考虑另外两种模式:INTER以及BAB转置后再做INTER模式编码,选两种模式中产生码字最少的那一种。最后还要比较INTER和INTRA模式下的最少码字数以选择码字最少的那一种模式。灰度级形状信息可由其支撑函数和支撑中的值来表示。支撑函数为值大于0的像素集,用前述的二值形状编码方式编码,而α值则作为具有任意形状的纹理进行编码,码字放于纹理宏块之后。3.3运动估计和压缩技术因为运动估计是针对任意形状VOP进行的,VOP的边缘块应采用多边形匹配运动估计而不是普通的块匹配法。另外,参考VOP要进行“重复填补”。MPEG-4有3种运动估计和补偿模式:基本的运动估计和补偿模式、无限制的运动估计模式和先进的预测模式。在无限制的模式中,运动失量不必受限于VOP之内,而先进预测模式充许一个宏块有多个运动失量并允许重叠的运动补偿
3.1 视频对象平面的产生 MPEG-4 的视频编码单位是 VOP,但标准并未规定生成 VOP 的具体算法,而将其列入公 开研究的内容。VOP 能否成功提取直接影响 MPEG-4 优越性的发挥,但由于 VOP 定义的主观 性,目前国际上仍缺乏有效的提取方法。现有的 VOP 提取有全自动和半自动两种方案。全自 动方案不需要人的帮助,整个提取过程白动进行,这只有在已知 VOP 具有某种特定的、能与 图像的其他部分区分开的属性(如色度或运动属性)时才可行,其适应范围窄,儿乎没有实用 价值。半自动方案又可分为两大类:一类是重要参数辅助输入的半自动方案,一类是人工初 始输入的半自动方案。前一类方案依照人对序列和分割结果的判断调整算法的某些参数,如 在 Thomas Mei 二的方法中[4],在提取过程之前需要人工输入运动滤波器和对象跟踪器的有 关参数才能使结果达到最佳。第二类方案是通过人的输入确定初始帧 VOP 的范围,利用一些 算法获得初始帧 VOP,并在后继帧中白动跟踪此 VOP 的形变和运动,如 ActiveMOS 方法[5] 。 这类方法的优点是提取 VOP 的边缘较为准确,不但适用于运动视频对象,也适用于静止视频 对象,是目前较为成熟的方法,其缺点是用户的工作量较大,无法实时进行。图 2 给出一种 半白动 VOP 提取方案的演示图[6]左图是初始帧用户给出对象的粗略边缘后用 snake 算法获得 的 VOP,右图表示在后继帧中用轮廓跟踪和运动估计技术白动产生的 VOP。 (a)第一帧 (初始)的 VOP (b)第二帧 (跟踪帧)提取的结果 (a)VOP in the first (initial) frame (b) VOP in the second (tracking) frame 图.2 VOP 提取示意图 Fig.2 VOP extraction result 3.2 形状编码 VOP 的形状编码可分为二值形状编码和灰度级形状编码两种,前者用二值掩模表示属 于对象的区域,主要用于白然视频编码的场合,后者的形状 α 值可在[0,255]内取值,主要 用于基于蓝屏组合或合成序列的混合序列中。 二值形状 α 平面的形状宏块(BAB: 16x16)有多种编码模式,其中 I-VOP(帧内编码的 VOP)有两种模式:INTRA, BAB 转置后再做 INTRA 编码,应选产生码字最少的那一种模式。对 P-VOP 来说,还要考虑另外两种模式:INTER 以及 BAB 转置后再做 INTER 模式编码,选两种模 式中产生码字最少的那一种。最后还要比较 INTER 和 INTRA 模式下的最少码字数以选择码字 最少的那一种模式。灰度级形状信息可由其支撑函数和支撑中的 α 值来表示。支撑函数为 α 值大于 0 的像素集,用前述的二值形状编码方式编码,而 α 值则作为具有任意形状的纹 理进行编码,码字放于纹理宏块之后。 3.3 运动估计和压缩技术 因为运动估计是针对任意形状 VOP 进行的,VOP 的边缘块应采用多边形匹配运动估计 而不是普通的块匹配法。另外,参考 VOP 要进行“重复填补”。MPEG-4 有 3 种运动估计和补 偿模式:基本的运动估计和补偿模式、无限制的运动估计模式和先进的预测模式。在无限制 的模式中,运动矢量不必受限于 VOP 之内,而先进预测模式允许一个宏块有多个运动矢量并 允许重叠的运动补偿
与MPEG-1,MPEG-2不同,由于MPEG-4是对于任意形状的对象进行编码的,所以在运动估计时,对VOP边缘和边缘之外的宏块必须进行填补,其中VOP边缘处的宏块做水平填补和垂直填补。水平填补将VOP水平行边缘处的像素值复制到VOP之外,而垂直填补将VOP垂直边缘处的像素复制到VOP之外的像素处。在VOP之外的宏块用延仲填补法填补。延仲填补是将此宏块紧邻的边缘宏块的边缘像素值(已经水平、重复填补)复制到此宏块中去。3.4纹理编码顿内VOP和运动补偿后的残差数据都用相同的8x8块DCT方案编码,对亮度和色度分别做DCT。对于VOP之内的宏块用与H.263相同的技术编码,对位于VOP形状边缘的宏块则先做低通外插填补(LPE)再做DCT。LPE填补过程分三步:(1)计算块中属于对象的像素的平均值m=(1/N)Zf(ii):,结果舍入到最近的整数。C2)将块中不属于对象的点都赋以m:f(i.j)=m,对(i.i)+R。(3)对块中所有不属于对象的点进行滤波:f(i,j)=[f(i,j-1)+f(i-1,j)+f(i,j+1)+f(i+1,j)/4DCT有两种类型:顿DCT和场DCT。根据相关性和场相关性大小白适应选择响场DCT,判决公式为:(aum )2若之(pa. -p2i2.) +ZZL台台J=010J=0(p2i+1, jp2, j) 2则选用场DCT,否则选用顿DCT。其中Pi,为(i,j)处像素值。对DCT后的数据量化、扫描与可变长编码操作类似于MPEG-2和H.263,在此就不详述了。3.5抵抗错误的坚韧性由于MPEG-4的应用范围很广,为了有效地抵抗错误的影响,MPEG-4提供3大类错误揭示和恢复工具:再同步、数据恢复、错误掩盖和错误刷新。再同步机制类似MPEG-2的slice二层语法提供的功能。在MPEG-4中以视频包作为再同步单位,由于错误发生的随机性和码字的不均匀性,MPEG-4决定使用固定比特数的视频包。当当前视频包中比特数超过一个预定的门限时,在下一个宏块的开始处就创建一个新包。视频包中含有重新开始解码过程所必要的信息。在重新建立同步之后,用数据恢复工具恢复前面丢失的数据。数据恢复主要利用RVLC的逆向可解性进行。错误掩盖和刷新:首先将数据分区为纹理信息和运动信息两部分,中问插一个标志位motionmarker。若纹理信息发生错误,则用运动信息从上一个解码VoP中恢复出当前的纹理。错误刷新方法有两种:一是用帧内编码周期性或白适应地刷新VOP或宏块:二是利用具有上行通道的顿问编码技术选择正确的参考从而避免误差扩散,称NEWPRED方式。NEWPRED方式适用于实时通信环境,而顿内刷新不仅适用于实时通信而且可用于广播和存储媒体中。实际使用时可将两种方式结合起来。3.6通用可分级编码与MPEG-2一样,MPEG-4支持空问分级和时问分级。在空问分级中MPEG-4支持矩形VOP的分级,基本层给出一个低分辨率的图像,并用双线性内插扩展到增强层的大小,作为增强层对应VOP的参考VOP。在时问分级中,增强层用于增大基层序列的帧率从而使运动更加平滑。MPEG-4支持任意形状VOP的时问分级,有两种时问分级类型。在第一种类型中
与 MPEG-1, MPEG-2 不同,由于 MPEG-4 是对于任意形状的对象进行编码的,所以在运 动估计时,对 VOP 边缘和边缘之外的宏块必须进行填补,其中 VOP 边缘处的宏块做水平填补 和垂直填补。水平填补将 VOP 水平行边缘处的像素值复制到 VOP 之外,而垂直填补将 VOP 垂直边缘处的像素复制到 VOP 之外的像素处。在 VOP 之外的宏块用延仲填补法填 补。延仲填补是将此宏块紧邻的边缘宏块的边缘像素值(已经水平、重复填补)复制到此宏 块中去。 3.4 纹理编码 帧内 VOP 和运动补偿后的残差数据都用相同的 8x8 块 DCT 方案编码,对亮度和色度分 别做 DCT。对于 VOP 之内的宏块用与 H.263 相同的技术编码,对位于 VOP 形状边缘的宏块则 先做低通外插填补(LPE)再做 DCT。 L PE 填补过程分三步: (1) 计算块中属于对象的像素的平均值 m=(1/ N) ∑f(i,j).,结果舍入到最近的整数。 ( 2)将块中不属于对象的点都赋以 m: f(i,j)=m,对(i,j)≮ R。 (3)对块中所有不属于对象的点进行滤波: f(i,j)=[f(i,j-1)+ f(i-1,j)+ f(i,j+1)+ f(i+1,j)]/4 DCT 有两种类型:帧 DCT 和场 DCT。根据帧相关性和场相关性大小白适应选择峋场 DCT,判决公式为: 若 ∑= 6 i 0 ∑= 15 j 0 (p2i,j-p2i+1,j)2 +∑= 15 j 0 (p2i+1,j-p2i+2,j)2 >∑= 6 i 0 ∑= 15 j 0 (p2i,j-p2i+2,j)2 +∑= 15 j 0 (p2i+1,j-p2i+3,j)2 则选用场 DCT,否则选用帧 DCT。其中 Pi,j为(i,j)处像素值。对 DCT 后的数据量化、扫描 与可变长编码操作类似于 MPEG-2 和 H.263,在此就不详述了。 3.5 抵抗错误的坚韧性 由于 MPEG-4 的应用范围很广,为了有效地抵抗错误的影响,MPEG-4 提供 3 大类错误 揭示和恢复工具:再同步、数据恢复、错误掩盖和错误刷新。 再同步机制类似 MPEG-2 的 slice 二层语法提供的功能。在 MPEG-4 中以视频包作为再同 步单位,由于错误发生的随机性和码字的不均匀性,MPEG-4 决定使用固定比特数的视频包。 当当前视频包中比特数超过一个预定的门限时,在下一个宏块的开始处就创建一个新包。视 频包中含有重新开始解码过程所必要的信息。 在重新建立同步之后,用数据恢复工具恢复前面丢失的数据。数据恢复主要利用 RVLC 的逆向可解性进行。 错误掩盖和刷新:首先将数据分区为纹理信息和运动信息两部分,中问插一个标志位` motion marker。若纹理信息发生错误,则用运动信息从上一个解码 VOP 中恢复出当前的纹 理。 错误刷新方法有两种:一是用帧内编码周期性或白适应地刷新 VOP 或宏块;二是利用具 有上行通道的帧问编码技术选择正确的参考帧从而避免误差扩散,称 NEWPRED 方式。NEWPRED 方式适用于实时通信环境,而帧内刷新不仅适用于实时通信而且可用于广播和存储媒体中。 实际使用时可将两种方式结合起来。 3.6 通用可分级编码 与 MPEG-2 一样,MPEG-4 支持空问分级和时问分级。在空问分级中 MPEG-4 支持矩 形 VOP 的分级,基本层给出一个低分辨率的图像,并用双线性内插扩展到增强层的大小,作 为增强层对应 VOP 的参考 VOP。在时问分级中,增强层用于增大基层序列的帧率从而使运动 更加平滑。 MPEG-4 支持任意形状 VOP 的时问分级,有两种时问分级类型。在第一种类型中
增强层对基层中一部分区域作顺率的增强。在第二种类型中,增强层对基层的整个区域作增强。增强层类型由enhancement_type指示。3.7精灵编码精灵是由视频段中始终可见的视频对象上的像素组成的图像。例如:从由于摄像机镜头摇移所产生的序列中得到的精灵将包括整个序列中背景对象的所有可见像素。精灵编码用于合成序列或只做刚性运动的白然视频编码可达到很高的压缩效率,是MPEG-4特有的视频压缩工具。精灵是由全局运动估计算法产生的。在精灵编码中,色度分量和灰度级α分量用和亮度分量相同的方式处理。可以将精灵分片传送以适应延时或带宽的限制,这尤其适合于streaming方式的媒体流传送。MPEG-4允许精灵作多种变形,包括静止、平移、各向同性的放大收缩、旋转、仿射和透视运动。每种变换都可用一些系数或一些参考点的运动轨迹来定义,前者在进行变换时较为方便,后者在编码时较为方便,参考点数决定形变类型,此点数用no_of_sprit_warpin_points在VOL中传送。精灵的形变形成vOP。3.8静止图像编码对静止图像采用零树小波基的编码方法,提高了压缩率,并提供混合的空闻SNR分级模式。零树小波基编码方案基本模块如下:(1)用离散小波变换(DWT)对纹理进行分解,实验证明采用Daubechies(9,3)抽头的双正交滤波器具有较好的压缩性能。(2)对小波系数进行量化。(3)对最低频了带用预测方案编码。当前系数Wx用3个邻近的系数Wa,Wb和Wc进行预测,在DPCM后的系数用白适应算术编码器编码。(4)对高频了带小波系数作零树扫描后对量化小波系数和显著性图进行编码。用零树结构对小波系数进行编码是利用小波分解的特性:若某一低频带的小波系数为“不重要”(量化为0),则所有同方向上的高频了带相同位置处的小波系数也极有可能“不重要”的。因此在零树结构中,零树根不必作进一步的扫描,因为已知此节点的所有了节点都为0。4、MPEG-4自然视频编码在网络流媒体上的应用下面给出一个基于MPEG-4的视频网络传输的应用方案,用于KOD(KaraOKonDemand),并对其视频方面的性能作一些分析。由图3可见,整个系统分成客户机和流媒体服务器两大部分。在服务器端,可以有两种途径提供媒体流:从文件读取或对视频捕提卡输入的视频序列进行实时编码和SL层(同步层)打包,以提供时问戳等定时和同步信息,通过媒体流选择模块选择适当的媒体流服务。媒体流将通过目标端DMIF模块馈向网络。在客户端,视频解码了系统负责视频ES流(基本流)的解码、组合与显示,SL层解包模块负责将经同步层打包的ES流解包成ES流。DMIF过滤器根据所需ES流的来源不同或者调用本地文件服务的DMIF模块获取符合MPEG-4标准媒体流或者通过提供远端服务的DMIF模块向远端服务器请求媒体流。DMIF是MPEG-4定义的多媒体传输的集成框架,用于屏蔽多种网络协议的差异以及本地服务与远端服务的差异。在整个系统中,符合MPEG-4标准的视频编码处于核心地位
增强层对基层中一部分区域作帧率的增强。在第二种类型中,增强层对基层的整个区域作增 强。增强层类型由 enhancement_type 指示。 3.7 精灵编码 精灵是由视频段中始终可见的视频对象上的像素组成的图像。例如:从由于摄像机 镜头摇移所产生的序列中得到的精灵将包括整个序列中背景对象的所有可见像素。精灵编码 用于合成序列或只做刚性运动的白然视频编码可达到很高的压缩效率,是 MPEG-4 特有的视 频压缩工具。 精灵是由全局运动估计算法产生的。在精灵编码中,色度分量和灰度级 α 分量用 和亮度分量相同的方式处理。可以将精灵分片传送以适应延时或带宽的限制,这尤其适合于 streaming 方式的媒体流传送。 MPEG-4 允许精灵作多种变形,包括静止、平移、各向同性的放大收缩、旋转、仿射 和透视运动。每种变换都可用一些系数或一些参考点的运动轨迹来定义,前者在进行变换时 较为方便,后者在编码时较为方便,参考点数决定形变类型,此点数用 no_of_sprit_w arpin_points 在 VOL 中传送。精灵的形变形成 VOP。 3.8 静止图像编码 对静止图像采用零树小波基的编码方法,提高了压缩率,并提供混合的空闻 SNR 分级模式。零树小波基编码方案基本模块如下: (1}用离散小波变换(DWT)对纹理进行分解,实验证明采用 Daubechies( 9, 3)抽头 的双正交滤波器具有较好的压缩性能。 ( 2)对小波系数进行量化。 ( 3)对最低频了带用预测方案编码。当前系数 Wx 用 3 个邻近的系数 Wa,Wb 和 Wc 进行预测,在 DPCM 后的系数用白适应算术编码器编码。 ( 4)对高频了带小波系数作零树扫描后对量化小波系数和显著性图进行编码。用零 树结构对小波系数进行编码是利用小波分解的特性:若某一低频带的小波系数为“不重要” (量化为 0),则所有同方向上的高频了带相同位置处的小波系数也极有可能“不重要”的。 因此在零树结构中,零树根不必作进一步的扫描,因为已知此节点的所有了节点都为 0。 4 MPEG-4 自然视频编码在网络流媒体上的应用 下面给出一个基于 MPEG-4 的视频网络传输的应用方案,用于 KOD(Kara OK on Demand), 并对其视频方面的性能作一些分析。 由图 3 可见,整个系统分成客户机和流媒体服务器两大部分。在服务器端,可以有 两种途径提供媒体流:从文件读取或对视频捕捉卡输入的视频序列进行实时编码和 SL 层(同 步层)打包,以提供时问戳等定时和同步信息,通过媒体流选择模块选择适当的媒体流服务。 媒体流将通过目标端 DMIF 模块馈向网络。在客户端,视频解码了系统负责视频 ES 流(基本 流)的解码、组合与显示,SL 层解包模块负责将经同步层打包的 ES 流解包成 ES 流。DMIF 过滤器根据所需 ES 流的来源不同或者调用本地文件服务的 DMIF 模块获取符合 MPEG-4 标准 媒体流或者通过提供远端服务的 DMIF 模块向远端服务器请求媒体流。DMIF 是 MPEG-4 定义 的多媒体传输的集成框架,用于屏蔽多种网络协议的差异以及本地服务与远端服务的差异。 在整个系统中,符合 MPEG-4 标准的视频编码处于核心地位
DCT重新排列视频输入变步运动检测长MPEC位流编运动补偿IDCT(a)MPEC视频缩码框图变IDCTX视颜输出长度MPEG位流解运动补偿码(b)MPEG视频解码图图.3基于MPEG-4的网络视频传输框图Fig.3 Video delivery over network based on MPEG-4对MPEG-4视频编解码的测试表明,MPEG-4视频编解码方案要显著优于MPEG-1和MPEG-2对中低码率的图像序列进行顿基的编码,在相同码率和相同码率控制策略的情况下,用MPEG-4编码的主观评价质量比用MPEG-1编码的高1分(满分5分)(对MPEG-2也一样,只是MPEG-1比MPEG-2的头部元素开销更少,因而效率更高)。对象基编码方案的测试表明对象基的编码与顿基的方案相比并未引入过多的开销和视觉质量的损失。在抵抗错误的韧性方面,当码率在32Kbps~384Kbps的范围内,误码率为10″,平均突发错误长度10ms时仍然有高的显示质量。错误的影响被MPEG-4Video提供的工具限制在局部范围之内,且当错误消失之后,视觉质量很快恢复。这些结果的取得只花费很少的开销,甚至比MPEG-1和MPEG-2采用的GOP(图像组)结构的开销还少。在分级性测试方面,对简单分级类和核心类中分级工具的测试表明,时问分级编码的质量与单层编码的质量相同或稍差,但比同播策略(同时播放不同码率的流)来的好。5结论阐述了MPEG-4白然视频编码的关键技术,从中可以看出MPEG-4是如何实现在引言中提到的三个重要特征的:视频对象概念的提出以及与之配合的视频对象的形状编码,基于对象的可分级性等使基于内容的交互性得以实现:各种先进的运动估计、运动补偿和预测模式、精灵编码和零树小波基的静止图像压缩方法使MPEG-4具有很高的编码效率:提供的各种错误掩盖、刷新技术使MPEG-4在各种复杂的环境下得以可靠应用。最后给出了MPEG-4技术在网络多媒体应用中的实例,并通过测试和比较说明MPEG-4视频技术的先进性。MPEG-4标准仍在不断完善之中,开放的框架便于各种新的编码工具、算法的研究,从而使视频校验模型(VM)得以进化,最终促使MPEG-4版本的更新
图.3 基于 MPEG-4 的网络视频传输框图 Fig.3 Video delivery over network based on MPEG-4 对 MPEG-4 视频编解码的测试表明,MPEG-4 视频编解码方案要显著优于 MPEG-1 和 MPEG-2 对中低码率的图像序列进行帧基的编码,在相同码率和相同码率控制策略的情况下, 用 MPEG-4 编码的主观评价质量比用 MPEG-1 编码的高 1 分(满分 5 分)(对 MPEG-2 也一样,只 是 MPEG-1 比 MPEG-2 的头部元素开销更少,因而效率更高)。对象基编码方案的测试表明, 对象基的编码与帧基的方案相比并未引入过多的开销和视觉质量的损失。在抵抗错误的韧性 方面,当码率在 32Kbps ~384Kbps 的范围内,误码率为 10-3 ,平均突发错误长度 10ms 时仍 然有高的显示质量。错误的影响被 MPEG-4 Video 提供的工具限制在局部范围之内,且当错 误消失之后,视觉质量很快恢复。这些结果的取得只花费很少的开销,甚至比 MPEG-1 和 MPEG-2 采用的 GOP(图像组)结构的开销还少。在分级性测试方面,对简单分级类和核心类中 分级工具的测试表明,时问分级编码的质量与单层编码的质量相同或稍差,但比同播策略(同 时播放不同码率的流)来的好。 5 结论 阐述了 MPEG-4 白然视频编码的关键技术,从中可以看出 MPEG-4 是如何实现在引言中提 到的三个重要特征的:视频对象概念的提出以及与之配合的视频对象的形状编码,基于对象 的可分级性等使基于内容的交互性得以实现;各种先进的运动估计、运动补偿和预测模式、 精灵编码和零树小波基的静止图像压缩方法使 MPEG-4 具有很高的编码效率;提供的各种错 误掩盖、刷新技术使 MPEG-4 在各种复杂的环境下得以可靠应用。最后给出了 MPEG-4 技术在 网络多媒体应用中的实例,并通过测试和比较说明 MPEG-4 视频技术的先进性。MPEG-4 标准 仍在不断完善之中,开放的框架便于各种新的编码工具、算法的研究,从而使视频校验模型 (VM)得以进化,最终促使 MPEG-4 版本的更新