第12章MPEG声音 Dolby AC-3是MPEG-2釆纳的声音编码技术,为便于和感知子带编码作比较,因此安 排在这一节简单介绍。 Dolby AC-3是一种多通道( multichannel)音乐信号压缩技术,它可支持 5个3~20000Hz频率范围的通道。AC-3压缩编码算法的简化框图如图12-07所示。它的 输入是未被压缩的PCM样本,而PCM样本的采样频率必须是32,441或者48kHz,样本 精度可多到20位。在图12-07中,各部分的功能如下: (1)分析滤波器组( analysis filter bank):它的功能是把用PCM时间样本表示的声音信号 变换成用频率系数块( frequencies coefficients block)表示的声音信号。输入信号从时 间域变换到频率域是用时间窗( time window)乘由512个时间样本组成的交叠块 ( overlapping block来实现的。在频率域中用因子2对每个系数块进行抽取,因此每 个系数块就包含256个频率系数。单个频率系数用浮点二进制的指数( exponent和尾 数( mantissa)表示 (2)频谱包络编码( spectral envelope encoding):它的功能是对“分析滤波器组”输出的 指数进行编码。指数代表粗糙的信号频谱,因此称为(频)“谱包络编码。” (3)位分配( bit allocation):它的功能是使用“谱包络编码”输出的信息确定尾数编码 所需要的位数。 (4)尾数量化( mantissa quantization)它的功能是按照“位分配”输出的位分配信息对 尾数进行量化 (5)AC-3帧格式(AC-3 frame formatting):它的功能是把“尾数量化”输出的量化尾数 和“谱包络编码”输出的频谱包络组成AC-3帧。一帧由6个声音块(1356个声音样本 组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32~640kbps 分析滤波器组谱包络编码位分配 PCMAnulysis Evelope 样本 Decagon Emco西ng 指数) (尾数) 尾数 Bit floation informaton 量化( Quantisation(位分配信息) Qruarziged o(量化后 encoded|(编码后的 Mmxl的尾数 ewl谱包络) Envelope ErrcodedAc-3 AC-3 FrAme Formatting BitStream (AC-3帧格式) (编码后的 AC3位丰) ec. 20, 95, Advanced Television Systems Committee) 图12-07 Dolby ac-3压缩编码算法框图 12. 3 MPEG-1 Audio 12.3.1声音编码 声音的数据量由两方面决定:采样频率和样本精度。对单声道信号而言,每秒钟的数据 量(位数戶=采样频率ⅹ样本精度。要减小数据量,就需要降低采样频率或者降低样本精度 由于人耳可听到的声音的频率范围大约是20~20kHz,根据奈奎斯特理论,要想不失真地重 构信号,采样频率不能低于40kHz。再考虑到实际中使用的滤波器都不可能是理想滤波器, 以及考虑各国所用的交流电源的频率不同,为保证声音频带的宽度,所以采样频率一般不能 低于44.1kHz。在MPEG-1 Audio中,编码器的输入信号的样本精度通常是16位,因此声音的 数据压缩就必须从降低样本精度这个角度出发,即减少每位样本所需要的位数
第12章 MPEG声音 6 Dolby AC-3 是 MPEG-2 采纳的声音编码技术,为便于和感知子带编码作比较,因此安 排在这一节简单介绍。Dolby AC-3 是一种多通道(multichannel)音乐信号压缩技术,它可支持 5 个 3 ~20 000 Hz 频率范围的通道。AC-3 压缩编码算法的简化框图如图 12-07 所示。它的 输入是未被压缩的 PCM 样本,而 PCM 样本的采样频率必须是 32, 44.1 或者 48 kHz,样本 精度可多到 20 位。在图 12-07 中,各部分的功能如下: (1) 分析滤波器组(analysis filter bank):它的功能是把用PCM时间样本表示的声音信号 变换成用频率系数块(frequencies coefficients block)表示的声音信号。输入信号从时 间域变换到频率域是用时间窗(time window)乘由512个时间样本组成的交叠块 (overlapping block)来实现的。在频率域中用因子2对每个系数块进行抽取,因此每 个系数块就包含256个频率系数。单个频率系数用浮点二进制的指数(exponent)和尾 数(mantissa)表示。 (2) 频谱包络编码(spectral envelope encoding):它的功能是对“分析滤波器组”输出的 指数进行编码。指数代表粗糙的信号频谱,因此称为(频)“谱包络编码。” (3) 位分配(bit allocation):它的功能是使用“谱包络编码”输出的信息确定尾数编码 所需要的位数。 (4) 尾数量化(mantissa quantization):它的功能是按照“位分配”输出的位分配信息对 尾数进行量化。 (5) AC-3帧格式(AC-3 frame formatting):它的功能是把“尾数量化”输出的量化尾数 和“谱包络编码”输出的频谱包络组成AC-3帧。一帧由6个声音块(1356个声音样本) 组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32~640 kbps。 图12-07 Dolby AC-3压缩编码算法框图 12.3 MPEG-1 Audio 12.3.1 声音编码 声音的数据量由两方面决定:采样频率和样本精度。对单声道信号而言,每秒钟的数据 量(位数)=采样频率 样本精度。要减小数据量,就需要降低采样频率或者降低样本精度。 由于人耳可听到的声音的频率范围大约是20~20 kHz,根据奈奎斯特理论,要想不失真地重 构信号,采样频率不能低于40 kHz。再考虑到实际中使用的滤波器都不可能是理想滤波器, 以及考虑各国所用的交流电源的频率不同,为保证声音频带的宽度,所以采样频率一般不能 低于44.1 kHz。在MPEG-1 Audio中,编码器的输入信号的样本精度通常是16位,因此声音的 数据压缩就必须从降低样本精度这个角度出发,即减少每位样本所需要的位数
第12章MPEG声音 本教材第3章“话音编码”介绍了多种话音编码方法,例如,μ-law,ALaw,自适应差 分脉冲调整( adaptive difference pulse code modulation, ADPCM),码激励线性预测(code excited linear prediction,CELP)编码和混合激励线性预测(miⅸ ed excitation linear prediction, MELP)编码和线性预测编码( linear predictive coding,LPC)等方法。这类编码方法称为音源特 定编码法( source specific methods,它们的编码对象主要是针对人说话的话音。当这些算法 用来压缩宽带声音(如音乐)信号时,在相同压缩比的情况下,输出的声音质量比较低。 MPEG-1 Audio的编码对象是20~20000Hz的宽带声音,因此它采用了感知子带编码。在 许多文献中,使用含义与它相同的一个术语,叫做子带编码(sub- band coding,SBC)。子带 编码是一种功能很强而且很有效的声音数据编码方法。与音源特定编码法不同,SBC的编码 对象不局限于话音数据,也不局限于哪一种声源。这种方法的具体思想是首先把时域中的声 音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理声学模型确定样本 的精度,从而达到压缩数据量的目的。 MPEG声音数据压缩的基础是量化。虽然量化会带来失真,但MPEG标准要求量化失真 对于人耳来说是感觉不到的。在MPEG标准的制定过程中,MPEG- Audio委员会作了大量的 主观测试实验。实验表明,采样频率为48kHz、样本精度为16位的立体声音数据压缩到256 kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的 声音 123.2声音的性能 MPEG-1 Audio(SOEC1112-3)压缩算法是世界上第一个高保真声音数据压缩国际标 准,并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分,但它也完全 可以独立应用。MPEG-1声音标准的主要性能如下: (1)如图12-08所示,MPEG编码器的输入信号为线性PCM信号,采样率为32,44支48 kHz,输出为32kb/s~384kb/s 32,44.1, 48 kHZ MPE 32 kbps- 编码器 PCM 384kb 图12-08MPEG编码器的输入/綸出 2)MPEG声音标准提供三个独立的压缩层次:层l( Layer1)、层2( Layer2)和层 Layer3), 用户对层次的选择可在复杂性和声音质量之间进行权衡 ①层1的编码器最为简单,编码器的输出数据率为384kbs,主要用于小型数字盒式磁 ②层2的编码器的复杂程度属中等,编码器的输出数据率为256kbs~192kb/s,其应用 包括数字广播声音( digital broadcast audio,DBA)、数字音乐、CDl( compact disc-interactive)和ⅤCD( video compact disc)等 ③层3的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音 在尽可能保持CD音质为前提的条件下,MPEG声音标准一般所能达到的压缩率如表 12-02所示,从编码器的输入到输出的延迟时间如表12-03所示 表1202MPEG声音的压缩率 层次算法 压缩率 立体声信号所对应的 MUSICAME MUSICAM*6 ASPEC*10:1~12 128~112
第12章 MPEG声音 7 本教材第3章“话音编码”介绍了多种话音编码方法,例如,-law,A-Law,自适应差 分脉冲调整(adaptive difference pulse code modulation,ADPCM),码激励线性预测(code excited linear prediction,CELP)编码和混合激励线性预测(mixed excitation linear prediction, MELP)编码和线性预测编码(linear predictive coding,LPC)等方法。这类编码方法称为音源特 定编码法(source specific methods),它们的编码对象主要是针对人说话的话音。当这些算法 用来压缩宽带声音(如音乐)信号时,在相同压缩比的情况下,输出的声音质量比较低。 MPEG-1 Audio的编码对象是20~20000Hz的宽带声音,因此它采用了感知子带编码。在 许多文献中,使用含义与它相同的一个术语,叫做子带编码(sub-band coding,SBC)。子带 编码是一种功能很强而且很有效的声音数据编码方法。与音源特定编码法不同,SBC的编码 对象不局限于话音数据,也不局限于哪一种声源。这种方法的具体思想是首先把时域中的声 音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理声学模型确定样本 的精度,从而达到压缩数据量的目的。 MPEG声音数据压缩的基础是量化。虽然量化会带来失真,但MPEG标准要求量化失真 对于人耳来说是感觉不到的。在MPEG标准的制定过程中,MPEG-Audio委员会作了大量的 主观测试实验。实验表明,采样频率为48 kHz、样本精度为16位的立体声音数据压缩到256 kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的 声音。 12.3.2 声音的性能 MPEG-1 Audio (ISO/IEC 11172-3)压缩算法是世界上第一个高保真声音数据压缩国际标 准,并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分,但它也完全 可以独立应用。MPEG-1声音标准的主要性能如下: (1) 如图12-08所示,MPEG编码器的输入信号为线性PCM信号,采样率为32, 44.1或48 kHz,输出为32 kb/s~384 kb/s。 MPEG 编码器 32, 44.1, 48 kHz PCM 32 kbps~ 384 kbps 图12-08 MPEG编码器的输入/输出 (2) MPEG声音标准提供三个独立的压缩层次:层1(Layer 1)、层2(Layer 2)和层3(Layer 3), 用户对层次的选择可在复杂性和声音质量之间进行权衡。 ① 层1的编码器最为简单,编码器的输出数据率为384 kb/s,主要用于小型数字盒式磁 带(digital compact cassette,DCC)。 ② 层2的编码器的复杂程度属中等,编码器的输出数据率为256 kb/s~192 kb/s,其应用 包括数字广播声音(digital broadcast audio,DBA)、数字音乐、CD-I(compact disc-interactive)和VCD(video compact disc)等。 ③ 层3的编码器最为复杂,编码器的输出数据率为64 kb/s,主要应用于ISDN上的声音 传输。 在尽可能保持CD音质为前提的条件下,MPEG声音标准一般所能达到的压缩率如表 12-02所示,从编码器的输入到输出的延迟时间如表12-03所示。 表12-02 MPEG声音的压缩率 层次 算法 压缩率 立体声信号所对应的 位率( kb/s) 1 MUSICAM* 4:1 384 2 MUSICAM* 6:1 ~ 8:1 256 ~ 192 3 ASPEC** 10:1 ~ 12:1 128 ~ 112