第12章MPEG声音 k*涂幸*客*客水***本水水*客客**水*客水客客水*客水水涂水**水***客 *客客水幸客水水水**客水客客水 12.1听觉系统的感知特性 12.1.1.对响度的感知 12.1.2.对音高的感知 12.1.3.掩蔽效应 122 MPEG Audio与感知特性 12.3 MPEG-I Audio 12.3.1声音编码 1232声音的性能 12.3.3子带编码 1234多相滤波器组 12.3.5编码层 12.4 MPEG-2 Audio 12.5 MPEG-2AAC 12.5 I MPEG-2AAC是什么 12.52MPEG-2AAC的配置 12.53MPEG-2AAC的基本模块 12.6 MPEG-4 Audio 126.1自然声音 126.2合成声音 练习与思考题 参考文献和站点 客水称*水客水*客客客水*水*客客水**水客水客客**水水*水客水*涂水水客水*涂*水*水水客客水称*水*水*客客 与前面章节介绍的波形声音压缩编码(如 ADPCM和参数编码(如LPC)不同,MPEG-1和 MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是 利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编 ( perceptual audio coding)。进入20世纪80年代之后,尤其最近几年,人类在利用自身的听觉 系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio,MPEG2 Audio和MPEG-2AAC等标准 本章涉及的许多具体算法已经超出本教材的要求。对于要求深入钻研的读者,请参考本 章提供的参考文件或者浏览网址。 121听觉系统的感知特性 许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG dio压缩编码算法中的三个特性:响度、音高和掩蔽效应 12.1.1.对响度的感知 声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2(达因/平方厘米声压)或Wcm2(瓦特/平方厘米)声强)。在心理上,主观感觉的声音 强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是 完全不同的两种概念,但是它们之间又有一定的联系 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1kHz 纯音的声强达到1016w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为 零方。实验表明,听阈是随频率变化的。测出的“听阈一频率”曲线如图1201所示。图中 最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中, 能被人耳听到的纯音的最小值
第12章 MPEG声音 *************************************************************************** 12.1 听觉系统的感知特性 12.1.1. 对响度的感知 12.1.2. 对音高的感知 12.1.3. 掩蔽效应 12.2 MPEG Audio与感知特性 12.3 MPEG-1 Audio 12.3.1 声音编码 12.3.2 声音的性能 12.3.3 子带编码 12.3.4 多相滤波器组 12.3.5 编码层 12.4 MPEG-2 Audio 12.5 MPEG-2 AAC 12.5.1 MPEG-2 AAC是什么 12.5.2 MPEG-2 AAC的配置 12.5.3 MPEG-2 AAC的基本模块 12.6 MPEG-4 Audio 12.6.1 自然声音 12.6.2 合成声音 练习与思考题 参考文献和站点 *************************************************************************** 与前面章节介绍的波形声音压缩编码(如ADPCM)和参数编码(如LPC)不同,MPEG-1和 MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是 利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码 (perceptual audio coding)。进入20世纪80年代之后,尤其最近几年,人类在利用自身的听觉 系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等标准。 本章涉及的许多具体算法已经超出本教材的要求。对于要求深入钻研的读者,请参考本 章提供的参考文件或者浏览网址。 12.1 听觉系统的感知特性 许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG Audio压缩编码算法中的三个特性:响度、音高和掩蔽效应。 12.1.1. 对响度的感知 声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2 (达因/平方厘米)(声压)或W/cm2 (瓦特/平方厘米)(声强)。在心理上,主观感觉的声音 强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是 完全不同的两种概念,但是它们之间又有一定的联系。 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1 kHz 纯音的声强达到10-16w/cm2 (定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为 零方。实验表明,听阈是随频率变化的。测出的“听阈—频率”曲线如图12-01所示。图中 最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中, 能被人耳听到的纯音的最小值
第12章MPEG声音 另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1kHz的纯音的 声强级达到120dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进 行测量,可以得到“痛阈一频率”曲线,如图12-01中最靠上面所示的一根曲线。这条曲线 也就是120方等响度级曲线 在“听阈一频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范 围内的等响度级曲线也是用同样的方法测量出来的。由图12-01可以看出,1kHz的10dB的 声音和200Hz的30dB的声音,在人耳听起来具有相同的响度 10 10 听膚 图12-01“听阈一频率”曲线 图12-01说明人耳对不同频率的敏感程度差别很大,其中对2kHz~4kHz范围的信号最 为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度 要高得多 1212.对音高的感知 客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel) 主观音高与客观音高的关系是 Mel=1000log2(1+f) 其中∫的单位为Hz,这也是两个既不相同又有联系的单位。 人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范 围。人耳可以听到的最低频率约20Hz,最高频率约18000Hz。正如测量响度时是以1kHz纯 音为基准一样,在测量音高时则以40dB声强为基准,并且同样由主观感觉来确定 测量主观音高时,让实验者听两个声强级为40dB的纯音,固定其中一个纯音的频率, 调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差 为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高一频率”曲线如图12-02
第12章 MPEG声音 2 另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的 声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进 行测量,可以得到“痛阈—频率”曲线,如图12-01中最靠上面所示的一根曲线。这条曲线 也就是120方等响度级曲线。 在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范 围内的等响度级曲线也是用同样的方法测量出来的。由图12-01可以看出,1 kHz的10 dB的 声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。 图12-01 “听阈—频率”曲线 图12-01说明人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最 为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度 要高得多。 12.1.2. 对音高的感知 客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”, 主观音高与客观音高的关系是 1000log (1 ) 2 Mel = + f 其中 f 的单位为Hz,这也是两个既不相同又有联系的单位。 人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范 围。人耳可以听到的最低频率约20 Hz,最高频率约18000 Hz。正如测量响度时是以1 kHz纯 音为基准一样,在测量音高时则以40 dB声强为基准,并且同样由主观感觉来确定。 测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个纯音的频率, 调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差 为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图12-02 所示
第12章MPEG声音 主观音高美) 3000 2000 1000 10000 频率(Hz) 图12-02“音高一频率”曲线 121.3.掩蔽效应 种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩 蔽声音( masking tone),后者称为被掩蔽声音( masked tone)s掩蔽可分成频域掩蔽和时域掩蔽。 1.频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽 ( simultaneous masking),如图1203所示。从图12-03可以看到,声音频率在300H附近 声强约为60dB的声音可掩蔽声音频率在150Hz附近、声强约为40dB的声音,也可掩蔽 声音频率在400Hz、声强为30dB的声音。又如,一个声强为60dB、频率为1000H的纯 音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能 听到那个1000H的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz 的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到,则需 要把它降到比1000Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。 掩蔽阈值 掩蔽声音 阈值 被掩蔽声音 距香看 0.020.050.10.20512 f/kHz 图12-03频域掩蔽 在图12-04中的一组曲线分别表示频率为250Hz,1kHz和4kHz纯音的掩蔽效应,它们 的声强均为60dB。从图1404中可以看到:①在250Hz,1kHz和4kHz纯音附近,对其他纯 音的掩蔽效果最明显,②低频纯音可以有效地掩蔽髙频纯音,但髙频纯音对低频纯音的掩蔽 作用则不明显
第12章 MPEG声音 3 图12-02 “音高—频率”曲线 12.1.3. 掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩 蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。 1. 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽 (simultaneous masking), 如图 12-03 所示。从图 12-03 可以看到,声音频率在 300 Hz 附近、 声强约为 60 dB 的声音可掩蔽声音频率在 150 Hz 附近、声强约为 40 dB 的声音,也可掩蔽 声音频率在 400 Hz、声强为 30dB 的声音。又如,一个声强为 60 dB、频率为 1000 Hz 的纯 音,另外还有一个 1100 Hz 的纯音,前者比后者高 18 dB,在这种情况下我们的耳朵就只能 听到那个 1000 Hz 的强音。如果有一个 1000 Hz 的纯音和一个声强比它低 18 dB 的 2000 Hz 的纯音,那么我们的耳朵将会同时听到这两个声音。要想让 2000 Hz 的纯音也听不到,则需 要把它降到比 1000 Hz 的纯音低 45 dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。 图12-03 频域掩蔽 在图12-04中的一组曲线分别表示频率为250 Hz,1 kHz和4 kHz纯音的掩蔽效应,它们 的声强均为60 dB。从图14-04中可以看到:①在250 Hz,1 kHz和4 kHz纯音附近,对其他纯 音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽 作用则不明显
第12章MPEG声音 f=0.25 kHz 1khz 4 kHz 0.02 f/khz 图12-04不同纯音的掩蔽效应曲线 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临 界频带( critical band)”的概念。通常认为,在20Hz到16kHz范围内有24个临界频带,如表12-01 所示。临界频带的单位叫Bark(巴克) I Bark=一个临界频带的宽度 f(频率)500Hz的情况下,1Bark≈∫/100 ∫(频率)>500Hz的情况下, 1 Bark≈9+4log2(∫/1000 以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要, 它是心理声学模型的基础。 表12.01临界频带 临界 频率(Hz) 临界 频率(Hz) 频带[低端高端[宽度频带「低端高端[宽度 13 100 142320 200 300 100 15 2700 3150 300 163150 400 s510 110 17 3700 700 630 120 184400 5300900 630 140 1953006400100 92010801 21770095001800 1270 9500 12000 500 10 210 23|1200015500 3500 1480 1720 2415500220506550 121720200028 2.时域掩蔽 除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并 且称为时域掩蔽。时域掩蔽又分为超前掩蔽( pre-masking)和滞后掩蔽φpost- masking,如图 12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。这个区别也是很容易 理解的
第12章 MPEG声音 4 图12-04 不同纯音的掩蔽效应曲线 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临 界频带(critical band)”的概念。通常认为,在20 Hz到16 kHz范围内有24个临界频带,如表12-01 所示。临界频带的单位叫Bark(巴克), ⚫ 1 Bark = 一个临界频带的宽度 ⚫ f (频率)< 500 Hz的情况下, 1 Bark f /100 ⚫ f (频率) > 500 Hz的情况下, 1Bark 9 + 4 2 log ( /1000) f 以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要, 它是心理声学模型的基础。 表12-01 临界频带[16] 临界 频率 (Hz) 临界 频率 (Hz) 频带 低端 高端 宽度 频带 低端 高端 宽度 0 0 100 100 13 2000 2320 320 1 100 200 100 14 2320 2700 380 2 200 300 100 15 2700 3150 450 3 300 400 100 16 3150 3700 550 4 400 510 110 17 3700 4400 700 5 510 630 120 18 4400 5300 900 6 630 770 140 19 5300 6400 1100 7 770 920 150 20 6400 7700 1300 8 920 1080 160 21 7700 9500 1800 9 1080 1270 190 22 9500 12000 2500 10 1270 1480 210 23 12000 15500 3500 11 1480 1720 240 24 15500 22050 6550 12 1720 2000 280 2. 时域掩蔽 除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并 且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图 12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。这个区别也是很容易 理解的
第12章MPEG声音 4声音强度(B) 90超前掩蔽 同时掩蔽 滞后掩蔽 60-40-20 160180020406080100120 时间(毫秒) 图12-05时域掩蔽 122 MPEG Audio与感知特性 MPEG Audio( MPEG声音)标准在本书中是指MPEG-1 Audio、MPEG2 Audio和MPEG-2 AAC,它们处理10Hz~20000Hz范围里的声音数据,数据压缩的主要依据是人耳朵的听觉 特性,使用“心理声学模型( psychoacoustic model)”来达到压缩声音数据的目的。 心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平 的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而 改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz~5kH之间的声音最敏感 个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈 值 心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听 觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在, 种是1000Hz的声音,另一种是1100Hz的声音,但它的强度比前者低18分贝,在这种情况下 l100Hz的声音就听不到。也许你有这样的体验,在一安静房间里的普通谈话可以听得很清 楚,但在播放摇滚乐的环境下冋样的普通谈话就听不清楚了。声音压缩算法也同样可以确立 这种特性的模型来取消更多的冗余数据 MPEG Audio采纳两种感知编码,一种叫做感知子带编码( perceptual subband coding), 另一种是由杜比实验室( Dolby Laboratories)开发的 Dolby AC-3( Audio Code number3)编码, 简称AC-3。它们都利用人的听觉系统的特性来压缩数据,只是压缩数据的算法不同 感知子带编码的简化算法框图如图12-06所示。输入信号通过“滤波器组”进行滤波之 后被分割成许多子带,每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子 带信号进行量化和编码,输出量化信息和经过编码的子带样本,最后通过“多路复合器”把 每个子带的编码输出按照传输或者存储格式的要求复合成数据位流( bit stream)。解码过程与 编码过程相反。 绵码器 译码器 输入 Channel (通道 Psychoacoustic 心理声学模型) 图12-06感知子带压缩算法框图
第12章 MPEG声音 5 图12-05时域掩蔽 12.2 MPEG Audio与感知特性 MPEG Audio(MPEG声音)标准在本书中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC,它们处理10 Hz~20000 Hz范围里的声音数据,数据压缩的主要依据是人耳朵的听觉 特性,使用“心理声学模型(psychoacoustic model)”来达到压缩声音数据的目的。 心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平 的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而 改变,各个人的听觉阈值也不同。大多数人的听觉系统对2 kHz~5 kHz之间的声音最敏感。 一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈 值。 心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听 觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在,一 种是1000 Hz的声音,另一种是1100 Hz的声音,但它的强度比前者低18分贝,在这种情况下, 1100 Hz的声音就听不到。也许你有这样的体验,在一安静房间里的普通谈话可以听得很清 楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立 这种特性的模型来取消更多的冗余数据。 MPEG Audio 采纳两种感知编码,一种叫做感知子带编码(perceptual subband coding ), 另一种是由杜比实验室(Dolby Laboratories)开发的 Dolby AC-3 (Audio Code number 3)编码, 简称 AC-3。它们都利用人的听觉系统的特性来压缩数据,只是压缩数据的算法不同。 感知子带编码的简化算法框图如图 12-06 所示。输入信号通过“滤波器组”进行滤波之 后被分割成许多子带,每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子 带信号进行量化和编码,输出量化信息和经过编码的子带样本,最后通过“多路复合器”把 每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)。解码过程与 编码过程相反。 图12-06 感知子带压缩算法框图