1.3多媒体与网络因特网(Internet)是一个通过网络设备把世界各国的计算机相互连接在一起的计算机网络。在这个网络上,使用普通的语言就可以进行相互通信,协同研究,从事商业活动·共享信息资源。现在人们越来越多地使用多媒体进行通信。因特网的维形是美国国防部高级研究计划署(DefenseDepartmentsAdvancedResearchPrujectsAgency,ARPA)在20世纪60年代末开始筹等建的ARPANET网络。它用于在地理上相互独立的军事研究机构和大学之间实时共享计算机数据,现在已经远远地拓宽广它的应用范围。因特网是世界上规模最大、用户最多的计算机网络,是20世纪全球发展最迅速、影响最深远和冲击最大的信息存取和处理工具。万维网(Web)是在因特网上运行的全球性分布式信息系统,Web是(WorldWideWeb,WWW)的简称。由于它支持文本、图像、声音、影视等数据类型,而且使用超文本、超链接技术把全球范围里的信息链接在一起,所以也称为超媒体环球信息系统。整个万维网计划是1989年由欧洲高能物理实验室(EuropeanLaboratoryforParticlePhysics)开始研究的,它是应用超文本和超媒体技术的典范。随着相关工具软件的普及,万维网在因特网上已吸引越来越多的学校、机构及各行各业的公司竞相投入:以提供多姿多彩的教育、信息和商业服务。方维网正在改变人们进行全球通信的方式。人们接受和使用这种新的全球性的媒体比历史上任何一种通信媒体都快。在过去的几年里,万维网已经聚集有巨大的信息资源,从股票交易到寻找职业,从电子公告板到了解新闻、预看电影、阅读名著、文学评论、音乐欣赏直到玩游戏等,凡是人们能够想到的万维网上几乎都可以找到。万维网和因特网的关系犹如计算机的硬件平台和软件环境之间的关系。万维网技术是特网上环球信息系统设计技术上的一个重大突破,是日前最热门的多媒体技术。1.4多媒体与光盘存储器光盘(compactdisc,CD)存储器在多媒体的发展史上起了相当重要的作用,在网络还不发达的国家里CD是发行多媒体节日的主要手段。由于多媒体的数据量很大·近年来世界上正在开发存储容量比CD大得多的DVD光盘存储器。DVD原为DigitalVideoDisc的缩写意思是“数字影视光盘”,这是为了与VCD(VideoCD)相区别。实际上,DVD的应用不1仅可以用来存放交互影视节目,同样也可以用来存储其他类型的数据。因此后来把DigitalVideoDisc更名为DigitalVersatileDisc,它的缩写仍然是DVD,Versatile的意思是多才多艺的意思。DVD盘与现在使用的CD盘相比,在形状、尺寸、面积、重量方面都一样,也都是用塑料1做衬底的金属盘。现在定义的DVD的存储容量最高可达到17GB,一片DVD盘的容量相当于25片CD-ROM(650MB/片)的容量。(D家族中有很多成员(CD-Audio,CD-R)M,CD-R,VideoCD.CD-I,PhotoCD等)与jCD类似,DVD家族中目前拟有5名成员,如表1-1所乐。.6:
表1-1DVD与CD的主要成员(D)主要用途DVDCD-ROM存储计算机数据、多媒体数据等DVD-ROMVideo-CD)存储影视节目DVD-Video存储音乐节目CD AudioDVD-AudioCD R存储档案等DVD-KecordableCD MO计算机的存储器DVI)-RAM1.5多媒体的技术研究与应用开发多媒体涉及的技术范围很广,技术很新.研究内容很深,是多种学科和多种技术交义的领域,目前,多媒体技术的研究和应用开发主要在下列儿个方面:(1)多媒体数据的表示技术:包括文字、声音、图形、图像、动商、影视等媒体在计算机中的表示方法。由于多媒体的数据量大得惊人,尤其是声音和影视,包括高清晰度数字电视(HighDefinitionTelevision,HDTV)这类的连续媒体。为克服数据传输通道带宽和存储器容量的限制,投入了大量的人力和物力来开发数据压缩和解压缩技术,人-机接口技术,如语音识别和文本-语音转换(lexltospeech.TTS)也是多媒体研究中的重要课题;虚拟现实(VirtualRcality.VR)是当今多媒体技术研究中的热点技术之一。(2)多媒体创作和编辑工具:使用工具将会大大缩短提供信息的时间。将来人人都要会使用多媒体创作和编辑工具,就像现在使用笔和纸那样熟练。(3)多媒体数据的存储技术:包括CE)技术,DVD技术等。(4)多媒体的应用开发:包括多媒体(D·ROM节目(title)制作,多媒体数据库,环球超媒体信息系统(Web),多目标广播技术(multicasting),影视点播(videoondemand,VD),电视会议(videoconferencing),远程教育系统.多媒体信息的检索等。练习与思考题1.1多媒体是什么?1.2超文本的核心思想是什么?超文本系统和超媒体系统有什么差别?1.3超媒体是什么?多媒体与超媒体之间有什么关系?1.4SGMI.是什么语言?HTMIL是什么语言?它们之间有何关系?1.5有人认为“因特网就是万维网”,这种看法对不对?为什么?1.6多媒体、万维网和因特网之间有何关系?
第2童数字声音及MIDI简介声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。两音的种类繁多.如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨、内电声等。这此声音有许多并同的待性,也有它们各自的符性。在用计算机处理这些声音时.既要考虑它们的共性,又要利用它们各自的特性。本章将介绍声音的基础知识,重点掌握声音数字化的两个最基本的概念。此外,还介绍在上网浏览或者脱机工作时你会经常遇到的声音文件存储格式和声音工具。2.1声音与听觉器官声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上音调的高低体现在声音的频率上。声音用电表小时,声音信号在时间和幅度上都是连续的模拟信号,如图2-1所示。声波具有普通波所具有的特性,例如反射(reflection)、折射(refraction)和衍射(diffiraction)等图2-1声音是种连续的波对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号,而单一频率的信号称为分量信号。声育信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。如高保真声音(high-fidelityaudio)的频率范围为1020000Hz,它的带宽约为20kHz,而视频信号的带宽是6MHz。声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz表示。例如,大气压的变化周期很长,以小时或天数计算,般人不容易感到这种气压信号的变化,更听不到这种变化。对于频率为儿Hz到20Hz的空气压力信号,人们也听不到,如果它的强度足够大,也许可以感觉到。人们把频率小于20Hz的信号称为亚音信号、或称为次音信号(subsonic);频率范围为20Hz~20kHz的信号称为音频(audio)信号:虽然人的发音器官发出的声音频率大约是80~3400Hz,但人说话的信号频率通常为300~3000Hz人们把在这种频率范围的信号称为话音(speech)信号:高于20kHz的信号称为超音频信号,或称超声波(ultrasonic)信号,超音频信号具有很强的方向性,而且可以形成波束,在工业上得到广泛的应用。例如,超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒体技术中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器.8
声等人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的功能。般来说.人的听觉器官能感知的声音频率大约在202000(:11z之间,在这种频率范围里感知的声音幅度大约在0~120dB之间。除此之外,人的听觉器官对声音的感知还有--些重要特性,这些特性将在第9章中介绍·它们在声音数据压缔中已经得到广泛的应用。2.2声音信号数字化2.2.1从模拟过渡到数字川顾房史,大多数电信号的处理-直是用模拟元部件(如品体管、变压器、电阻、电容等)对模拟信号进行处理。但是,开发一个具有相当精度、且儿乎不受环境变化影响的模拟信号处理部件是相当困难的·而11成本也很高。如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号做计算,那么难点就发生了转移。把开发模拟运算部件的问题转变成开发数字运算部件的问题,这就出现了数字信号处理器(digitalsignalproccssor.DSP)。DSP与通用微处理器相比,除了它们的结构不间外.其基本差别是,J)SP有能力响应和处理采样模拟信号得到的数据流,如做乘法和累加求和运算。在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是种精确的运算方法,它不受时间和环境变化的影响;其次,表小部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。2.2.2模拟信号与数字信号话音信号是典型的连续信号,不仪在时间上是连续的,而且在幅度上也是连续的。在时间」“连续”是指在-个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个,我们把在时间租幅度上都是连续的信号称为模拟信号。在某些特定的时对这种模拟信号进行测量叫做采样(sampling),由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个。因此幅度还是连续的。如果把信号幅度取值的数日加以限定,这种由有限个数值组成的信号就称为离散幅度信号。例如.假设输人电压的范围是0.00.7V.并假设它的取值只限定在0,0.1.0.2,0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅度值是0.26V.它的取值就算作0.3,这种数值就称为离散数值。我们把时问和幅度都用离散的数字表示的信号就称为数字信号。2.2.3声音信号数字化卢音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。如前所述·连续时间的离散化通过采样来实现、就是每隔相等的一小段时间采样一次,这种采样称为均匀采:9:
样(uniformsampling):连续幅度的离散化通过量化(quantization)来实现,就是把信号的强度划分成小段小段,如果度的划分是等间隔的就称为线性量化,否则就称为非线性化。图2-2表示了声音数字化的概念。(:10)(tOt)341)oul(100]00100l1010101111001101图2-2声音的采样和量化声音数字化需要回答两个问题:D每秒钟需要采集多少个声音样本,地就是采样频率(f、)是多少;②每个声音样本的位数(bitpersample.bps)应该是多少,也就是量化精度。2.2.4采样频率采样频率的高低是根据奈奎斯特理论(Vyquisttheory)和声音信号本身的最高赖率决定的。奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数宇表达的声音还原成原来的声音,这叫做无损数字化(losslcssdigitization)。采样定律用公式表示为f.≥2f或者T≤T2其中,为被来样信号的最高频率。你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为了的正弦波至少需要两个采样样本表尔.因此,如果一个信号中的最高频率为fmux采样频率最低要选择2fm。例如,电话话音的信号频率约为3.4kHz.采样赖率就选为8kHz,2.2.5采样精度样本大小是用每个声音样本的位数(bit/s或b/s)表示的.它反映度量声音波形辐度的精度。例如,每个声音样本用16位(2字节)表示.测得的声音样本值是在0~65535的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量位数越多.声音的质量越高,而带要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少,采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-1o-noiseratio.SNR),并用下式计算:SNR = 10 Ig [(Val)/(Vnoie)"J =20 Ig (Vaal/Vn)其中,V表示信号电压,Vmux表示噪声电压:SNR的单位为分贝(dB)。.10: