书城教材教辅新传媒技术概论
18668100000011

第11章 新传媒技术要素(5)

2.3.5 声音信息的处理技术

1.模拟音频和数字音频

声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的声音信号称为模拟音频。

在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling),由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。例如,假设输入电压的范围是0.0~0.7V,并假设它的取值只限定在0,0.1,0.2,0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。我们把时间和幅度都用离散的数字表示的声音信号称为数字音频。

2.声音信息的数字化

声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。

如前所述,连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采样(uniform sampling);连续幅度的离散化通过量化(quantization)来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。声音数字化的概念。声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(fs)是多少;②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度(量化位数)。

(1)采样频率

声波实际上是连续信号,或称连续时间函数x(t),表示在t 时刻声音的幅度是x(t)。用计算机处理这些信号时,必须先对连续信号采样,即按一定的时间间隔(T)取值,得到一级离散的值x(nT)(n=0,1,2 )。这里T 称为采样周期,1/T 称为采样频率。常见的采样频率有:8kHz,11.025kHz,22.05kHz,44.1kHz和48kHz等。

(2)量化精度

为了把采样序列x(nT)存入计算机,必须将采样值量化成一个有限个幅度值的集合y(nT)(n= 0,1,2)。通常用N 位二进制数表示量化后的样值,N 称为量化精度,常见的量化精度有8位和16位。

由上述介绍可知,声音数字化的采样频率和量化精度越高,结果就越接近原始声音,记录数字声音所需的存储空间也越大。可以用以下公式估算未经压缩的数字化声音每秒所需的存储量:

存储量= 采样频率×量化位数×声道数/ 8(字节)

例如,数字激光唱盘(CD‐DA)的标准采样频率为44.1KHz,量化位数为16位,双声道立体声,其一秒钟音乐所需要的存储量为:

44.1×1000×16×2/ 8= 176.4(KB)

3.声音的压缩编码

(1)全频带声音的压缩编码

波形声音经过数字化之后数据量很大,特别是全频带声音。以CD 盘片上所存储的立体声高保真全频带数字音乐为例,一小时的数据量大约是653MB。为了降低存储成本和提高通信效率(降低传输带宽),对数字波形声音进行数据压缩是十分必要的。

全频带数字声音的第1代编码技术采用的是PCM(脉编码调制)编码,它主要是依据声音波形本身的信息相关性进行数据压缩,代表性的应用是CD唱片。

第2代全频带声音编码过程分为三个阶段:第一阶段通过时间/频率变换和心理学分析,揭示原始声音中与人耳感知无关的信息;第二阶段通过量化和编码予以抑制;第三阶段使用熵编码消除声音信息中的统计冗余。典型的压缩编码方法有:MPEG‐1(Layer1,Layer2,Layer3)、MPEG‐2、杜比数字AC‐3等。其中近几年流行的所谓“MP3”音乐就是采用MPEG‐1Layer3编码的高质量数字音乐,压缩比可达10倍左右。

另外,为了适应声音在Internet 上的传播,在保证大多数人听到流.声音的前提下,带宽较富裕的听众能获得较好的音质,出现了流媒体数字音频。其中最有名的有RealNetworks 公司的RA(Real Audio)数字音频和Microsoft公司的WMA(Windows Media Audio)数字音频。

(2)数字语音的压缩编码

语音是人们说话时肺部的受压空气沿着声道通过声门时产生的,语音信号的频率一般在300~3400Hz,是一种特殊的波形声音。再加上它是人们交换信息的主要媒体,因此对数字语音进行专门的压缩编码研究是十分有意义的。

数字语音也可以采用像全频带声音那样的基于感觉模型的压缩方法(称为波形编码),例如国际电信联盟ITU 的G .711和G .721,前者是PCM 编码,后者是ADPCM(自适应差分脉冲编码调制)编码。这种编码方式的压缩比较低,但语音的音质好,算法简单,且易实现,目前主要用于固定电话通信、多媒体课件讲解和动画演示中的配音等。

数字语音的另一类压缩编码方法称为参数编码或模型编码,它使用一种所谓“声源- 滤波器”模型来模拟人的发声过程。从原始的语音波形信号中使用线性预测方法提取语音生成参数,把这些参数作为该语音压缩编码的结果,因此压缩比较高,但音质较差,一般应用于保密通信。

第3类语音压缩编码方法是上述两种方法的结合,称为混合编码。此类方法既能达到比较高的压缩比,又能保证较好的语音质量,目前主要应用于移动通信和IP 电话中。

4.MIDI 音乐

音频数据的另一个重要的来源是MIDI (Musical Instrument DigitalInterface,即乐器数字接口)文件。所谓MIDI 文件实质上是指计算机中记录的MIDI 信息的数据,MIDI 文件的扩展名是mid。

MIDI 文件和另外一种计算机中常用的声音波形文件( *.wav 文件)有什么不同呢?表面上,两种文件都可以产生声响效果或音乐,但它们的本质是完全不同的。普通的声音文件( *.wav 文件)是计算机直接把声音信号的模拟信号经过取样和量化处理,变成与声音波形对应的数字信号,记录在计算机的储存介质(硬盘或光盘)中。而MIDI文件不是直接记录乐器的发音,而是记录了演奏乐器的各种信息或指令,如用哪一种乐器,什么时候按某个键,力度怎么样,等等,至于播放时发出的声音,那是通过播放软件和音源转换而成的。因此MIDI文件通常比声音文件小得多,一首乐曲,只有十几KB或几十KB,只有波形文件的千分之一左右,便于储存和携带,所以常常作为网页和课件的背景音乐。

2.3.6 视频信息的处理技术

视频(video)是指内容随时间变化的一个图像序列,也称为活动图像(motion picture)。目前,视频技术的应用范围已经很广了,如VCD 和DVD、数字电视、VOD 点播、网上可视会议以及远程教学等。

1.视频信号的数字化

数字视频与模拟视频相比有很多优点,例如复制和传输不会造成质量下降,容易进行编辑修改,有利于传输(抗干扰能力强,易于加密),可节省频率资源等。

视频信号的数字化比图像的数字化要复杂,它以一帧帧的画面为单位进行。一般采用YUV 彩色空间,即一个亮度信号(Y)和两个色度信号(U,V)。

彩色信号的YUV 表示与RGB 表示可以相互转换,具体的转换公式如下:

Y=0.3R + 0.59G + 0.11BU=0.493(R - Y)

V=0.877(R - Y)

由于人眼对颜色远不如对亮度敏感,所以色度信号的取样频率可以比亮度信号的取样率低一些,由此可以减少数字视频的数据量。目前的取样格式有三种 :4:4:4格式(色度信号的取样与亮度信号完全一样),4:2:2格式(每条扫描线上的色度信号的取样只是亮度信号的一半),4:2∶0(在水平和垂直方向上色度信号的取样都只有亮度信号的一半)。

CCIR601推荐使用4:2:2的彩色电视图像取样格式。使用这种取样格式时,亮度信号Y 用13.5Hz 的取样频率,色度信号U 和V 用6.75MHz 的取样频率,所得到的数字视频称为CCIR601格式。为适应多种不同应用领域(如可视电话,视频会议等)的需要,CCITT 还规定了数字视频图像的公用分辨率格式CIF、1/4公用中间分辨率格式QCIF 和SQCIF 格式。

2.数字视频的压缩编码

未经压缩的数字视频的数据量十分巨大,1分钟的CCIR601格式数字视频的数据量约为1GB。这么大的数据量无论是存储还是处理,都是极不方便和浪费资源的。数字视频的压缩编码技术就是为解决这一问题而产生的。

由于视频信息中画面内部有很强的信息相关性,相邻画面的内容又有高度的连贯性,再加上人眼的视觉特性,数字视频的数据量可压缩几十倍甚至几百倍。视频信息压缩编码的方法有很多,一个好的方案往往是多种算法的综合运用。目前,国际标准化组织制订的有关数字视频(伴音)压缩编码的标准主要有MPEG‐1、MPEG‐2和MPEG‐4。

MPEG‐1标准(ISO/IEC11172)制定于1992年,是针对1.5Mbps 以下数据位率的数字存储媒体运动图像及其伴音编码设计的国际标准,主要用于在CD‐ROM(包括Video‐CD、CD‐I 等)存储彩色的同步运动视频图像,它针对SIF(标准交换格式)标准分辨率的图像进行压缩,每秒可播放30帧画面,具备CD(指激光唱盘)音质。同时,它还被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL)、视频点播(VOD)、教育网络等。它的目的是把221Mbps 的NTSC 图像压缩到1.2Mbps,压缩比为200:1。

MPEG‐2主要针对数字电视(DTV)的应用要求,数据位率为1.5Mbps ~60Mbps 甚至更高。MPEG‐2最显着的特点是通用性,它保持了与MPEG‐1兼容。以MPEG‐2作为压缩标准的数字卫星电视已得到广泛应用,它还将应用于高清晰度电视(HDTV )广播中。新一代的数字视盘DVD 也采用MPEG‐2作为其视频压缩标准。

MPEG‐4的目标是支持在各种网络条件下(包括移动通信)各种交互式的多媒体应用,主要侧重于对多媒体信息内容的访问。它不仅支持自然的(取样)音频和视频,同时也支持计算机合成的视频和音频信息,具有很强的功能,有着广阔的应用前景。

3.计算机动画

计算机动画是采用连续播放静止图像的方法产生景物运动的效果,也即使用计算机产生图形、图像运动的技术,其实质是一种合成的视(音)频信息。

计算机动画的基础是计算机图形学,它的制作过程是先在计算机中生成场景和形体模型,然后设置它们的运动,最后再生成图像并转换成视频信号输出。

动画的制作要借助于动画创作软件,如Animator Pro、3D Studio MAX 和Flash 等。

2.4 流媒体技术

2.4.1 流媒体的概念和特点

1.流媒体的概念

在网络上传输音、视频等多媒体信息,目前主要有下载和流式传输两种方案。但是,音、视频文件一般都较大,所需要的存储容量也较大,同时由于网络带宽的限制,若采用下载方式,常常要花数分钟甚至数小时,且延时也很大。

若采用流式传输,声音、影像或动画等时基媒体由音/视频服务器连续传送至用户计算机,用户不必等到整个文件全部下载完毕,而只需经过几秒或数十秒的启动延时即可观看。当声音等时基媒体在客户机上播放时,文件的剩余部分将在后台从服务器内继续下载。流式传输不仅使启动延时成十倍、百倍地缩短,而且不需要太大的缓存容量。

流媒体指在Internet/Intranet 中使用流式传输技术的连续时基媒体,如音频、视频或多媒体文件。流式媒体在播放前并不下载整个文件,只将开始部分内容存入内存,流式媒体的数据流随时传送、随时播放,只是在开始时有一些延迟。实现流媒体的关键技术是流式传输。

流式传输定义很广泛,现在主要指通过网络传送媒体(如视频、音频)的技术总称。其特定含义为通过互联网或局域网将影视节目传送到PC 机。

2.流媒体的特点

流媒体数据流具有连续性、实时性、时序性三大特点,具有严格的前后时序关系。

2.4.2 流媒体系统及其关键技术

1.流媒体系统的组成

流媒体系统包括音/视频源的编码/解码、存储、流媒体服务器、媒体流传输网络、用户端播放器5个部分(如图2‐17所示),原始音/视频流经过编码和压缩后,形成媒体文件存储,媒体服务器根据用户的请求把媒体文件传递到用户端的媒体播放器。