音频压缩

音频压缩
音频压缩

音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号

处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。

、音频压缩算法的主要分类及典型代表

一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。

(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值

进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM

(SB-ADPCM)技术如G.721、G.722、Apt-X等。

(2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。

由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。

子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC 中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。

(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。

变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。

有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。

为什么要使用音频压缩技术

要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2 =1411.2 Kb ps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。

音频压缩标准

音频信号是多媒体信息的重要组成部分.音频信号可分为电话质量的语言、调幅广播质量的音频信号和高保真立体声信号(如调频广播信号、激光唱片音盘信号等)

数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及cd音质的宽带音频压缩3种。

在语音编码技术领域,各个厂家都在大力开发与推广自己的编码技术,使得在语音编码领域编码技术产品种类繁多,兼容性差,各厂家的技术也

难于尽快得到推广。所以,需要综合现有的编码技术,制定出全球统一的语言编码标准。自20世纪70年代起,ccett下第十五究组和国际标准化组织(iso)已先后推出了一系列的语音编码技术标准。其中,ccitt推出了g系列标准,而iso则推出了h系列标准。

1电话(200hz-3.4khz)语音压缩标准

主要有itu的g.722(64kb/s)、g721(32kb/s)、g.728(16kb/s)和

g.729(8kb/s)等建议,用于数字电话通信。

2调幅广播(50hz-7khz)语音压缩标准

主要采用itu的g.722(64kb/s)建议,用于优质语音、音乐、音频会议和视频会议等。

3调频广播(20hz-15khz)及cd音质(20hz-20khz)的宽带音频压缩标准主要采用mpeg-1或mpeg-2双杜比ac-3等建议,用于cd、md、mpc、vcd、dvd、hdtv和电影配音等。

PCM编码的最大的优点就是音质好,最大的缺点就是体积大。

常见的音频压缩编码格式~~

CD格式

当今世界上音质最好的音频格式是什么?当然是CD了。在大多数播放软件的“打开文件类型”中,都可以看到.cda格式,这就是CD音轨了。标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此他的声音是非常接近原声的。

CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。一个CD 音频文件是一个.cda文件,这只是一个索引信息,并不是真正的包含的声音信息,所以不论CD音乐的长短,在电脑上看到的.cda文件都是44字节长。

WAV格式

WAV是微软公司开发的一种声音文件格式,他符合PIFF Resource Interchange File Format文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所支持。.WAV格式支持MSADPCM,CCITT ALAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数。WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都认识WAV格式。

还有就是由苹果公司开发的AIFF(Audio Interchange File Format)格式和为UNIX系统开发的AU格式,他们都和WAV非常相像,在大多数的音频编辑软件中也都支持他们这几种常见的音乐格式。

MP3

MP3格式诞生于80年代的德国,所谓的MP3指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为三层,分别对

应.mp1 .mp2 .mp3这三种声音文件。

相同长度的音乐文件,用mp3格式来存储,一般只有wav格式的十分之一,而音质要次于CD格式或者WAV格式的声音文件。

但是MP3音乐的版权问题一直是找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。

MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以320Kbps的标准达到更高的音质。用装有Fraunhofer IIS Mpeg Lyaer3的MP3编码器(现在效果最好的编码器)Nysuc Natcg Jukebox6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82M的MP3文件。

采用缺省的CBR(固定采样频率)技术可以以固定的inlv采样一首歌曲,而VBR (可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上不能播放。

MIDI

MIDI(Musical Instrument Digital Interface)文件格式格式由MIDI继承而来,他允许数字合成器和其他设备交换数据。MID文件并不是一段录制好的声音,而是记录声音的信息,然后再告诉声卡如何再现音乐的一组指令。这样一个MID 文件每存一分钟的音乐只用大约5到10KB

MID文件主要用于原乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。.mid文件重放的效果完全以来声卡的档次。.mid格式的最大用处是在电脑作曲领域。.mid文件可以用作曲软件写出,也可以通过声卡的MIDI口把外界音序器演奏的乐曲输入电脑里,制成.mid文件。

WMA

WMA(Windows Media Audio)音质要强于MP3格式,更远胜于RA格式,他和**本YAMAHA公司开发的VQF格式一样,是以减少数据量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:18左右。

WMA的另一个优点是内容提供商可以通过DRM(Digital Rights Management)方案如WindowsMedias Rights Manager7假如防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等。这对被盗版搅得焦头烂额的音乐公司来说可是一个福音,另外WMA还支持音频流(Stream)技术,设和网络上的在线播放。

WMA这种格式在录制是可以对音质进行调节。同一格式,音质好的可与CD媲美,压缩率较高的可用于网络传播。

、什么是语音编码技术?其发展与现状是怎样的?

答: 语音信号的数字化传输,一直是通信的发展方向之一。采用低速率语音编码技术进行语音传输比语音信号模拟传输有诸多优点,现代通信的发展趋势决定了语音编码技术的两大突出优势:

大大节省了带宽。从最初的PCM64k编码到现在标准语音压缩协议,如

G.723编码速率为5.3K或6.3Kbps;G.729编码速率为8Kbps。还有未形

成协议标准但更低的编码速率已有成熟的算法可以实现,如AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、LPC-10等多种语音压缩算法,最低编码速率达到2.4kbps,有些算法已在包括第三代移动通信系统(3G)的多个领域得到应用。

便于实现与IP融合。Internet的成功运用使得与IP的融合已成必然的发展趋势。分组语音即将分组交换的概念与语音传输相结合,使得语音信息更易于接入IP网。而分组语音的关键技术之一就是语音编码技术,低速率的语音编码技术对语音信息的实时性有更好的保证。采用分组语音传输的网络,其传输的语音信息本身就是分组数据包,这样的语音信息在接入Internet时将是非常的方便。

语音编码既可用软件也可用硬件的方法实现。软件实现就是将压缩算法用软件方法实现,这样做的好处是成本低、修改方便灵活,但处理速度较慢,不易保证处理的实时性。采用硬件实现就是将语音压缩算法固化到专用DSP芯片中,这样处理速度快,便于实时处理。

7种常见的音频格式简析

7种常见的音频格式简析 (MP3,WMA,WAV,APE,FLAC,OGG,AAC) MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer Ⅲ),是当今最为流行的一种数字音频编码和有损压缩格式,在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。 简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件。换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还可以较好的保持了原来的音质。另外,正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式,它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小(其在较大的压缩率以及基本保持低音频部分不失真的情况下,以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件)。 MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。另外,MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如,我们平时在网上见到的一些低质的MP3有64kbps,但好的也有320kbps的,两者声音差距也相当明显。 WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名,一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小一倍而音质不变,也得到了兑现。事实上,这个说法,仅仅适用于低比特率的情况,另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比MP3体积少1/3左右,因此非常适合用于网络串流媒体及行

数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月 长沙航空职业技术学院学报 CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL Vol.4No.2 J un.2004 收稿日期:2004-03-20 作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。 数字音频技术(MP3)的压缩编码原理与制作方法 张晓婷 (珠海市工业学校,广东珠海 519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作 MP3的方法。 关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06 Compression Coding Principle and F acture of Digital Audio Frequency T echnique (MP 3) ZHAN G Xiao 2ting (Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2 nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言 数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。 二、MP3简介 (一)数字音频MP3的格式 MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。 (二)数字音频MP3压缩的优点 使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。 三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式 ? 15?

常用音频格式

常用音频格式 1、WAV:是微软公司开发的一种声音格式文件,也叫波形声音文件,是最早的数字音频格式,对存储空间需求太大不便于交流和传播。 2、MIDI:又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。。 3、CD:CD存储采用了音轨的形式,记录的是波形流,是一种近似无损的格式。 4、MP3:全称是MPEG-1 Audio Layer3,它在1992年合并至MPEG规范中。MP3能以高音质、低采样率对数字音频文件进行压缩。 5、WMA:是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高压缩率(可达到1:18)。 6、MP4:MP4的压缩比达到了1:15,体积较MP3小,但音质没有下降。? 7、DVDAudio:是新一代的数字音频格式,为音乐格式的DVD光碟。? 8、MD:Sony公司的MD(Mini Disc),立体声音乐。 ?9、RealAudio:是由RealNetworks公司推出的一种文件格式,可以实时传输音频信息,主要适用于网络上的在线播放。文件格式主要有RA、RM、RMX。 ?10、AIFF:是苹果公司开发的声音文件格式,被Macintosh平台和应用程序所支持。 ?11、MAC:Apple计算机公司所开发的声音文件格式,被Macintosh 平台和Macintosh应用程序所支持,支持某些压缩。 常用视频格式 ?1、MPEG/MPG/DAT:包括MPEG-1、MPEG-2或MPEG-4在内的多种视频格式。 ?2、AVI:音频视频交错(Audio Video Interleaved),由微软公司发表,调用方便、图像质量好,但文件体积过于庞大。 ?3、RA/RM/RAM:其图像质量比VCD差些。 ?4、MOV:MAC机中QuickTime提供2种标准图像和数字视频格式,即可以支持静态的PIC和JPG图像格式,动态的基于Indeo压缩法的MOV和基于MPEG压缩法MPG视频格式。 ?5、ASF:是微软推出的可以直接在网上观看视频节目的文件压缩格式。图像质量比VCD差一点点,但比同是视频“流”格式的RAM格式好。

音频、视频压缩有哪些技术标准

音频、视频压缩有哪些技术标准? 视频压缩技术有:MPEG-4、H263、H263+、H264等 MPEG-4视频编码技术介绍 MPEG是“Moving Picture Experts Group”的简称,在它之前的标准叫做JPEG,即“Joint Photographic Experts Group”。当人们用到常见的“.jpg”格式时,实际上正在使用JPEG的标准。JPEG规范了现代视频压缩的基础,而MPEG把JPEG 标准扩展到了运动图象。 MPEG-4视频编码标准支持MPEG-1、MPEG-2中的大多数功能,它包含了H.263的核心设计,并增加了优先特性和各种各样创造性的新特性。它提供不同的视频标准源格式、码率、帧频下矩形图像的有效编码,同时也支持基于内容的图像编码。采纳了基于对象(Object-Based)的编码、基于模型(Model-based)的编码等第二代编码技术是MPEG-4标准的主要特征。 MPEG4与MPEG1、MPEG2的比较 从上表可以看出,MPEG1和MPEG2主要应用于固定媒体,比如 VCD 和 DVD ,而对于网络传输,MPEG4具有无可比拟的优势。 H.263/H.263+/H.264视频编码技术介绍 1.H.263视频编码标准 1.H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二 版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。 H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。 它是在H.261基础上发展起来的,其标准输入图像格式可以是

S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。 H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的 压缩编码模式。 2.H.263+视频压缩标准 1.ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式 地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变 的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原 H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。 H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而 拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高 帧频的图像序列及宽屏图像。为提高压缩效率,H.263+采用先进的帧 内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预 测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像 的主观质量。为适应网络传输,H.263+增加了时间分级、信噪比和空 间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有 意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码 能力。 3.H.264视频压缩标准 1.H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一 代视频压缩编码标准。对信道时延的适应性较强,既可工作于低时延 模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合, 如视频存储等。 2.提高网络适应性,采用“网络友好”的结构和语法,加强对误码和 丢包的处理,提高解码器的差错恢复能力。 3.在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之 间可分级,以适应不同复杂度的应用。 4.相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括 4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参 考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比, 同时大大提高了算法的复杂度。 G.7xx系列典型语音压缩标准介绍 G.7xx 是一组 ITU-T 标准,用于视频压缩和解压过程。它主要用于电话方面。在电话学中,有两个主要的算法,分别定义在 mu-law 算法(美国使用)和 a-law 算法(欧洲及世界其他国家使用),两者都是对数关系,但对于计算机的处理来说,后者的设计更为简单。 国际电信联盟G系列典型语音压缩标准的参数比较:

wav音频格式

多媒体技术近年来发展很快,较好品质的声卡可以提供16位的立体声及44KHZ的播放录制能力,它不仅可以提供原音逼真的取样,其合成的音质也十分理想,有的声卡还加入了数字信号处理器,可编程控制的DSP具有强大的运算能力,它可以用来作声音信息的压缩和一些特殊效果的处理。具有此功能的声卡提供的WAV文件提供的语音信息可以满足语音特征识别的要求。 RIFF概念 在Windows环境下,大部分的多媒体文件都依循着一种结构来存放信息,这种结构称为"资源互换文件格式"(Resources lnterchange File Format),简称RIFF。例如声音的WAV 文件、视频的AV1文件等等均是由此结构衍生出来的。RIFF可以看做是一种树状结构,其基本构成单位为chunk,犹如树状结构中的节点,每个chunk由"辨别码"、"数据大小"及"数据"所组成。 图一、块的结构示意图 辨别码由4个ASCII码所构成,数据大小则标示出紧跟其后数据的长度(单位为Byte),而数据大小本身也用掉4个Byte,所以事实上一个chunk的长度为数据大小加8。一般而言,chunk本身并不允许内部再包含chunk,但有两种例外,分别为以"RIFF"及"L1ST"为辨别码

的chunk。而针对此两种chunk,RIFF又从原先的"数据"中切出4个Byte。此4个Byte 称为"格式辨别码",然而RIFF又规定文件中仅能有一个以"RIFF"为辨别码的chunk。 图二、RIFF/LIST块结构 只要依循此一结构的文件,我们均称之为RIFF档。此种结构提供了一种系统化的分类。如果和MS一DOS文件系统作比较,"RIFF"chunk就好比是一台硬盘的根目录,其格式辨别码便是此硬盘的逻辑代码(C:或D:),而"L1ST"chunk即为其下的子目录,其他的chunk则为一般的文件。至于在RIFF文件的处理方面,微软提供了相关的函数。视窗下的各种多媒体文件格式就如同在磁盘机下规定仅能放怎样的目录,而在该目录下仅能放何种数据。 WAV文件格式 WAVE文件是非常简单的一种RIFF文件,它的格式类型为"WAVE"。RIFF块包含两个子块,这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成,其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

常见的音频编码标准

常见的音频编码标准 在自然界中人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而,3G网络带来了移动多媒体业务的蓬勃发展,视频、音频编解码标准是多媒体应用的基础性标准,但其种类较多,有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的,下面我们介绍一下最常见的编码技术。 1.PCM PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 2.W A V WA V是Microsoft Windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频,但实际上W A V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在W A V格式里面存放图像。之所以能这样,是因为W A V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(通常称为CODEC,编码/解码器),可以在W A V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。 虽然W A V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:Sound Forge, Cool Edit Pro, 等等。 3.MP3 MP3它的全称是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。 由于MP3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,否则就根本没有生命力。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的

音频格式分类

音频格式分类 RAM/MV/ACC/WAV/WMA/DAC/ac3/Amr/M3U/MMF/VQF/STY/RMJ/FLVC/OXM/MT9/OXM/MOV RAM 1、Random-Access Memory(随机存取存储器): 在计算机的组成结构中,有一个很重要的部分,就是存储器。存储器是用来存储程序和数据的部件,对于计算机来说,有了存储器,才有记忆功能,才能保证正常工作。存储器的种类很多,按其用途可分为主存储... MV 释义【1】MV是英文Market Value (市场价格)的简称,而其中文简称为“市价”; 【2】MV是英文Music Video(音乐视频)的简称,而其中文简称为“乐视”; 【3】MV是英文Maldives (马尔代夫)的简称,是一个印度洋岛国; 【4】MV是英文Muzzle Velocity ... aac Advanced Audio Coding AAC音频格式 Advanced Audio Coding。一种专为声音数据设计的文件压缩格式,与Mp3类似。利用AAC格式,可使声音文件明显减小,而不会让人感觉声音质量有所降低 AAC格式可以用苹果iTunes转换或千千静听(六组件) 苹... WAV WAV简介通常使用三个参数来表示声音,量化位数,取样频率和声道数。声道有单声道和立体声之分,取样频率一般有11025Hz(11kHz) ,22050Hz(22kHz)和44100Hz(44kHz) 三种,不过尽管音质出色,但在压缩后的文件体积过大!相对其他音频格式而言... WMA 基本简介平时我们只要提到下载音乐,第一反应就是MP3,其实MP3已经逐渐成为音频格式的代名词,实际离灭亡不远,现在几乎绝大多数在线音频试听网站都使用的是 WMA格式(通常码率64 Kbps),WMA解码比起MP3较为复杂,因此许多山寨手机及有名的低端... MOV MOV简介MOV即QuickTime影片格式,它是Apple公司开发的音频、视频文件格式,用于存储常用数字媒体类型,如音频和视频。当选择 QuickTime (*.mov)作为“保存类型”时,动画将保存为 .mov 文件。 QuickTime用于保存音频和视频信息,现在它被包括... ACC

种音频格式介绍及音质压缩比的比较

目录 前言 (1) 1. 数码音乐简介 (2) 2. WMV格式 (4) 3. MP3格式 (4) 4. WMA格式 (5) 5. Mp3Pro格式 (5) 6. MOD格式 (6) 7. RA系列 (6) 8. MD格式 (7) 9. ASF格式 (7) 10. AAC格式 (7) 11. VQF格式 (8) 12. MID格式 (8) 13. OGG格式 (9) 14. M4A格式 (9) 15. AAC+格式 (10) 16. AIFF与AU格式 (10) 17. CD格式 (11) 18. WAV格式 (11) 19. FLAC格式 (12) 20. APE格式 (13) 21. 压缩比比较: (13) 22. 音质比较: (14) 前言

在日常生活中,我们会听各种音乐,而这些音乐大多数都是以数码的形式传播的,无论是在电脑上试听或下载还是在MP3或CD机上试听。当然也会经常看到各式各类的诸如MP3、WMV、APE等格式,但你是否明白这些格式的意思呢?下面小编就为你整理了一些这方面的内容,希望能有帮助。 1.数码音乐简介 数字音源,也就是数字音频格式,最早指的是CD,CD经过压缩之后,又衍生出多种适于在随身听上播放的格式,这些压缩过的格式,我们可以分为两大类:有损压缩的和无损压缩的。这里所说的压缩,是指把PCM编码的或者是WAV格式的音频流经过特殊的压缩处理,转换成其他格式,从而达到减小文件体积的效果。有损/无损,是指经过压缩过后,新文件所保留的声音信号相对于原来的PCM/WAV 格式的信号是否有所削减。 PCM编码是Pulse Code Modulation的缩写,又叫脉冲编码调制,它是数字通信的编码方式之一,其编码主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。 数码音频信号的最终形式仍然是“0/1”构成的。它们可能是任何排列和组合,比如“0001110101”或者“11100001010”。当然,组合不同,其效果当然就不一样。看到这里,应该有朋友注意到了。如果声音是用“00101010”这样的形式来记录,那最终形态岂不就是一个“点”,也就是一个简单的“开关”过程而已。声音是连续不断的,怎么能用“点”来记录呢?这样我们听到的声音不就应该是一段一段的吗?道理不难理解。回家打开日光灯,你能发现日光灯在闪吗?不能?其实日光灯的确是在不停闪烁的。看过动画片吧,那些都是用一格一格的静止的图画连接成的。一格一格的图画我们也可以简单的理解为一个一个的“点”。人对自然界的感觉是有极限的,视觉和听觉都是如此。动画片能产生连贯的动作是因为这些“点”在人的视觉未能及时做出反映的情况下让人产生的一种错觉,除了机器,人是无法把这些“点”区分开的。声音也是如此。如果声音闪动的频率很快,人也是

各种音频编码方式的对比

各种音频编码方式的对比 内容简介:文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型:Audio 制定者:ITU-T 所需频宽: Kbps 特性:音源信息完整,但冗余度过大 优点:音源信息保存完整,音质好 缺点:信息量大,体积大,冗余度过大 应用领域:voip 版税方式:Free 备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型:Audio 制定者:微软公司 所需频宽:320~112kbps(压缩10~12倍)

特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k 是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。 缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。 应用领域:voip 版税方式:按个收取 备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型:Audio 制定者:ITU-T 所需频宽:32Kbps 特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。 它的核心想法是: ①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术) 缺点:声音质量一般 应用领域:voip

各种音频编码方式的对比

各种音频编码方式的对比

各种音频编码方式的对比 内容简介:文章介绍了PCM编码、WMA编码、ADPCM 编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型:Audio 制定者:ITU-T 所需频宽:1411.2 Kbps 特性:音源信息完整,但冗余度过大 优点:音源信息保存完整,音质好 缺点:信息量大,体积大,冗余度过大 应用领域:voip 版税方式:Free 备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD 以及我们常见的WAV文件中均有应用。因此,PCM 约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,

采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2 =1411.2Kbps。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型:Audio 制定者:微软公司 所需频宽:320~112kbps(压缩10~12倍) 特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。 缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。 应用领域:voip 版税方式:按个收取 备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的

音频解码标准样本

音频编解码标准 PCMU(G.711U) 类型: Audio 制定者: ITU-T 所需频宽: 64Kbps(90.4) 特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。 优点: 语音质量优 缺点: 占用的带宽较高 应用领域: voip 版税方式: Free 备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。如果带宽足够而且需要更好的语音质量, 就使用PCMU 和 PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。 PCMA(G.711A) 类型: Audio 制定者: ITU-T 所需频宽: 64Kbps(90.4) 特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。 优点: 语音质量优 缺点: 占用的带宽较高

应用领域: voip 版税方式: Free 备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。如果带宽足够而且需要更好的语音质量, 就使用PCMU 和 PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。 ADPCM(自适应差分PCM) 类型: Audio 制定者: ITU-T 所需频宽: 32Kbps 特性: ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性, 是一种性能比较好的波形编码。它的核心想法是: ①利用自适应的思想改变量化阶的大小, 即使用小的量化阶(step-size)去编码小的差值, 使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值, 使实际样本值和预测值之间的差值总是最小。 优点: 算法复杂度低, 压缩比小( CD音质>400kbps) , 编解码延时最短( 相对其它技术) 缺点: 声音质量一般 应用领域: voip 版税方式: Free 备注: ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一

各种音频编码格式对比

WAVE: 是微软公司开发的一种声音文件格式,它符合Resource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。WAVE 文件作为最经典的Windows 多媒体音频格式,应用非常广泛,它使用三个参数来表示声音:采样位数、采样频率和声道数。声道有单声道和立体声之分,采样频率一般有11025Hz(11kHz)、22050Hz(22kHz)和44100Hz(44kHz)三种。 “*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。 WAV音频格式的优点包括:简单的编/解码(几乎直接存储来自模/数转换器(ADC)的信号)、普遍的认同/支持以及无损耗存储。WAV格式的主要缺点是需要音频存储空间。对于小的存储限制或小带宽应用而言,这可能是一个重要的问题。WAV格式的另外一个潜在缺陷是在32位WAV文件中的2G限制,这种限制已在为SoundForge开发的W64格式中得到了改善。 MP3: MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。 文件尺寸小,音质好;MP3没有版权保护技术。 MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。 格式特点: 1.MP3是一个数据压缩格式。 2.它丢弃掉脉冲编码调制音频数据中对人类听觉不重要的数据,从而达到了小得多的文件大小。 3.MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。MP3格式使用了混合的转换机制将时域信号转换成频域信号。 4.32波段多相积分滤波器(PQF)。 5.36或者12 tap 改良离散余弦滤波器(MDCT);每个子波段大小可以在0...1和2 (31) 之间独立选择。 6.MP3不仅有广泛的用户端软件支持,也有很多的硬件支持比如便携式媒体播放器(指MP3播放器)DVD和CD播放器。 MIDI: MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。*.mid 文件重放的效果完全依赖声卡的档次。*.mid格式的最大用处是在电脑作曲领域。*.mid 文

音频压缩

音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号 处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。 、音频压缩算法的主要分类及典型代表 一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。 (1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值 进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM (SB-ADPCM)技术如G.721、G.722、Apt-X等。 (2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。 由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。 子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC 中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。

各类音频格式介绍

音乐格式五花八门,多如牛毛,但不外乎分为两大类:一类为音乐指令文件(如MIDI),一般由音乐创作软件制作而成,它实质上是一种音乐演奏的命令,不包括具体的声音数据,故文件很小;另一类为声音文件,是通过录音设备录制的原始声音,其实质上是一种二进制的采样数据,故文件较大。 从播放形式上,声音文件还可以分为“音频流”和“非音频流”两种,前者能够一边下载一边收听,比如“.WMA”、“.RA”、“.MOV”等,后者则不能。所谓流媒体技术就是把连续的影像和声音信息经过压缩处理后放上网站服务器,让用户一边下载一边观看、收听,而不需要等整个压缩文件全部下载到自己机器后才可以观看的技术。 下面,将各种音乐文件的格式收集整理如下: 流式音频:Windows Media Audio(WMA) WMA就是Windows Media Audio的缩写,是微软自己开发的Windows Midea Audio技术。它和Windows Midea Video一样,经历了几代改良后,变得非常出色。比起老掉牙的MP3压缩技术,WMA无论从技术性能(支持音频流)还是压缩率(比MP3高一倍)都远远把MP3抛在后面了。据微软声称,用它来制作接近CD品质的音频文件,其体积仅相当于MP3的1/3。在48Kbps的传送速率下即可得到接近CD品质(Near -CD Quality)的音频数据流,在64Kbps的传送速率下可以得到与

CD相同品质的音乐,而当连接速率超过96Kbps后则可以得到超过CD 的品质。 流式音频:RealMedia(RA/RM/RAM) RealMedia采用的是RealNetworks公司自己开发的Real G2Codec,它具有很多先进的设计,例如,SVT(Scalable Video Technology),该技术可以让速度较慢的电脑不需要解开所有的原始图像数据也能流畅观看节目;双向编码(Two-Encoding)技术类似于VBR,它可通过预先扫描整个影片,根据带宽的限制选择最优化压缩码率。RealMedia音频部分采用的是RealAudio,它具有21种编码方式,可实现声音在单声道、立体声音乐不同速率下的压缩。 流式音频:QuickTime(MOV) QuickTimeApple的QuickTime是最早的视频工业标准,在1999年发布的QuickTime4.0版本后开始支持真正的实时播放,其格式为“.mov”。它的视频压缩部分采用Sorenson Video技术,该技术支持VBR(Variable Bit Rate),也就是我们常说的动态码率,它可以动态地分配带宽以尽可能小的文件获得最好的播放效果,并能使在解压缩时获得平滑流畅的画面。音频部分QuickTime采用一种名为QDesiglMusic的技术,据说是一种比MP3更好的音频流技术。 VQF VQF即TwinVQ(Transform-domain Weighted Interleave Vector

相关文档
最新文档