音频压缩原理及AC-3编码流程分析0930

音频压缩原理及AC-3编码流程分析0930
音频压缩原理及AC-3编码流程分析0930

音频压缩原理及AC-3编码流程分析

安徽广播电视台梁彦

摘要:

本文从音频压缩原理和人耳声学特性的出发,讲述了声音的主要声学现象及其成因和音频信号压缩的主要思路,跟着详细描述了AC-3多通道编码器的信号处理流程,最后总结了AC-3编码取得高效压缩编码效果使用的主要方法,对读者进一步了解当前主流的多通道音频压缩编码算法有积极的意义。

关键字:AC-3、编码流程、音频压缩

1引言

随着听众对音质和声音环境要求的越来越高,5.1声道的音频节目已经开始进入电影院和家庭。这同时也伴随着声音信号的传输。对于电视台来说,如何将制作好的音频节目,完整的传递给观众成为广播电视工程人员的考虑问题。而音频压缩又是音频节目传输环节中的重中之重,因此本文主要通过简单介绍音频压缩原理和主流的多声道压缩算法AC-3工作流程,给广大电视工程工作者提供有益的参考资料。

2音频压缩原理和人耳声学特性

音频的压缩编码一般分为有损压缩和无损压缩两种,无损压缩一般使用霍夫曼编码或游程编码,有损压缩一般伴随着域变换和量化,根据人耳的听觉掩蔽效应特性,去掉声音中人耳听不到的或可以忽略的数据从而达到压缩的目的。听觉掩蔽效应主要分为时域掩蔽和频域掩蔽,时域中强声音信号分量可掩蔽附近(该时间点前后)弱的声音分量,而且这种效应随着信号的频率而变化。在频域中,强信号可以掩蔽某一极限带宽内的弱信号。

一般而言, 人耳的听觉像20Hz~20kHz 带通滤波器, 它对不同频率的信号有不同的感知辨别率。相对于高频而言, 低频的声音更易被人耳感知, 其中尤以对2kHz~4kHz 的信号最为敏感, 因而形成了图1 中的绝对可闻阈曲线。绝对可闻阈是指寂静时听觉可听到的各频段的最低音量。但遮蔽效应对于听觉特性有着很大的影响。遮蔽分为同时性的遮蔽和非同时性的遮蔽。前者是频域下的一种现象, 指在相近的频率下, 强度较大的信号会遮蔽较小的信号。后者也称时间的遮蔽性, 是指在短暂的时间间隙内, 强度大的信号遮蔽较小的信号, 它又分为前遮蔽和后遮蔽。前遮蔽是指强度大的信号遮蔽发生较早的小信号, 后遮蔽则是强度大的信号遮蔽发生较晚的小信号。通常前遮蔽的持续时间为20ms, 对之前的声音的影响几乎可以忽略; 而后遮蔽所产生的效应相对大而且持久, 一般可达100~200ms ,所以应用更为广泛。典型的听觉心理特性如图1 所示的频率特性(左)和时间特性(右)。

图1 中, 噪声A 因在绝对可闻阈以上而可闻, 但噪声C 因在绝对可闻阈以下, 故听不到。如左图所示, 当有黑线所示的某频率信号存在时, 靠近它的本来可以听见的噪声 B 就变得听不见了, 这种现象就是同时性遮蔽效应。而如右图所示, 当某时刻有黑线所示的信号存在时, 尽管前面的噪声D 还可以听到,但位于其后面的比它小一些的本来可听见的噪声 E 也变得听不见了, 这种现象称为

非同时性遮蔽效应。两种效应合成的结果形成了实际的可闻阈。

3 AC-3压缩编码流程分析

AC-3多通道自适应变换编码根据心理声学模型将多个声道编码成一个声道,并保持较低的码率,在同等质量和码率下其音频质量要比同样数量的多通道声音单独编码的质量要好。虽然AC-3编码的标准配置是SMPTE 推荐的5.1声道(全频段左中右左环绕右环绕加LFE 低频段),但是AC-3的算法本身和声道数无关。除了5.1声道的标准配置外,AC-3编码还支持单声道、双声道、立体声、3/0(左、中、右)、2/1(左、右、环绕)、3/1(左、中、右、环绕)、2/2(左、右、左环绕、右环绕)、3/2(左、中、右、左环绕、右环绕)多种音频通道模式,上述模式中LFE (Low-frequency effects )声道并不包含在内,但任何一种模式都可以附加LFE 声道。AC-3编码输出的比特率范围可以从32kbps~640kbps ,而采用5.1标准模式时,根据实际应用情况统计,320kbps~384kbps 的码率就可以获得一个高压缩比、高保真的音频效果。同时AC-3数据流中可携带多种元数据,可以实现音频动态范围压缩,对白标准化、节目间电平匹配、下混合、版权信息等功能。

下面就详细介绍编码器和解码器的主要功能模块和信号流程。

3.1编码器工作流程[1]

1. 输入缓冲器

AC-3是分块编码器,因此需要一个缓冲器来存储时域采样的bit 流,一般每图1声音频域时域掩蔽曲线

个块包含512个样点,每个样点的字长最多可达24bit。

2.输入滤波器

受到人耳听觉频率特征的影响,时域波形在处理以前需要经过滤波去除直流信号,5个全频段信号经过一个3Hz的高通滤波器,1个低音信号经过一个120Hz 的低通滤波器。

3.瞬时检测

为了避免瞬时的信号出现在块的边缘,避免掩蔽效应,防止声音信号被忽略,编码器使用一个高频带通滤波器来检测瞬时现象,检测信息将提供给TDAC滤波器组调节相应块的大小。

4.TDAC(time domain alias cancellation)滤波器组

每个通道的时域输入信号在这里被单独划分成多个窗口,并且经过一个基于TDAC的分析滤波器组滤波,然后经过FFT变换得到TDAC变换系数。然后编码器将6个声道的变换系数组成一个整体。解码器可以通过这些系数的反变换重构出时域信号。同时滤波器组使得每个块有50%的重叠来避免块边缘的不连续性。

5.浮点变换

AC-3 TDAC变换系数被转换成浮点数,浮点数分成尾数和相应的指数,分别送入定点DSP处理芯片处理。采用浮点数表示系数,可以表示更大的动态范围,因此AC-3保留了声音信号AD/DA转换18-22bit的高分辨率。

6.载波预综合

一般来说,多通道编码需要的平均比特量可以粗糙地和通道数的平方根成比例,即有如下计算公式

=

a?

c

s

其中,a表示平均比特率,s表示相同情况下单通道编码输出比特率,c表示通道数,例如,单通道编码s需要128Kbps,那么 5.1声道则需要128=

?,对于AC-3标准模式下使用的最少数据率320Kbps来说也289

Kbps

1.5

是很充裕的。对于要求高的信号,AC-3还可以选择高频载波分量预综合技术来提高更多的编码增益。

这项技术是基于人类听觉系统的高频部分的心理声学现象来删除高频局部冗余信息,原理是因为在信号高频部分,人耳定位声源主要和高频段的包络有关,而不是声音信号的频谱本身。AC-3正是利用这一点把高频子带信号分离成包络和载波两个分量,一般来说,编码包络信息要比载波信息采用更高的精度,如果需要,考虑到通道载波的相关性,还可以在多通道组合载波分量。这样做只对音频信号有较小的影响,因为定位信息被保留在包络数据中,而高频段载波的耦合性组合对听众的耳朵基本都产生相同的听觉效果。被编码的载波信息增加到TDAC变换系数里的尾数和指数队列,而包络信息则作为耦合系数被单独传输。

7.全局比特分配

统一的多通道编码的主要优势就是可以使得比特分配根据需要在各个通道之间灵活使用来适应信号变换的要求。

AC-3比特分配器根据TDAC系数的内在的掩蔽效应和绝对听值门限,再结合定长的TDAC指数(指数长度固定,不参与量化),确定每一个尾数的量化精度,也就是需要量化的比特数。这个计算是在全局范畴的,也就是把所有通道

看作一个整体共同使用一个单一的比特池,很少有确定的和预先指定分配的比特量。

8.量化

比特分配计算的结果被用来量化TDAC尾数数据,简单地发送该值的n位有效位,这个值被换算和偏移到以零为中心、上下幅度相等、对称的量化级,再使用负向抖动来最小化失真。解码器解出尾数后进行补偿处理恢复实际的尾数值。

编码器可以选择在量化过程中抖动数据。在传输数据中的工作模式位中指出是否抖动并且提供同步信息,因此解码器可以提取相同的抖动数据来重构尾数。

9.数据打包

上面几步的处理将6个通道的时域信号的每个块转变成一系列队列和数值,这些值包括TDAC指数和量化的尾数、比特分配信息、耦合系数和抖动标志。在编码器最后一级这些信息和同步信息、一个包头以及可选的误差校正信息一起被打包成一个块,彼此之间有一定的逻辑关系,因此解码器可以方便的解包。

编码器流程图如图所示

图AC-3编码器流程图

3.2解码器工作流程

解码器工作原理相当于编码器工作的逆过程,但是它采用了编码器的中间结果,相对来说比较简单,主要处理步骤如下:

1.输入缓冲器

解码器和编码器类似,也是块结构的,在处理之前先和输入数据流建立和保持同步,然后在输入缓冲器中采集整个数据包。

2.误差隐藏

每个解码器的输入数据块不但要检测它内部的一致性,而且还要显示外部误差校正处理器的状态。如果误差校正处理器指出一个不可校正的错误,那么解码器将使用后一个好的包来代替当前包达到一定程度下隐藏错误的效果。由于信号重构过程中的重叠特性使得解码器对这种误差隐藏形式相对来说有较好的效果,当然解码器由于误差扩散会导致一段静音。在电影胶片中还可以使用已经存在的模拟声轨代替受损的声音包。

3.固定格式数据解包

数据解包分为两个部分即固定位置数据和可变位置数据,固定位置数据包括指数、耦合系数和模式标志,可以直接取出,这些数据的相关部分被用来恢复比特分配信息,然后用这些信息来解开可变位置数据,主要是TDAC变换的尾数。

4.解码器比特分配

除了解码器使用编码器传输过来的中间结果以节省解码时间以外,解码器的比特分配规则和编码器分配器是几乎一致的,还可以选择在编码器不传输比特分配信息的情况下,由解码器根据比特分配规则在某一时刻计算出一个通道的比特分配后解码,减少解码器内存的需要。

当然,为了使可变格式数据适时地被解出,解码器的比特分配必须和编码器的比特分配精确匹配,否则就会在输出端引出人造的叽叽喳喳的噪声。

5.可变格式数据解包

解码器中比特分配信息恢复以后,就可确定每一个尾数的量化大小,从被编码的比特流中解出可变数据。

6.定点数转换

为TDAC反变换做准备,尾数和指数被组合并重构成浮点TDAC系数。如果增加了抖动处理,将在这里做去抖动处理。

7.高频载波插入

高频系数在编码器中被分为载波和包络信息,这里通过载波和耦合系数重构高频系数。

8.逆变换

每一个通道恢复TDAC变换系数,然后经过TDAC逆变换成时域的、窗口化的、重叠的信号,再重新组合成数字时域输出信号。

注意:低音声道的系数在中频和高频区用0来填充,因此低频时域输出也是满频段。

以下是解码器流程图

图AC-3解码器流程图

3.3AC-3音频帧结构

上面两节简要说明了AC-3编解码器的编码和解码步骤,根据ATSC AC-3

编码标准,编码器和解码器之间是通过打包的音频帧来通信,每一个音频帧包含6个通道的音频块,每个音频块包含256点音频采样点的数据。音频帧主要由同步信息(Synchronization Information,SI)、比特流信息(Bit Stream Information,BSI)、音频块(Audio Block,AB)、辅助数据区(Auxiliary Data Field,AUX)、循

环冗余检验(CRC)几个基本段组成。帧结构如下图所示:

4总结

综上所述,AC-3压缩编码对多声道音频压缩取得良好的效果,主要有以下几个特点:

1.在单声道音频编码方面,对变换系数采用指数和尾数的传递方式,指数

不量化,同时作为尾数的bit分配规则。节省了传输量化信息的开销。

2.编码增益主要产生在尾数的量化上,其它部分的处理对音质没有引向。

3.充分利用人耳的心理声学模型,进行冗余数据去除,即对尾数量化的比

特分配规则。

4.在多通道之间采用高频耦合,共用数据和bit共享池的方式进一步降低

了数据量。

5.块重叠技术使得在编码在边缘效应和传输误差上有很大的改进。

参考文献

[1] Mark F. Davis,”The AC-3 Multichannel Coder”, Reproduced by permission of the Audio Engineering Society, Inc.Presented at the 95th Convention, 1993 October 7-10

[2]郭柯.数字声音压缩编码的进展.通信学报.1995.9:16-5

[3]申长旺.杜比音频技术简介.西部广播电视.2001.5

图像压缩编码方法

图像压缩编码方法综述 概述: 近年来, 随着数字化信息时代的到来和多媒体计算机技术的发展, 使得人 们所面对的各种数据量剧增, 数据压缩技术的研究受到人们越来越多的重视。 图像压缩编码就是在满足一定保真度和图像质量的前提下,对图像数据进行变换、编码和压缩,去除多余的数据以减少表示数字图像时需要的数据量,便于 图像的存储和传输。即以较少的数据量有损或无损地表示原来的像素矩阵的技术,也称图像编码。 图像压缩编码原理: 图像数据的压缩机理来自两个方面:一是利用图像中存在大量冗余度可供压缩;二是利用人眼的视觉特性。 图像数据的冗余度又可以分为空间冗余、时间冗余、结构冗余、知识冗余 和视觉冗余几个方面。 空间冗余:在一幅图像中规则的物体和规则的背景具有很强的相关性。 时间冗余:电视图像序列中相邻两幅图像之间有较大的相关性。 结构冗余和知识冗余:图像从大面积上看常存在有纹理结构,称之为结构 冗余。 视觉冗余:人眼的视觉系统对于图像的感知是非均匀和非线性的,对图像 的变化并不都能察觉出来。 人眼的视觉特性: 亮度辨别阈值:当景物的亮度在背景亮度基础上增加很少时,人眼是辨别 不出的,只有当亮度增加到某一数值时,人眼才能感觉其亮度有变化。人眼刚 刚能察觉的亮度变化值称为亮度辨别阈值。 视觉阈值:视觉阈值是指干扰或失真刚好可以被察觉的门限值,低于它就 察觉不出来,高于它才看得出来,这是一个统计值。 空间分辨力:空间分辨力是指对一幅图像相邻像素的灰度和细节的分辨力,视觉对于不同图像内容的分辨力不同。 掩盖效应:“掩盖效应”是指人眼对图像中量化误差的敏感程度,与图像 信号变化的剧烈程度有关。 图像压缩编码的分类: 根据编码过程中是否存在信息损耗可将图像编码分为: 无损压缩:又称为可逆编码(Reversible Coding),解压缩时可完全回复原始数据而不引起任何失真; 有损压缩:又称不可逆压缩(Non-Reversible Coding),不能完全恢复原始数据,一定的失真换来可观的压缩比。 根据编码原理可以将图像编码分为: 熵编码:熵编码是编码过程中按熵原理不丢失任何信息的编码。熵编码基

数字音频作业及其答案

第一次作业: 1:、声音可分为两种: 纯音和复合音,平常人们说话的声音属于哪一种?语音的频率范围是多少?音频通常包括哪几种声音信号?其频率范围是多少? 2、请说明音频信号数字化的三个步骤? 3、如何理解量化是信号数字化过程中重要的一步,而这一过程又是引入噪声的主要根源”这句话的含义?通过哪些途径可以减小量化误差? 4对双极性信号若采用均匀量化,则量化信噪比SNR与量化比特数之间的关系为: SNR=6.02xN+1.76dB试分析此式对实际量化与编码的指导意义? 5:、A/ D、D/A转换器的技术指标有哪些? 答:1:人们说话的声音为复合音,语言的频率范围为300HZ-3000HZ音频 暴多语音、音乐、效果声等声音信号,频率范围为20HZ-20KHZ 2: 1取样: 对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。2量化: 取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据,则相当于能够接受256个十进制的数,即有256个电平数,用这些数来代表模拟信 号的电平,可以有256种,但是实际上米样后的某一时刻信号的电平不一定和256个电

平某一个相等,此时只能用最接近的数字代码表示取样信号电平。3编码: 对音频信号取样并量化成二进制,但实际上就是对音频信号进行编码,但用不同的取样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。波形声音的主要参数包括: 取样频率.量化位数.声道数.压缩编码方案和数码率等,未压缩前,波形声音的码率计算公式为: 波形声音的码率=取样频率*量化位数*声道数/8。波形声音的码率一般比较大,所以必需对转换后的数据进行压缩。 3:量化是按四舍五入对采样的样本值进行计量的,这个过程会产生误差可对噪声进行整形,提高采样频率等方法减小量化误差 4:量化比特数增加一位,则信噪比提高6dB,信噪比提高意味着声音动态范围的加宽,若采用量化比特N=16的A/D变换器的数字声记录在磁带上可以扩展到98dB,接近于交响乐动态范围,若将量化比特提高到N=20,可扩至人儿的122dB动态范围。 5: A/D的技术指标有: 分辨率、转换速率、量化误差、偏移误差、满刻度误差和线性度误差等。D/A转换器的技术指标有: 分辨率和建立时间。 第二次作业: 1. 什么叫最小可闻阈?什么叫掩蔽阈?什么叫频域掩蔽?什么叫时域掩蔽?掩蔽效应的一般规律是什么? 2. 何谓临界频带?简述它在音频编码中的应用。 3. 音频编码通常分为哪几类?它们各有什么优缺点? 4. 声音压缩的依据是什么?MPEG-1音频编码利用了听觉系统的什么特

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

jpeg编码原理

一、JPEG算法概要 JPEG(Joint Photographic Experts Group)是一个由ISO和IEC两个组织机构联合组成的一个专家组,负责制定静态的数字图像数据压缩编码标准,这个专家组开发的算法称为JPEG算法,并且成为国际上通用的标准,因此又称为JPEG标准。JPEG是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像又可用于彩色图像。 JPEG专家组开发了两种基本的压缩算法,一种是采用以离散余弦变换(Discrete Cosine Transform,DCT)为基础的有损压缩算法,另一种是采用以预测技术为基础的无损压缩算法。使用有损压缩算法时,在压缩比为25:1的情况下,压缩后还原得到的图像与原始图像相比较,非图像专家难于找出它们之间的区别,因此得到了广泛的应用。例如,在VCD 和DVD-Video电视图像压缩技术中,就使用JPEG的有损压缩算法来取消空间方向上的冗余数据。为了在保证图像质量的前提下进一步提高压缩比,近年来JPEG专家组正在制定JPEG2000标准,这个标准中将采用小波变换(Wavelet)算法。 JPEG压缩是有损压缩,它利用了人的视角系统的特性,使用量化和无损压缩编码相结合来去掉视角的冗余信息和数据本身的冗余信息。 压缩编码大致分成三个步骤: 1、使用正向离散余弦变换(Forward Discrete Cosine Transform,FDCT)把空间域表示的图变换成频率域表示的图。 2、使用加权函数对DCT系数进行量化,这个加权函数对于人的视觉系统是最佳的。 3、使用霍夫曼可变字长编码器对量化系数进行编码。 译码或者叫做解压缩的过程与压缩编码过程正好相反。 JPEG算法与彩色空间无关,因此“RGB到YUV变换”和“YUV到RGB变换”不包含在

几种视频压缩技术概述

几种视频压缩技术概述 (返回) (一)、JPEG——静止图像压缩标准 1、 JPEG 国际标准化组织(ID)和国际电报电话咨询委员会(CCITT)联合成立的专家组织JPEG (Joint Photographic experts group经过五年艰苦细致地工作后,于是1991年3月 提出了ISO CDIO918号建议草案:多灰度静止图像的数字压缩编码(简称JPEG标准)。 这是一个适用于彩色和单多多灰度或连续色调静止数字图像的压缩标准。它包括基于 DPCM(差分脉冲编码调制)、DCT(离散余弦变换)和Huffman编码的有损压缩算法两个 部分。前者不会产生失真,但压缩比很小;后一种算法进行图像压缩住处虽有损失但压 缩比可以很大,压缩20倍左右时,人眼基本上看不出失真。JPEG标准有三个范畴: A、基本顺序过程Baseline sequential processes实现有损图像压缩。重建图像质量达 到人眼难以实现图像质量达到人眼难以观察出损失的要求。采用8*8像素自适应DCT算 法、量化及H uffman型的熵编码器。 B、基于DCT的扩展过程(Extended DCT Based Process)使用累进行工作方式,采用自 适应算术的编码过程。 C、无失真过程(Lossless Process)采用预测编码及Huffman(或算术编码),可保 证重建图像数据与原始图像数据完全相同。 基中的基本顺序过程是JPEG最基本的压缩过程:符合JPEG标准的硬软件编码/解码器都 必须支持和实现这个过程。另两个过程是可选扩展,对一些特定的应用项目有很大实用 价值。 (1)、JPEG算法 基本JPEG算法操作可分成以下三个步骤:通过离散余弦变换(DCT)去除数据冗余;使 用量化表对DCT系数进行量化,量化表是根据人类礼堂系统和压缩图像类型的特点进行 优化的量化系数矩阵;对量化后的DCT系数时行编码使其熵达到最小,熵编码采用 Huffman可变字长编码 (2)、离散余弦变换 JPEG采用8*8子块的二维离散余弦变换算法。在编者按码器的输入端,把原始图像(对

图像压缩编码实验报告

图像压缩编码实验报告 一、实验目的 1.了解有关数字图像压缩的基本概念,了解几种常用的图像压缩编码方式; 2.进一步熟悉JPEG编码与离散余弦变换(DCT)变换的原理及含义; 3.掌握编程实现离散余弦变换(DCT)变换及JPEG编码的方法; 4.对重建图像的质量进行评价。 二、实验原理 1、图像压缩基本概念及原理 图像压缩主要目的是为了节省存储空间,增加传输速度。图像压缩的理想标准是信息丢失最少,压缩比例最大。不损失图像质量的压缩称为无损压缩,无损压缩不可能达到很高的压缩比;损失图像质量的压缩称为有损压缩,高的压缩比是以牺牲图像质量为代价的。压缩的实现方法是对图像重新进行编码,希望用更少的数据表示图像。应用在多媒体中的图像压缩编码方法,从压缩编码算法原理上可以分为以下3类: (1)无损压缩编码种类 哈夫曼(Huffman)编码,算术编码,行程(RLE)编码,Lempel zev编码。(2)有损压缩编码种类 预测编码,DPCM,运动补偿; 频率域方法:正交变换编码(如DCT),子带编码; 空间域方法:统计分块编码; 模型方法:分形编码,模型基编码; 基于重要性:滤波,子采样,比特分配,向量量化; (3)混合编码 JBIG,H.261,JPEG,MPEG等技术标准。 2、JPEG 压缩编码原理 JPEG是一个应用广泛的静态图像数据压缩标准,其中包含两种压缩算法(DCT和DPCM),并考虑了人眼的视觉特性,在量化和无损压缩编码方面综合权衡,达到较大的压缩比(25:1以上)。JPEG既适用于灰度图像也适用于彩色图像。其中最常用的是基于DCT变换的顺序式模式,又称为基本系统。JPEG 的压缩编码大致分

数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月 长沙航空职业技术学院学报 CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL Vol.4No.2 J un.2004 收稿日期:2004-03-20 作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。 数字音频技术(MP3)的压缩编码原理与制作方法 张晓婷 (珠海市工业学校,广东珠海 519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作 MP3的方法。 关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06 Compression Coding Principle and F acture of Digital Audio Frequency T echnique (MP 3) ZHAN G Xiao 2ting (Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2 nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言 数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。 二、MP3简介 (一)数字音频MP3的格式 MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。 (二)数字音频MP3压缩的优点 使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。 三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式 ? 15?

视频压缩编码方法简介—AVI

视频压缩编码方法简介—AVI AVI(Audio Video Interleave)是一种音频视像交插记录的数字视频文件格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW(Video for Windows)。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等: 1、视像参数 (1)、视窗尺寸(Video size):根据不同的应用要求,AVI的视窗大小或分辨率可按4:3的比例或随意调整:大到全屏640×480,小到160×120甚至更低。窗口越大,视频文件的数据量越大。 (2)、帧率(Frames per second):帧率也可以调整,而且与数据量成正比。不同的帧率会产生不同的画面连续效果。 2、伴音参数:在AVI文件中,视像和伴音是分别存储的,因此可以把一段视频中的视像与另一段视频中的伴音组合在一起。AVI 文件与WAV文件密切相关,因为WAV文件是AVI文件中伴音信号的来源。伴音的基本参数也即WAV文件格式的参数,除此以外,AVI文件还包括与音频有关的其他参数: (1)、视像与伴音的交织参数(Interlace Audio Every X Frames)AVI格式中每X帧交织存储的音频信号,也即伴音和视像交替的频率X是可调参数,X的最小值是一帧,即每个视频帧与音频数据交织组织,这是CD-ROM上使用的默认值。交织参数越小,回放AVI文件时

读到内存中的数据流越少,回放越容易连续。因此,如果AVI文件的存储平台的数据传输率较大,则交错参数可设置得高一些。当AVI文件存储在硬盘上时,也即从硬盘上读AVI文件进行播放时,可以使用大一些的交织频率,如几帧,甚至1秒。 (2)、同步控制(Synchronization) 在AVI文件中,视像和伴音是同步得很好的。但在MPC中回放AVI文件时则有可能出现视像和伴音不同步的现象。 (3)、压缩参数:在采集原始模拟视频时可以用不压缩的方式,这样可以获得最优秀的图像质量。编辑后应根据应用环境环择合适的压缩参数。 3、 AVI数字视频的特点 (1)、提供无硬件视频回放功能:AVI格式和VFW软件虽然是为当前的MPC设计的,但它也可以不断提高以适应MPC的发展。根据AVI格式的参数,其视窗的大小和帧率可以根据播放环境的硬件能力和处理速度进行调整。在低档MPC机上或在网络上播放时,VFW的视窗可以很小,色彩数和帧率可以很低;而在Pentium级系统上,对于64K色、320×240的压缩视频数据可实现每秒25帧的回放速率。这样,VFW就可以适用于不同的硬件平台,使用户可以在普通的MPC上进行数字视频信息的编辑和重放,而不需要昂贵的专门硬件设备。 (2)、实现同步控制和实时播放:通过同步控制参数,AVI可以通过自调整来适应重放环境,如果MPC的处理能力不够高,而AVI文件的数据率又较大,在WINDOWS环境下播放该AVI文件时,播放器可

常见的几种高清视频编码格式

高清视频的编码格式有五种,即H.264、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上,现在网络上流传的高清视频主要以两类文件的方式存在:一类是经过MPEG-2标准压缩,以tp和ts为后缀的视频流文件;一类是经过WMV-HD(Windows Media Video High Definition)标准压缩过的wmv文件,还有少数文件后缀为avi或mpg,其性质与wmv是一样的。真正效果好的高清视频更多地以H.264与VC-1这两种主流的编码格式流传。 H.264编码 H.264编码高清视频 H.264是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。H.264 最具价值的部分是更高的数据压缩比,在同等的图像质量,H.264的数据压缩比能比当前DVD系统中使用的 MPEG-2高2~3倍,比MPEG-4高1.5~2倍。正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时,H.264只需要1Mbps~2Mbps 的传输速率,目前H.264已经获得DVD Forum与Blu-ray Disc Association采纳,成为新一代HD DVD的标准,不过H.264解码算法更复杂,计算要求比WMA-HD 还要高。 从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始,它们均加入对H.264硬解码的支持。与MPEG-4一样,经过H.264压缩的视频文件一般也是采用avi 作为其后缀名,同样不容易辨认,只能通过解码器来自己识别。 总的来说,常见的几种高清视频编码格式的特点是能够以更低的码率得到更高的画质,相同效果的MPEG2与H.264影片做比较,后者在容量上仅需前者的一半左右。这也就意味着,H.264不仅能够节省HDTV的存储空间,而且还可以

图像压缩原理

1、为什么要对图像数据进行压缩?其压缩原理是什么? 答:(1)数字图像如果不进行压缩,数据量是比较大的,例如一幅分辨率为1024×768的静态真彩色图像,其数据量为1024×768×24=2.25(MB)。这无疑对图像的存储、处理、传送带来很大的困难。事实上,在图像像素之间,无论在行方向还是列方向,都存在一定的相关性。也就是说,在一般图像中都存在很大的相关性,即冗余度。静态图像数据的冗余包括:空间冗余、时间冗余、结构冗余、知识冗余和视觉冗余、图像区域的相同性冗余、纹理的统计冗余等。图像压缩编码技术就是利用图像数据固有的冗余性和相干性,将一个大的图像数据文件转换为较小的同性质的文件。 (2)其压缩原理: 空间冗余、时间冗余、结构冗余、和视觉冗余。 2、图像压缩编码的目的是什么?目前有哪些编码方法? 答:(1)视频经过数字化处理后易于加密、抗干扰能力强、可再生中继等诸多优点,但是由于数字化的视频数据量十分巨大,不利于传输和存储。若不经压缩,数字视频传输所需的高传输率和数字视频存储所需的巨大容量,将成为推广数字电视视频通信的最大障碍,这就是进行视频压缩编码的目的。 (2)目前主要是预测编码,变换编码,和统计编码三种编码方法。 3、某信号源共有7个符号,概率分别为0.2,0.18,0.1,0.15,0.07,0.05,0.25,试进行霍夫曼编码,并解释是否进

行了压缩,压缩比为多少? 0000 0001 000 00 111 110 10 0.05 0.07 0.1 0.2 0.18 0.15 0.25 0.05×4+0.07×4+0.1×3+0.2×2+0.18×3+0.15×3+0.25×2=2.67

图像压缩编码的方法概述

图像压缩编码的方法概述摘要:在图像压缩的领域,存在各种各样的压缩方法。不 同的压缩编码方法在压缩比、压缩速度等方面各不相同。本文从压缩方法分类、压缩原理等方面分析了人工神经网络压缩、正交变换等压缩编码方法的实现与效果。 关键词:图像压缩;编码;方法 图像压缩编码一般可以大致分为三个步骤。输入的原始图像首先需要经过映射变换,之后还需经过量化器以及熵编码器的处理最终成为码流输出。 一、图像压缩方法的分类 1.按照原始信息和压缩解码后的信息的相近程度分为以下两类:(1)无失真编码又称无损编码。它要求经过编解码处理后恢复出的图像和原图完全一样,编码过程不丢失任何信息。如果对已量化的信号进行编码,必须注意到量化所产生的失真是不可逆的。所以我们这里所说的无失真是对已量化的信号而言的。特点在于信息无失真,但压缩比有限。(2)限失真编码中会损失部分信息,但此种方法以忽略人的视觉不敏感的次要信息的方法来得到高的压缩比。图像的失真怎么度量,至今没有一个很好的评判标准。在由人眼主观判读的情况下,唯有人眼是对图像质量的最有利评判者。但是人眼视觉机理到现在为止仍为被完全掌握,所以我们很难得到一个和主观评价十分相符的客观标准。目前用的最多的仍是均方误差。这个失真度量标准并不好,之所以广泛应用,是因为方便。

2.按照图像压缩的方法原理可分为以下三类:(1)在图像编码过程中映射变换模块所做的工作是对编码图像进行预测,之后将预测差输出供量化编码,而在接受端将量化的预测差与预测值相加以恢复原图,则这种编码方法称为预测编码。预测编码中,我们只对新的信息进行编码。并且是利用去除邻近像素之间的相关性和冗余性的方法来达到压缩的目的。(2)若压缩编码中的映射变换模块用某种形式的正交变换来代替,则我们把这种方式的编码方法称为变换编码。在变换编码中常用的变换方法有很多,我们主要用到的有离散余弦变换(DCT),离散傅立叶变换(DFT)和离散小波变换(DWT)等。(3)混合编码,LZW算法以及近些年来的一些新的压缩编码方法,最主要的有分形编码算法、小波变换压缩算法、基于模型的压缩算法等。 3.按照压缩对象来分,我们可将图像压缩方法分为静止图像压缩和运动图像压缩。它们所采用的压缩编码标准有所不同,对于静止图像压缩而言,采用的是JPEG、JPEG2000标准;而对运动的图像进行压缩时,我们则采用的是、、、MPEG-1、MPEG-2、MPEG-4、MPEG-7等。 二、常用的图像压缩方法 图像压缩方法至研究开始至今,已经有将近70年的发展了,随着科技的不断发展和人们越来越高的期望和要求,使得图像压缩技术也在不断的发展着,不断的进步着,各种各样的方法层出不穷,争对不同的要求我们可以选择不同的方法对图像进行压缩,以达到

各种音频编码方式的对比

各种音频编码方式的对比 内容简介:文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型:Audio 制定者:ITU-T 所需频宽: Kbps 特性:音源信息完整,但冗余度过大 优点:音源信息保存完整,音质好 缺点:信息量大,体积大,冗余度过大 应用领域:voip 版税方式:Free 备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型:Audio 制定者:微软公司 所需频宽:320~112kbps(压缩10~12倍)

特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k 是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。 缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。 应用领域:voip 版税方式:按个收取 备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型:Audio 制定者:ITU-T 所需频宽:32Kbps 特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。 它的核心想法是: ①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术) 缺点:声音质量一般 应用领域:voip

JPEG图像压缩原理

JPEG编码 JPEG是联合图象专家组(Joint Picture Expert Group)的英文缩写,是国际标准化组织(ISO)和CCITT联合制定的静态图象的压缩编码标准。和相同图象质量的其它常用文件格式(如GIF,TIFF,PCX)相比,JPEG是目前静态图象中压缩比最高的。我们给出具体的数据来对比一下。例图采用Windows95目录下的Clouds.bmp,原图大小为640*480,256色。用工具SEA(version1.3)将其分别转成24位色BMP、24位色JPEG、GIF(只能转成256色)压缩格式、24位色TIFF压缩格式、24位色TGA压缩格式。得到的文件大小(以字节为单位)分别为:921,654,17,707,177,152,923,044,768,136。可见JPEG比其它几种压缩比要高得多,而图象质量都差不多(JPEG处理的颜色只有真彩和灰度图)。 正是由于JPEG的高压缩比,使得它广泛地应用于多媒体和网络程序中,例如HTML语法中选用的图象格式之一就是JPEG(另一种是GIF)。这是显然的,因为网络的带宽非常宝贵,选用一种高压缩比的文件格式是十分必要的。 JPEG有几种模式,其中最常用的是基于DCT变换的顺序型模式,又称为基线系统(Baseline),以下将针对这种格式进行讨论。 1.JPEG的压缩原理 JPEG的压缩原理其实上面介绍的那些原理的综合,博采众家之长,这也

正是JPEG有高压缩比的原因。其编码器的流程为: 图9.3 JPEG编码器流程 解码器基本上为上述过程的逆过程: 图9.4 解码器流程 DCT 下面对正向离散余弦变换(FDCT)变换作几点说明。 (1)对每个单独的彩色图像分量,把整个分量图像分成8×8的图像块,如图所示,并作为两维离散余弦变换DCT的输入。通过DCT变换,把能量集中在少数几个系数上。 (2)DCT变换使用下式计算: 它的逆变换使用下式计算:

视频编码标准汇总及比较

视频编码标准汇总及比较 MPEG-1 类型:Audio&Video 制定者:MPEG(Moving Picture Expert Group) 所需频宽:2Mbps 特性:对动作不激烈的视频信号可获得较好的图像质量,但当动作激烈时,图像就会产生马赛克现象。它没有定义用于额外数据流进行编对码的格式,因此这种技术不能广泛推广。它主要用于家用VCD,它需要的存储空间比较大。 优点:对动作不激烈的视频信号可获得较好的图像质量。 缺点:当动作激烈时,图像就会产生马赛克现象。它没有定义用于额外数据流进行编对码的格式,因此这种技术不能广泛推广。 应用领域:Mixer 版权方式:Free 备注:MPEG-1即俗称的VCD。MPEG是ISO/IEC JTC1 1988年成立的运动图像专家组(Moving Picture Expert Group)的简称,负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作。MPEG-1制定于1992年,它是将视频数据压缩成1~2Mb/s的标准数据流。对于清晰度为352×288的彩色画面,采用25帧/秒,压缩比为50:1时,实时录像一个小时,经计算可知需存储空间为600MB左右,若是8路图像以每天录像10小时,每月30天算,则要求硬盘存储容量为1440GB,则显然是不能被接受的。 --------------------------------------------------------------------------------------------- MPEG-2

类型:Audio&Video 制定者:MPEG(Moving Picture Expert Group) 所需频宽:视频上4.3Mbps,音频上最低的采样率为16kHz 特性:编码码率从每秒3兆比特~100兆比特,是广播级质量的图像压缩标准,并具有CD 级的音质。MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道。作为MPEG-1的兼容性扩展,MPEG-2支持隔行扫描视频格式和其它先进功能,可广泛应用在各种速率和各种分辨率的场合。但是MPEG-2标准数据量依然很大,不便存放和传输。 优点:MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道,具有CD级的音质。可提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量以及带宽的要求。支持隔行扫描视频格式和其它先进功能,可广泛应用在各种速率和各种分辨率的场合。 缺点:压缩比较低,数据量依然很大,不便存放和传输,如用于网络方面则需要较高的网络带宽,因此不太适合用于Internet和VOD点播方面。 应用领域:Mixer 版税方式:按个收取(最初的收费对象为解码设备和编码设备,中国DVD制造商每生产一台DVD需要交纳专利费16.5美元。向解码设备和编码设备收取的专利授权费每台2.5美元) 备注:MPEG-2是其颁布的(活动图像及声音编码)国际标准之一,制定于1994年,是为高级工业标准的图像质量以及更高的传输率而设计,为了力争获得更高的分辨率 (720×486),提供广播级视频和CD级的音频,它是高质量视频音频编码标准。在常规电视的数字化、高清晰电视HDTV、视频点播VOD,交互式电视等各个领域中都是核心的技术之一。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道。我们平时所说的DVD就是采用MPEG-2编码压缩,所以可有8种语言的配音。除了作为DVD的指定标准外,MPEG-2的应用前景非常的广阔,

图像压缩与编码

实验项目3、图像压缩与编码 一、实验目的 (1)理解图像压缩编码的基本原理; (2)掌握用程序代码实现DCT变换编码; (3)掌握用程序代码实现游程编码。 二、实验原理及知识点 1、图像压缩编码 图像信号经过数字化后,数据量相当大,很难直接进行保存。为了提高信道利用率和在有限的信道容量下传输更多的图像信息,必须对图像进行压缩编码。 图像压缩技术标准一般可分为如下几种:JPEG压缩(JPEG Compression)、JPEG 2000 、H.26X标准(H.26X standards)以及MPEG标准(MPEG standards)。数字压缩技术的性能指标包括:压缩比、平均码字长度、编码效率、冗余度。 从信息论角度分,可以将图像的压缩编码方法分为无失真压缩编码和有限失真编码。前者主要包括Huffman编码、算术编码和游程编码;后者主要包括预测编码、变换编码和矢量量化编码以及运动检测和运动补偿技术。 图像数据压缩的目的是在满足一定图像质量的条件下,用尽可能少的比特数来表示原始图像,以提高图像传输的效率和减少图像存储的容量,在信息论中称为信源编码。图像压缩是通过删除图像数据中冗余的或者不必要的部分来减小图像数据量的技术,压缩过程就是编码过程,解压缩过程就是解码过程。 2、游程编码 某些图像特别是计算机生成的图像往往包含许多颜色相同的块,在这些块中,许多连续的扫描行或者同一扫描行上有许多连续的像素都具有相同的颜色值。在这些情况下就不需要存储每一个像素的颜色值,而是仅仅存储一个像素值以及具有相同颜色的像素数目,将这种编码方法称为游程(或行程)编码,连续的具有相同颜色值的所有像素构成一个行程。 在对图像数据进行编码时,沿一定方向排列的具有相同灰度值的像素可看成是连续符号,用字串代替这些连续符号,可大幅度减少数据量。游程编码记录方式有两种:①逐行记录每个游程的终点列号:②逐行记录每个游程的长度 3、DCT变换编码 变换编码是在变换域进行图像压缩的一种技术。图1显示了一个典型的变换编码系统。 压缩 图像输入图 像N×N 图1 变换编码系统 在变换编码系统中,如果正变换采用DCT变换就称为DCT变换(离散余弦变换)编码系统。DCT用于把一幅图像映射为一组变换系数,然后对系数进行量化和编码。对于大多数的正常图像来说,多数系数具有较小的数值且可以被粗略地量化(或者完全抛弃),而产生的图像失真较小。

音频、视频压缩有哪些技术标准

音频、视频压缩有哪些技术标准? 视频压缩技术有:MPEG-4、H263、H263+、H264等 MPEG-4视频编码技术介绍 MPEG是“Moving Picture Experts Group”的简称,在它之前的标准叫做JPEG,即“Joint Photographic Experts Group”。当人们用到常见的“.jpg”格式时,实际上正在使用JPEG的标准。JPEG规范了现代视频压缩的基础,而MPEG把JPEG 标准扩展到了运动图象。 MPEG-4视频编码标准支持MPEG-1、MPEG-2中的大多数功能,它包含了H.263的核心设计,并增加了优先特性和各种各样创造性的新特性。它提供不同的视频标准源格式、码率、帧频下矩形图像的有效编码,同时也支持基于内容的图像编码。采纳了基于对象(Object-Based)的编码、基于模型(Model-based)的编码等第二代编码技术是MPEG-4标准的主要特征。 MPEG4与MPEG1、MPEG2的比较 从上表可以看出,MPEG1和MPEG2主要应用于固定媒体,比如 VCD 和 DVD ,而对于网络传输,MPEG4具有无可比拟的优势。 H.263/H.263+/H.264视频编码技术介绍 1.H.263视频编码标准 1.H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二 版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。 H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。 它是在H.261基础上发展起来的,其标准输入图像格式可以是

S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。 H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的 压缩编码模式。 2.H.263+视频压缩标准 1.ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式 地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变 的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原 H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。 H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而 拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高 帧频的图像序列及宽屏图像。为提高压缩效率,H.263+采用先进的帧 内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预 测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像 的主观质量。为适应网络传输,H.263+增加了时间分级、信噪比和空 间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有 意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码 能力。 3.H.264视频压缩标准 1.H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一 代视频压缩编码标准。对信道时延的适应性较强,既可工作于低时延 模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合, 如视频存储等。 2.提高网络适应性,采用“网络友好”的结构和语法,加强对误码和 丢包的处理,提高解码器的差错恢复能力。 3.在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之 间可分级,以适应不同复杂度的应用。 4.相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括 4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参 考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比, 同时大大提高了算法的复杂度。 G.7xx系列典型语音压缩标准介绍 G.7xx 是一组 ITU-T 标准,用于视频压缩和解压过程。它主要用于电话方面。在电话学中,有两个主要的算法,分别定义在 mu-law 算法(美国使用)和 a-law 算法(欧洲及世界其他国家使用),两者都是对数关系,但对于计算机的处理来说,后者的设计更为简单。 国际电信联盟G系列典型语音压缩标准的参数比较:

图像压缩编码的方法概述

图像压缩编码的方法概述 摘要:在图像压缩的领域,存在各种各样的压缩方法。不同的压缩编码方法在压缩比、压缩速度等方面各不相同。本文从压缩方法分类、压缩原理等方面分析了人工神经网络压缩、正交变换等压缩编码方法的实现与效果。 关键词:图像压缩;编码;方法 图像压缩编码一般可以大致分为三个步骤。输入的原始图像首先需要经过映射变换,之后还需经过量化器以及熵编码器的处理最终成为码流输出。 一、图像压缩方法的分类 1.按照原始信息和压缩解码后的信息的相近程度分为 以下两类:(1)无失真编码又称无损编码。它要求经过编解码处理后恢复出的图像和原图完全一样,编码过程不丢失任何信息。如果对已量化的信号进行编码,必须注意到量化所产生的失真是不可逆的。所以我们这里所说的无失真是对已量化的信号而言的。特点在于信息无失真,但压缩比有限。(2)限失真编码中会损失部分信息,但此种方法以忽略人的视觉不敏感的次要信息的方法来得到高的压缩比。图像的失真怎么度量,至今没有一个很好的评判标准。在由人眼主观判读的情况下,唯有人眼是对图像质量的最有利评判者。

但是人眼视觉机理到现在为止仍为被完全掌握,所以我们很难得到一个和主观评价十分相符的客观标准。目前用的最多的仍是均方误差。这个失真度量标准并不好,之所以广泛应用,是因为方便。 2.按照图像压缩的方法原理可分为以下三类:(1)在图像编码过程中映射变换模块所做的工作是对编码图像进行 预测,之后将预测差输出供量化编码,而在接受端将量化的预测差与预测值相加以恢复原图,则这种编码方法称为预测编码。预测编码中,我们只对新的信息进行编码。并且是利用去除邻近像素之间的相关性和冗余性的方法来达到压缩 的目的。(2)若压缩编码中的映射变换模块用某种形式的正交变换来代替,则我们把这种方式的编码方法称为变换编码。在变换编码中常用的变换方法有很多,我们主要用到的有离散余弦变换(DCT),离散傅立叶变换(DFT)和离散小波变 换(DWT)等。(3)混合编码,LZW算法以及近些年来的一些新的压缩编码方法,最主要的有分形编码算法、小波变换压缩算法、基于模型的压缩算法等。 3.按照压缩对象来分,我们可将图像压缩方法分为静止图像压缩和运动图像压缩。它们所采用的压缩编码标准有所不同,对于静止图像压缩而言,采用的是JPEG、JPEG2000 标准;而对运动的图像进行压缩时,我们则采用的是H.261、H.263、H.264、MPEG-1、MPEG-2、MPEG-4、MPEG-7等。

相关文档
最新文档