数字音频技术_MP3_的压缩编码原理与制作方法

数字音频技术_MP3_的压缩编码原理与制作方法
数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月

长沙航空职业技术学院学报

CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL

Vol.4No.2

J un.2004

收稿日期:2004-03-20

作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。

数字音频技术(MP3)的压缩编码原理与制作方法

张晓婷

(珠海市工业学校,广东珠海 519015)

摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作

MP3的方法。

关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06

Compression Coding Principle and F acture of

Digital Audio Frequency T echnique (MP 3)

ZHAN G Xiao 2ting

(Zhuhai Indust ry School ,Zhuhai Guangdong 519015)

Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2

nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3).

K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture

一、引言

数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。

二、MP3简介

(一)数字音频MP3的格式

MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。

(二)数字音频MP3压缩的优点

使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。

三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式

?

15? 

(stereo mode )、联合立体声(joint 2stereo )等。常见的MP3大都是采用联合立体声模式实验表明人类听

觉存在一个极限,即声音的频率范围是20Hz 到

20KHz ,但人耳对整个音频频段音量的反应不是平直的。2KHz 到5KHz 是人耳最灵敏的频段,依其特性将整个音频频段分成多个临界频带。因为人类听觉系统是依据频率来分辨声音能量的,

任何频率的

细小声音因掩蔽效应会被其在临界频带内附近的频率声音所覆盖,故对其不作量化处理,从而将一大部分人类听觉系统所无法察觉的频率去掉,以达到压缩的目的。

MP3压缩编码是一个国际性全开放的编码方案,具体压缩编码方法有多种。图1是MP3单声道编码制作过程的流程图:

图1 MP3单声道编码制作过程流程图

(一)多相滤波器组

PCM 信号首先经过多相滤波器组。多相滤波

器组的作用是将声音信号分成32个频宽大小相同的子频带,但这32个子频带对音频压缩的效果并不好,因此通过加入混合多相MDCT 的处理来改善信号的失真。

(二)FF T (Fast Fourier Transform )快速傅立叶转换

PCM 信号的另一路经过FF T ,用快速傅立叶转

换将信号从时间轴转换到频率轴,即时频映射。在MP3中,FF T 使用1024点的运算方式(在MPEG Audio layer 1中FF T 是512点),提高了频率的分辨

率,能得到原信号更准确的瞬间频谱特性。转换到频率轴后,信号进入心理声学模型中,为其提供频率电平信息作为参考。

(三)混合多相MDCT (Modified Discrete Cosine Transform 修饰离散余弦变换)

MDCT 有18个通道,将分成的32个子带信号

进一步细分,产生32318=576的输出。其输出信号同时进入心理声学模型和量化器中。

在MP3中,混合多相MDCT 采用临界频带方式,在人耳敏感的中低频带,使用较窄的临界频带,高频带则使用较宽的临界频带。这意味着对中低频有较高频率分辨率,在高频端时则相对有较低一点的分辨率。这样的分配,更符合人耳的灵敏度特性,可以改善对低频端压缩编码时的失真。

MDCT 的特点是即使不经量化也不会产生失

真;将子带的信号进一步细分到频谱上,便于提供较好的分析和效果;在编码时,能消除多相滤波器组产生的叠频效应,增加解压后的还原效果。

(四)心理声学模型

心理声学模型主要作用是用于后面的编码。为了最大程度压缩音频信号,根据人类心理声学模型,结合FF T 提供的频率电平信息,将人类听觉系统较不敏感的或听不到的声音去掉,将较敏感的如中频的2Khz 到5Khz 的信号保留,在其音量或音色不大时,人耳都能清楚地听到,即掩蔽效应(掩蔽效应是指只对比较突出的容易引起注意的声音编码)。同时,每个临界频带的样值与FF T 输出的同频电平同步计算,得到每个临界频带的掩蔽阈值,最后计算每?

25?

长沙航空职业技术学院学报 第4卷

个子带的最大信号/掩蔽阈值率即信号掩蔽比,输入给量化器。

(五)量化(Quantization)

MDCT输出的信号,经过失真控制环和非均量化率控制环,即量化器的处理,配合心理声学模型输出的信号掩蔽比、附加信息编码和外部控制,对信号进行量化。

(六)编码(Encoder)

量化好的数据变成一连串的系数,由霍夫曼编码(Huffman code)做最后压缩处理。霍夫曼编码是将比较常见的字符用特定的符号表示,压缩后得到一个记录每个符号代表的字符串的编码表以及一连串由符号组成的信息内容,使用霍夫曼编码可以节约20%的空间。我们会发现,用WinZip、WinRAR 等压缩的MP3文件,其压缩程度有限,原因就是这些软件也是用了类似霍夫曼编码的技术。

(七)位流格式化(Bit2stream Formatting)及CRC(Cyclic Redundancy Code)循环冗余码校验经霍夫曼编码的数据先加入位流同步信息,为的是在解码时,通过搜索同步字便可获得同步,再经CRC校验,最后生成编码好的位流,即MP3。

以上是MP3的整个压缩编码制作过程的介绍,可以看出,MP3在中低频段的失真较小,在高频段的失真较大,虽与CD音质相比还是有一定的差距,这是MP3的先天缺陷,但对于绝大多数网民来说,已大大方便了音乐的欣赏。

四、MP3的制作方法与技巧

制作MP3的步骤是:首先对音频源进行采集并保存为WAV文件,然后使用MP3压缩软件将WAV文件压缩成MP3文件。

所要用到的硬件有:具有自动降速的光驱、声卡;外部设备有:录音机、VCD机等。

(一)常见的音频源种类及采集方法

1.录音带:标准采样频率为22KHz,8/16bit, stereo/mono。采集WAV的方法是用录音法,用一根音频线将声卡输入口(Line In)和录音机(音响)输出口(Line Out)连接起来,使用声卡的回放功能,再利用Windows9x的录音机功能即可。可用较好的声卡、降噪软件(Cool Edit等)等改善录音中的信噪比等。虽然录音带收集WAV方法较简单,但是由于其做成的WAV在处理上的复杂性和技术性,加之音质部分的先天不足,建议不采用。

2.Audio CD:CD标准采样频率为44.1KHz, 16Bit,stereo(112K Bit/s或128K Bit/s)。一般采集成WAV的方法是音轨数据直接拷贝法,用专门的CD Copy软件直接拷贝音轨即抓轨。它的优点是采集到的WAV文件音质绝对无损,是制作成MP3的最佳选择。它的缺点是由于任何一种CD Copy软件都不能很好的解决光驱速度问题,在抓轨时常常达不到光驱的标识速度,导致报错,有时甚者还会产生爆音。解决方法是尽量使用Windows下的CD Copy软件,然后将光驱降速使用。在Windows9x 下CD Copy的软件很多,如CdCopy、WinDAC、Au2 dio Grabber、AudioCatalyst等。笔者首选能完全无失真抓取音轨的Exact AudioCopyV0.9Bate4汉化版软件,免费下载网址https://www.360docs.net/doc/1215724027.html,/ExactAu2 dioCopy.htm,并用此软件介绍如何进行CD抓轨。

3.Video CD:VCD的音频部分采样频率为44100Hz,16Bit,Stereo(192K Bit/s)。采集成WAV 的方法也是录音法,一般采用超级解霸中的音频解霸进行录音;或是用VCD机播放,音频线的连接与录音带的采集相同。常见的问题是声音发飘且小,听上去有水中听歌的感觉。解决方法是降低制成MP3时选定的采样率(如128Kbit/s→112Kbit/s)以及通过软件控制音量(如AudioCatalyst的Normal2 ize)。它的优点是自由性,只要你喜欢,可以将VCD 上任何一段声音制成MP3。另外,在用VCD制作MP3的时候,推荐使用M TV。

(二)MP3压缩软件的选择

将WAV文件压缩一般采用软件压缩的方式,除了音源的音质外,压缩软件的好坏也直接影响MP3的质量。笔者首选LAM Enc(Lame3.9),免费下载网址https://www.360docs.net/doc/1215724027.html,/Lame.htm,用此软件介绍如何进行MP3压缩。

(三)专业制作MP3的方法

专业级制作MP3一般采用CD作为音源,其参数设置也尽可能地高,下面是制作方法:

1.抓轨:

1)运行Exact Audio Copy软件,放入CD碟片,点击“选择驱动器”下拉箭头,选择碟片所在的CD2 ROM,机器只有一个选择驱动器可不作选择,出现如图2所示的界面。

第2期 张晓婷,等:数字音频技术(MP3)的压缩编码原理与制作方法

图2 Exact Audio Copy 界面

在抓轨前,首先进行参数设置,正确的参数设

置,可以采集到完美的WAV 文件。

2)点击“EAC ”/“驱动器选项”,选择“抓取模式”选项卡,设置如图3所示,使抓轨更精确

图3 驱动器选项中抓取模式选项卡设置

3)点击“EAC ”/“驱动器选项”,选择“Speed ”

选项卡,设置如图4所示,在“速度选择”下拉箭头中,选择尽可能低的速度以保证读取数据的准确性

图4 驱动器选项中Speed 选项卡设置

4)点击“EAC ”/“压缩选项”,设置如图5所示,

设置成Windows 标准的WAV 文件,同时设置成44.1kHz 的采样频率,16位置化及立体声模式。

5)在图2所示中,用Ctrl +鼠标单击同时选择要抓取的多个音轨,点击左边的“WAV ”图标,在“保存波形文件”对话框中,输入文件名,点击“保存”,完成抓轨,如图6所示。

2.压缩:

1)运行RazorLame 软件,RazorLame 软件是LAM Enc 压缩软件的外壳软件,它可以通过调用LAM Enc 这个免费的MP3制作引擎(只有命令行界面)来制作MP3音乐,可以很方便地对压缩参数进行设置,界面如图7所示

图5 压缩选项中Waveform 选项卡设置

长沙航空职业技术学院学报 第4卷

图6 抓轨进程界面

图7 RazorLame软件界面

工具栏上常用按钮说明:

Add:添加将要压缩为MP3的WAV文件加入

到任务列表窗口中。

Remove:删除任务列表窗口中的WAV文件。

Clear:删除任务列表窗口中的所有WAV文件。

Encode:将任务列表窗口中的所有WAV文件

编码,即WAV→MP3。

Decode:将任务列表窗口中的所有文件MP3解

码,即MP3→WAV。

LAM E:参数设置

在编码前,首先进行参数设置,正确的参数设

置,可以使MP3的压缩更为完美。

2)点击“LAM E”按钮,在“G eneral”选项卡中,

设置如图8所示。用“Bit Rate(比特率)”设置码流,

要保持CD音质,一般设置为128Kbit,这也是默认

值。Bit Rate越高,音质越好,但所占空间越大;用

“Mode”设置声道模式,一般设置为Joint Stereo(

合立体声模式);“Output directory”用于设置输出文

件的目录,一般选“Same as input directory”,与输入

文件的目录相同。

图8 G eneral选项卡设置

3)在“Advanced”选项卡中,设置如图9所示。

“Optimization(最优化)”选“Quality(质量)”优先,“Op2

tions”选“Include CRC2Checksums(包含CRC校验码)”,

带有校验码的文件可以让播放器更正确的播放,并可

检查文件是否破损,不过文件的长度会增加。

4)在“VBR”选项卡中,设置如图10所示。在

“Enable Variable BitRate”前打勾,打开VBR方式,设

置“Maximum VBR BitRate”为320K bit,此时,在“G en2

eral”选项卡中设置的BitRate成为下限;“Quality”选

0,0最好,但最慢,4是默认值。VBR的使用使得文件

的编码可以随编码器的运算去判断使用什么方式进

行压缩,可以提高音质,但文件大小可能会增加。

5)在“Audio Processing(音频处理)”选项卡中,

设置如图11所示。在“Output sampling frequency

(输出采样频率)”选44.1KHz。如果选“default(默

认)”,则LAM E会将CD音质的频率界限下调为

32kHz,目的是为了保留更多相对更重要的中低频

信号质量。也可以硬性规定为44.1kHz。

图9 Advanced选项卡设置第2期 张晓婷,等:数字音频技术(MP3)的压缩编码原理与制作方法

图10 VBR

选项卡设置

图11 Audio Processing 选项卡设置

6)压缩。在以上参数设置好后,点击工具栏上

的“Add ”按钮,在“打开”对话框中选择要压缩的WAV 文件,加入到任务列表窗口中,点击“Encode ”按钮,完成压缩,如图12所示

图12 压缩进程界面

(四)制作MP3注意事项

1.音源问题:尽可能使用CD 作为音源,最好是采用DDD (数字录音、数字混音、数字制作)。

2.声卡问题:尽量使用信噪比高的声卡,音频线采用镀金线以减少损耗。

3.爆音问题:尽量导致爆音的主要原因是硬盘

的碎片和光驱速度。

解决方法1是在抓取音轨时,尽量使用连续空间存放,解决方法2是降速抓轨。

4.VBR 与CBR 的选择:在制作节奏感较为强烈的MP3音乐时,如POP 流行乐和R &B 摇滚乐,可采用VBR 进行压缩,能在容量近似的前提下提高MP3的音质。

五、结束语

综上所述,数字音频mp3技术,通过选取重要的声音信号忽略次要信号,在人耳能承受的音频质量的范围内来达到高压缩比,使一个三分钟的一般要占用约30M 的硬盘空间的声音文件,利用数字音频mp3技术在仅有少许音质损失的情况下只需占用3M 左右的空间。随着计算机网络的飞速发展,在e 时代中mp3已经成为了音乐的代名词。参考文献:[1] 小小洛克1漫谈数字音乐2压缩音频格式[J ]1

新潮电子,2002,(9):104-105.[2] 新潮评测室1六款“梭鱼”胸挂式MP3随身听

横向测试[J ]1新潮电子,2002,(11):28-29.

[3] 胡晓峰,吴玲达,老松杨1多媒体技术教程

[M ]1北京:人民邮电出版社,2002.52-56.[4] 王伟1课件制作中的视频采集方法综述[J ]1

武汉职业技术学院学报,2002,(4):57-62.

[责任编辑 何 丹]

长沙航空职业技术学院学报 第4卷

AAC解码算法原理详解

AAC解码算法原理详解 原作者:龙帅 (loppp138@https://www.360docs.net/doc/1215724027.html,) 此文章为便携式多媒体技术中心提供,未经站长授权,严禁转载,但欢迎链接到此地址。 本文详细介绍了符合ISO/IEC 13818-7(MPEG2 AAC audio codec) , ISO/IEC 14496-3(MPEG4 Audio Codec AAC Low Complexity)进行压缩的的AAC音频的解码算法。 1、程序系统结构 下面是AAC解码流程图: AAC解码流程图 在主控模块开始运行后,主控模块将AAC比特流的一部分放入输入缓冲区,通过查找同步字得到一帧的起始,找到后,根据ISO/IEC 13818-7所述的语法开始进行Noisless Decoding(无噪解码),无噪解码实际上就是哈夫曼解码,通过反量化(Dequantize)、联合立体声(Joint Stereo),知觉噪声替换(PNS),瞬时噪声整形(TNS),反离散余弦变换(IMDCT),频段复制(SBR)这几个模块之后,得出左右声道的PCM码流,再由主控模块将其放入输出缓冲区输出到声音播放设备。

2. 主控模块 主控模块的主要任务是操作输入输出缓冲区,调用其它各模块协同工作。其中,输入输出缓冲区均由DSP控制模块提供接口。输出缓冲区中将存放的数据为解码出来的PCM数据,代表了声音的振幅。它由一块固定长度的缓冲区构成,通过调用DSP控制模块的接口函数,得到头指针,在完成输出缓冲区的填充后,调用中断处理输出至I2S接口所连接的音频ADC芯片(立体声音频DAC和DirectDrive 耳机放大器)输出模拟声音。 3. 同步及元素解码 同步及元素解码模块主要用于找出格式信息,并进行头信息解码,以及对元素信息进行解码。这些解码的结果用于后续的无噪解码和尺度因子解码模块。 AAC的音频文件格式有以下两种: ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。 ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。 AAC的ADIF格式见下图: 3.1 ADIF的组织结构 AAC的ADTS的一般格式见下图: 3.2 ADTS的组织结构 图中表示出了ADTS一帧的简明结构,其两边的空白矩形表示一帧前后的数据。ADIF和ADTS的header是不同的。它们分别如下所示:

《数据压缩与编码》课程教学大纲1

《数据压缩与编码》课程教学大纲 课程类型:专业限选课课程代码: 课程学时: 46学分: 2 适用专业:电子信息工程专业 开课时间: 三年级二学期开课单位: 电气与电子工程学院 大纲执笔人: 吴德林大纲审定人:杨宁 一、课程性质、任务: 人类社会已进入信息时代,网络是信息时代的重要产物,大量数据的存贮、处理特别是传输,是影响网络系统效率的重要因素之一,数据压缩技术对提高网络通信能力和效率提供了有力的支持。课程的目的在于学习数据通信基本原理和了解数据通信网络。 通过本课程的学习,学生能够掌握数据压缩的基本知识、基本方法;掌握数据压缩技术及经典算法,包括信源的数字化方法、基本的统计编码方法、预测编码的理论与实现方法、HUFFMAN方法、算术编码方法、字典压缩技术、文本压缩技术、图像压缩技术;理解和实验基本图像JPEG压缩编码或EZW/SPIHT压缩编码。 二、课程教学内容 1)教学内容、目标与学时分配 (一)理论教学部分

2、实验要求指:必做或选做 2) 教学重点与难点 1、重点:数据压缩的基本概念、数据压缩的常用方法与算法,数据编码技术、图像压缩技术以及视频压缩技术。。 2、难点:视频压缩与小波分析技术 三、课程各教学环节的基本要求 1)课堂讲授: 多媒体、PPT课件 2)实验(实训、实习):

3)作业: 问答题,计算题 4)课程设计: 5)考试 5.1 考试方法:(考试;考查;闭卷;开卷;其它方法) 闭卷考试 5.2 各章考题权重 第一章 5% 第二章 10% 第三章 10% 第四章 20% 第五章 20% 第六章. 20% 第七章 10% 第八章 5% 5.3 考试题型与比例 Eg:填空:20% ;判断题:10% ;单项选择:20% ;问答题:40%;分析题:10% 四、本课程与其他课程的联系 先修课程: 微机原理与程序设计、C 语言程序设计、数据结构、算法设计与分析。 五、建议教材及教学参考书 教材:吴乐南著:《数据压缩(第3版)》,电子工业出版社,2012年 参考书:魏江力.JPEG2000图像压缩基础、标准和实践.电子工业出版社,2004

数字音频作业及其答案

第一次作业: 1:、声音可分为两种: 纯音和复合音,平常人们说话的声音属于哪一种?语音的频率范围是多少?音频通常包括哪几种声音信号?其频率范围是多少? 2、请说明音频信号数字化的三个步骤? 3、如何理解量化是信号数字化过程中重要的一步,而这一过程又是引入噪声的主要根源”这句话的含义?通过哪些途径可以减小量化误差? 4对双极性信号若采用均匀量化,则量化信噪比SNR与量化比特数之间的关系为: SNR=6.02xN+1.76dB试分析此式对实际量化与编码的指导意义? 5:、A/ D、D/A转换器的技术指标有哪些? 答:1:人们说话的声音为复合音,语言的频率范围为300HZ-3000HZ音频 暴多语音、音乐、效果声等声音信号,频率范围为20HZ-20KHZ 2: 1取样: 对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。2量化: 取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据,则相当于能够接受256个十进制的数,即有256个电平数,用这些数来代表模拟信 号的电平,可以有256种,但是实际上米样后的某一时刻信号的电平不一定和256个电

平某一个相等,此时只能用最接近的数字代码表示取样信号电平。3编码: 对音频信号取样并量化成二进制,但实际上就是对音频信号进行编码,但用不同的取样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。波形声音的主要参数包括: 取样频率.量化位数.声道数.压缩编码方案和数码率等,未压缩前,波形声音的码率计算公式为: 波形声音的码率=取样频率*量化位数*声道数/8。波形声音的码率一般比较大,所以必需对转换后的数据进行压缩。 3:量化是按四舍五入对采样的样本值进行计量的,这个过程会产生误差可对噪声进行整形,提高采样频率等方法减小量化误差 4:量化比特数增加一位,则信噪比提高6dB,信噪比提高意味着声音动态范围的加宽,若采用量化比特N=16的A/D变换器的数字声记录在磁带上可以扩展到98dB,接近于交响乐动态范围,若将量化比特提高到N=20,可扩至人儿的122dB动态范围。 5: A/D的技术指标有: 分辨率、转换速率、量化误差、偏移误差、满刻度误差和线性度误差等。D/A转换器的技术指标有: 分辨率和建立时间。 第二次作业: 1. 什么叫最小可闻阈?什么叫掩蔽阈?什么叫频域掩蔽?什么叫时域掩蔽?掩蔽效应的一般规律是什么? 2. 何谓临界频带?简述它在音频编码中的应用。 3. 音频编码通常分为哪几类?它们各有什么优缺点? 4. 声音压缩的依据是什么?MPEG-1音频编码利用了听觉系统的什么特

jpeg编码原理

一、JPEG算法概要 JPEG(Joint Photographic Experts Group)是一个由ISO和IEC两个组织机构联合组成的一个专家组,负责制定静态的数字图像数据压缩编码标准,这个专家组开发的算法称为JPEG算法,并且成为国际上通用的标准,因此又称为JPEG标准。JPEG是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像又可用于彩色图像。 JPEG专家组开发了两种基本的压缩算法,一种是采用以离散余弦变换(Discrete Cosine Transform,DCT)为基础的有损压缩算法,另一种是采用以预测技术为基础的无损压缩算法。使用有损压缩算法时,在压缩比为25:1的情况下,压缩后还原得到的图像与原始图像相比较,非图像专家难于找出它们之间的区别,因此得到了广泛的应用。例如,在VCD 和DVD-Video电视图像压缩技术中,就使用JPEG的有损压缩算法来取消空间方向上的冗余数据。为了在保证图像质量的前提下进一步提高压缩比,近年来JPEG专家组正在制定JPEG2000标准,这个标准中将采用小波变换(Wavelet)算法。 JPEG压缩是有损压缩,它利用了人的视角系统的特性,使用量化和无损压缩编码相结合来去掉视角的冗余信息和数据本身的冗余信息。 压缩编码大致分成三个步骤: 1、使用正向离散余弦变换(Forward Discrete Cosine Transform,FDCT)把空间域表示的图变换成频率域表示的图。 2、使用加权函数对DCT系数进行量化,这个加权函数对于人的视觉系统是最佳的。 3、使用霍夫曼可变字长编码器对量化系数进行编码。 译码或者叫做解压缩的过程与压缩编码过程正好相反。 JPEG算法与彩色空间无关,因此“RGB到YUV变换”和“YUV到RGB变换”不包含在

数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月 长沙航空职业技术学院学报 CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL Vol.4No.2 J un.2004 收稿日期:2004-03-20 作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。 数字音频技术(MP3)的压缩编码原理与制作方法 张晓婷 (珠海市工业学校,广东珠海 519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作 MP3的方法。 关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06 Compression Coding Principle and F acture of Digital Audio Frequency T echnique (MP 3) ZHAN G Xiao 2ting (Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2 nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言 数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。 二、MP3简介 (一)数字音频MP3的格式 MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。 (二)数字音频MP3压缩的优点 使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。 三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式 ? 15?

图像压缩技术的综述

题目:图像压缩技术的综述 学生姓名:徐欢学号: 系别:计算机与信息学院专业:计算机科学与技术 入学年份:年月 导师姓名:陈蕴谷职称学位:讲师硕士研究生 导师所在单位:中国科学院合肥物质研究院 完成时间年月 .引言 随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,也给现有的有限带宽以严峻的考验,特别是具有庞大数据量的数字图像通信,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩,可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。 图像数据是用来表示图像信息的,如果不同的方法为表示相同的信息使用了不同的数据量,那么使用较多数据量的方法中,有些数据必然代表了无用的信息,或者是重复的表示了其他数据表示的信息,前者成为数据冗余,后者成为不相干信息。图像压缩编码的主要目的,就是通过删除冗余的或者是不相干的信息,以尽可能地的数码率来存储和传输数字图像数据。 图像压缩编码技术可以追溯到年提出的电视信号数字化,到今天已经有多年的历史了。在此期间出现了很多种图像压缩编码方法,特别是到了年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,图像压缩技术得到了前所未有的发展,其中分形图像压缩和小波图像压缩是当前研究的热点。本文对当前最为广泛使用的图像压缩算法进行综述,讨论了它们的优缺点以及发展前景。 图像编码基础 图像编码压缩是指在满足一定图像质量的条件下,用尽可能少的数据量来表示图像。编码技术比较系统的研究始于信息论,从此理论出发可以得到数据压缩的两种基本途径。一种是联合信源的冗余度也寓于信源间的相关性之中,去除他

编码原理

红外线遥控是目前使用最广泛的一种通信和遥控手段。由于红外线遥控装置具有体积小、功耗低、功能强、成本低等特点,因而,继彩电、录像机之后,在录音机、音响设备、空凋机以及玩具等其它小型电器装置上也纷纷采用红外线遥控。工业设备中,在高压、辐射、有毒气体、粉尘等环境下,采用红外线遥控不仅完全可靠而且能有效地隔离电气干扰。 1 红外遥控系统 通用红外遥控系统由发射和接收两大部分组成,应用编/解码专用集成电路芯片来进行控制操作,如图1所示。发射部分包括键盘矩阵、编码调制、LED红外发送器;接收部分包括光、电转换放大器、解调、解码电路。 2 遥控发射器及其编码 遥控发射器专用芯片很多,根据编码格式可以分成两大类,这里我们以运用比较广泛,解码比较容易的一类来加以说明,现以日本NEC的uPD6121G组成发射电路为例说明编码原理。当发射器按键按下后,即有遥控码发出,所按的键不同遥控编码也不同。这种遥控码具有以下特征: 采用脉宽调制的串行码,以脉宽为0.565ms、间隔0.56ms、周期为1.125ms的组合表示二进制的“0”;以脉宽为0.565ms、间隔1.685ms、周期为2.25ms的组合表示二进制的“1”,其波形如图2所示。 上述“0”和“1”组成的32位二进制码经38kHz的载频进行二次调制以提高发射效率,达到降低电源功耗的目的。然后再通过红外发射二极管产生红外线向空间发射,如图3所示。 UPD6121G产生的遥控编码是连续的32位二进制码组,其中前16位为用户识别码,能区别不

同的电器设备,防止不同机种遥控码互相干扰。该芯片的用户识别码固定为十六进制01H;后16位为8位操作码(功能码)及其反码。UPD6121G最多额128种不同组合的编码。 遥控器在按键按下后,周期性地发出同一种32位二进制码,周期约为108ms。一组码本身的持续时间随它包含的二进制“0”和“1”的个数不同而不同,大约在45~63ms之间,图4为发射波形图。 当一个键按下超过36ms,振荡器使芯片激活,将发射一组108ms的编码脉冲,这108ms发射代码由一个起始码(9ms),一个结果码(4.5ms),低8位地址码(9ms~18ms),高8位地址码(9ms~18ms),8位数据码(9ms~18ms)和这8位数据的反码(9ms~18ms)组成。如果键按下超过108ms仍未松开,接下来发射的代码(连发代码)将仅由起始码(9ms)和结束码(2.5ms)组成。 代码格式(以接收代码为准,接收代码与发射代码反向) ①位定义 ②单发代码格式 ③连发代码格式 注:代码宽度算法: 16位地址码的最短宽度:1.12×16=18ms 16位地址码的最长宽度:2.24ms×16=36ms

图像压缩与编码

实验项目3、图像压缩与编码 一、实验目的 (1)理解图像压缩编码的基本原理; (2)掌握用程序代码实现DCT变换编码; (3)掌握用程序代码实现游程编码。 二、实验原理及知识点 1、图像压缩编码 图像信号经过数字化后,数据量相当大,很难直接进行保存。为了提高信道利用率和在有限的信道容量下传输更多的图像信息,必须对图像进行压缩编码。 图像压缩技术标准一般可分为如下几种:JPEG压缩(JPEG Compression)、JPEG 2000 、H.26X标准(H.26X standards)以及MPEG标准(MPEG standards)。数字压缩技术的性能指标包括:压缩比、平均码字长度、编码效率、冗余度。 从信息论角度分,可以将图像的压缩编码方法分为无失真压缩编码和有限失真编码。前者主要包括Huffman编码、算术编码和游程编码;后者主要包括预测编码、变换编码和矢量量化编码以及运动检测和运动补偿技术。 图像数据压缩的目的是在满足一定图像质量的条件下,用尽可能少的比特数来表示原始图像,以提高图像传输的效率和减少图像存储的容量,在信息论中称为信源编码。图像压缩是通过删除图像数据中冗余的或者不必要的部分来减小图像数据量的技术,压缩过程就是编码过程,解压缩过程就是解码过程。 2、游程编码 某些图像特别是计算机生成的图像往往包含许多颜色相同的块,在这些块中,许多连续的扫描行或者同一扫描行上有许多连续的像素都具有相同的颜色值。在这些情况下就不需要存储每一个像素的颜色值,而是仅仅存储一个像素值以及具有相同颜色的像素数目,将这种编码方法称为游程(或行程)编码,连续的具有相同颜色值的所有像素构成一个行程。 在对图像数据进行编码时,沿一定方向排列的具有相同灰度值的像素可看成是连续符号,用字串代替这些连续符号,可大幅度减少数据量。游程编码记录方式有两种:①逐行记录每个游程的终点列号:②逐行记录每个游程的长度 3、DCT变换编码 变换编码是在变换域进行图像压缩的一种技术。图1显示了一个典型的变换编码系统。 压缩 图像输入图 像N×N 图1 变换编码系统 在变换编码系统中,如果正变换采用DCT变换就称为DCT变换(离散余弦变换)编码系统。DCT用于把一幅图像映射为一组变换系数,然后对系数进行量化和编码。对于大多数的正常图像来说,多数系数具有较小的数值且可以被粗略地量化(或者完全抛弃),而产生的图像失真较小。

常用工具软件 多媒体数据压缩及编码技术

常用工具软件多媒体数据压缩及编码技术 在计算机获取原始的声音、图形图像以及视频影像时,其数据量是十分庞大的。如果数据不进行压缩处理,存放该数据文件时将十分困难,并且即使存储下来也是比较浪费存储介质的。例如,一张600MB的光盘也只能存储几十秒的真彩视频影像。 因此,用户需要对所获取的声音、图形图像以及视频影像数据进行压缩。其压缩主要包含下列两种方法。 ●无损压缩 多媒体原始信源数据存在大量的冗余,如动态视频图像帧内像素之间的空间相关性和帧与帧之间的时间相关性都很大,故而原始信源数据有很多的冗余,采用去掉冗余的压缩方法。 ●有损压缩 利用人的视觉对于边缘急剧变化不敏感和对图像的亮度信息敏感、对颜色分辨率弱的特点以及听觉只能听到20Hz~20KHz等特征实现数据压缩,舍弃一些非主要的细节,从而使由压缩数据恢复的图像、声音仍有令人满意的质量的方法。 数据压缩技术的研究已经有许多年了,从PCM编码理论开始,到现在的ADPCM、JPEG、MPEG-1、MPEG-2、H.261等,已经产生了多种针对不同用途的压缩算法、实现手段和相关的数字硬件及软件。目前,被国际社会广泛认可和应用的通用压缩编码标准大致有如下4种。 ●H.261编码 由CCITT(国际电报电话咨询委员会)通过的用于音频视频服务的视频编码解码器(也称Px64标准),它使用两种类型的压缩:一帧中的有损压缩(基于DCT)和用于帧间压缩的无损编码,并在此基础上使编码器采用带有运动估计的DCT和DPCM(差分脉冲编码调制)的混合方式。这种标准与JPEG及MPEG标准间有明显的相似性,但关键区别是它是为动态使用设计的,并提供完全包含的组织和高水平的交互控制。 ●JPEG编码 JPEG(全称是Joint Photogragh Coding Experts Group(联合照片专家组))是一种基于DCT 的静止图像压缩和解压缩算法,它由ISO(国际标准化组织)和CCITT(国际电报电话咨询委员会)共同制定,并在1992年后被广泛采纳后成为国际标准。 它是把冗长的图像信号和其它类型的静止图像去掉,甚至可以减小到原图像的百分之一(压缩比100:1)。但是在这个级别上,图像的质量并不好;压缩比为20:1时,能看到图像稍微有点变化;当压缩比大于20:1时,一般来说图像质量开始变坏。 ●MPEG编码 MPEG是Moving Pictures Experts Group(动态图像专家组)的英文缩写,实际上是指一组由ITU和ISO制定发布的视频、音频、数据的压缩标准。它采用的是一种减少图像冗余信息的压缩算法,它提供的压缩比可以高达200:1,同时图像和音响的质量也非常高。现在通常有三个版本:MPEG-1、MPEG-2、MPEG-4以适用于不同带宽和数字影像质量的要求。它的三个最显著优点就是兼容性好、压缩比高(最高可达200:1)、数据失真小。 ●DVI编码 DVI视频图像的压缩算法的性能与MPEG-1相当,即图像质量可达到VHS的水平,压缩后的图像数据率约为1.5Mb/s。为了扩大DVI技术的应用,Intel公司最近又推出了DVI算法的软件解码算法,称为Indeo技术,它能将为压缩的数字视频文件压缩为五分之一到十分之一。

霍夫曼编码原理

霍夫曼编码 四川大学计算机学院2009级戚辅光 【关键字】 霍夫曼编码原理霍夫曼译码原理霍夫曼树霍夫曼编码源代码霍夫曼编码分析霍夫曼编码的优化霍夫曼编码的应用 【摘要】 哈夫曼编码(Huffman Coding)是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。uffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫作Huffman 编码。哈夫曼压缩是个无损的压缩算法,一般用来压缩文本和程序文件。它属于可变代码长度算法一族。意思是个体符号(例如,文本文件中的字符)用一个特定长度的位序列替代。因此,在文件中出现频率高的符号,使用短的位序列,而那些很少出现的符号,则用较长的位序列。 【正文】 引言 哈夫曼编码(Huffman Coding)是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。uffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫作Huffman编码。 霍夫曼编码原理: 霍夫曼编码的基本思想:输入一个待编码的串,首先统计串中各字符出现的次数,称之为频次,假设统计频次的数组为count[],则霍夫曼编码每次找出count数组中的值最小的两个分别作为左右孩子,建立他们的父节点,循环这个操作2*n-1-n(n是不同的字符数)次,这样就把霍夫曼树建好了。建树的过程需要注意,首先把count数组里面的n个值初始化为霍夫曼树的n个叶子节点,他们的孩子节点的标号初始化为-1,父节点初始化为他本身的标号。接下来是编码,每次从霍夫曼树的叶子节点出发,依次向上找,假设当前的节点标号是i,那么他的父节点必然是myHuffmantree[i].parent,如果i是myHuffmantree[i].parent 的左节点,则该节点的路径为0,如果是右节点,则该节点的路径为1。当向上找到一个节点,他的父节点标号就是他本身,就停止(说明该节点已经是根节点)。还有一个需要注意的地方:在查找当前权值最小的两个节点时,那些父节点不是他本身的节点不能考虑进去,因为这些节点已经被处理过了。 霍夫曼树:

数字图像压缩技术的研究现状与展望

图像压缩技术的现状和展望 一.前言介绍 随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,具有庞大数据量的数字图像通信对现有的有限带宽以严峻的考验,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩,可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。 本文通过介绍其发展历程及其基本原理和其现阶段的应用,对图像压缩编码技术进行了系统性概述,最后对其前景作了总体上的展望。 二.图像压缩编码技术的发展历程 图像压缩编码技术可以追溯到1948年提出的电视信号数字化,到今天已经有60多年的历史了。在此期间出现了很多种图像压缩编码方法,特别是到了80年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,图像压缩技术得到了前所未有的发展,其中分形图像压缩和小波图像压缩是当前研究的热点。 三.JPEG压缩 负责开发静止图像压缩标准的“联合图片专家组”(Joint Photographic Expert Group,简称JPEG),于1989年1月形成了基于自适应DCT的JPEG技术规范的第一个草案,其后多次修改,至1991年形成ISO10918国际标准草案,并在一年后成为国际标准,简称JPEG标准。 1.JPEG 压缩原理 JPEG 算法中首先对图像进行分块处理,一般分成互不重叠的大小的块,再对每一块进行二维离散余弦变换(DCT)。变换后的系数基本不相关,且系数矩阵的能量集中在低频区,根据量化表进行量化,量化的结果保留了低频部分的系数,去掉了高频部分的系数。量化后的系数按zigzag 扫描重新组织,然后进行哈夫曼编码。 2. JPEG压缩的研究状况及其前景

数字音频压缩编码

数字音频压缩编码 一、 PCM脉冲编码调制 PCM 脉冲编码调制是Pulse Code Modulation的缩写。脉冲编码调制是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。 编码原理:PCM脉冲编码调制是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称,即它把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储,原理框图如图所示。在图中,它的输入是模拟声音信号,输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”;“量化器”可理解为“量化阶大小”(Step—Size)生成器或者称为“量化间隔”生成器。 PCM原理框图 优点:音源信息保存完整,音质好。 缺点:信息量大,体积大,冗余度过大。 二、DPCM差值编码调制 DPCM编码是对模拟信号幅度抽样的差值进行量化编码的调制方式。这种方式是用已经过去的抽样值来预测当前的抽样值,对它们的差值进行编码。差值编码可以提高编码频率,这种技术已应用于模拟信号的数字通信之中。

编码原理:DPCM采用预测编码的方式传输信号,所谓预测编码就是根据过去的信号样值来预测下一个信号样值,并仅把预测值与现实样值的差值加以量化,编码后进行数字信号传输。在接收端经过和发送端相同的预测操作,低通滤波器便可恢复出与原始信号相近的波形。 优点:DPCM的压缩比不高,但它容易硬件实现,成本低,因此应用比较普遍。 缺点:有误码扩散。即:如果在量化或传输中出现了噪声,那么它不仅仅停留在发生误码的地方,而是继续向以后的象素值扩散。 三、ADPCM自适应差分脉冲编码调制 自适应脉冲编码调制是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变;也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。编码原理:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。

编码器工作原理

的工作原理及作用:它是一种将旋转位移转换成一串数字脉冲信号的旋转式,这些脉冲能用来控制角位移,如果编码器与齿轮条或螺旋丝杠结合在一起,也可用于测量直线位移。 编码器产生电信号后由数控制置CNC、可编程逻辑控制器、等来处理。这些传感器主要应用在下列方面:机床、材料加工、电动机反馈系统以及测量和控制设备。在ELTRA编码器中角位移的转换采用了光电扫描原理。读数系统是基于径向分度盘的旋转,该分度由交替的透光窗口和不透光窗口构成的。此系统全部用一个红外垂直照射,这样光就把盘子上的图像投射到接收器表面上,该接收器覆盖着一层,称为准直仪,它具有和光盘相同的窗口。接收器的工作是感受光盘转动所产生的光变化,然后将光变化转换成相应的电变化。一般地,也能得到一个速度信号,这个信号要反馈给器,从而调节的输出数据。故障现象:1、旋转编码器坏(无输出)时,变频器不能正常工作,变得运行速度很慢,而且一会儿变频器保护,显示“PG断开”...联合动作才能起作用。要使电信号上升到较高电平,并产生没有任何干扰的方波脉冲,这就必须用电路来处理。编码器pg接线与参数与编码器pg之间的连接方式,必须与编码器pg的型号相对应。一般而言,编码器pg型号分差动输出、集电极开路输出和推挽输出三种,其信号的传递方式必须考虑到变频器pg卡的,因此选择合适的pg卡型号或者设置合理. 编码器一般分为增量型与绝对型,它们存着最大的区别:在的情况下,位置是从零位标记开始计算的脉冲数量确定的,而绝对型编码器的位置是由输出代码的读数确定的。在一圈里,每个位置的输出代码的读数是唯一的;因此,当断开时,绝对型编码器并不与实际的位置分离。如果电源再次接通,那么位置读数仍是当前的,有效的;不像增量编码器那样,必须去寻找零位标记。 现在编码器的厂家生产的系列都很全,一般都是专用的,如电梯专用型编码器、机床专用编码器、专用型编码器等,并且编码器都是智能型的,有各种并行接口可以与其它设备通讯。 编码器是把角位移或直线位移转换成电信号的一种装置。前者成为码盘,后者称码尺.按照读出方式编码器可以分为接触式和非接触式两种.接触式采用电刷输出,一电刷接触导电区或绝缘区来表示代码的状态是“1”还是“0”;非接触式的接受敏感元件是光敏元件或磁敏元件,采用光敏元件时以透光区和不透光区来表示代码的状态是“1”还是“0”。 按照工作原理编码器可分为增量式和绝对式两类。是将位移转换成周期性的电信号,再把这个电信号转变成计数脉冲,用脉冲的个数表示位移的大小。的每一个位置对应一个确定的数字码,因此它的示值只与测量的起始和终止位置有关,而与测量的中间过程无关。 旋转增量式编码器以转动时输出脉冲,通过计数设备来知道其位置,当编码器不动或停电时,依靠计数设备的内部记忆来记住位置。这样,当停电后,编码器不能有任何的移动,当来电工作时,编码器输出脉冲过程中,也不能有干扰而丢失脉冲,不然,计数设备记忆的零点就会偏移,而且这种偏移的量是无从知道的,只有错误的生产结果出现后才能知道。解决的方法是增加参考点,编码器每经过参考点,将参考位置修正进计数设备的记忆位置。在参考点以前,是不能保证位置的准确性的。为此,在工控中就有每次操作先找参考点,开机找零等方法。这样的编码器是由码盘的机械位置决定的,它不受停电、干扰的影响。 绝对编码器由机械位置决定的每个位置的唯一性,它无需记忆,无需找参考点,而且不用一直计数,什么时候需要知道位置,什么时候就去读取它的位置。这样,编码器的抗干扰特性、数据的可靠性大大提高了。 由于绝对编码器在定位方面明显地优于增量式编码器,已经越来越多地应用于工控定位中。绝对型编码器因其高精度,输出位数较多,如仍用并行输出,其每一位输出信号必须确保连接很好,对于较复杂工况还要隔离,连接芯数多,由此带来诸多不便和降低可靠性,因此,绝对编码器在多位数输出型,一般均选用串行输出或型输出,德国生产的绝对型编码器串行输出最常用的是SSI(同步串行输出)。

图像编解码技术及应用

图像编解码技术及应用 1.图像编解码技术概论: 在当前的图像压缩领域中常用的技术有: BMP、EPS、GIF、JPG、PDF、PIC、PNG、PSD、TIF。上述技术间的差异主要存在于图像编解码的算法不同,通过对算法的研究可以使我们更加容易的理解图像压缩的原理。 位图格式(BMP)是在DOS时代就出现的一种元老级文件格式,因此它是DOS和WINDOWS操作系统上的标准的WINGDOWS点阵图像格式,以此文件格式存储时,采用一种非破坏性的RLE压缩,不会省略任何图像的细部信息。 EPS是最常见的线条稿共享文件格式,它是以PostScript语言为开发基础,所以EPS文件能够同时兼容矢量和点阵图形,所有的排版或图像处理软件如PageMaker或Illustrator等,都提供了读入或置入EPS格式文件的能力,而且RGB和CMYK对象也可以保有各自的原始的色彩模式。 GIF应该是在网络上最常见的一种压缩文件格式,它的英文全名Graphic Interchange format,当初研发的目的是为了最小化电缆上的传输,因此能采用LZW方式进行压缩,但可显示的颜色范围只局限于256索引色,目前所采用 的GIF图形共有两种格式:87a和89a,常见于网页上建议的小动画制作,其中GIF89a还可提供透明色效果,点阵图形,灰度图形或者索引颜色模式皆可存储为此种文件格式 JPG跟GIF一样为网络上最常见道的图像格式,其英文正式名称为Joint Photographic Experts Group,它是以全彩模式进行显示色彩,是目前最有效率的一种压缩格式,常用于照片或连续色调的显示,而且没有GIF去掉图像细 部信息的缺点,但需要注意的是此类图像需要自行设置压缩程度,在打开时JPG 图像会自动解压缩,不过要注意的是JPG采用的压缩是破坏性的压缩,因此会在一定程度上减损图像本身的品质。

第讲多媒体数据的压缩与编码

第2讲多媒体数据的压缩与编码 一级学科课程基础课 主讲:于俊清 2 内容提要 ?压缩的必要性和可能性?压缩与编码的分类?PCM 与预测编码?无损压缩编码?变换编码 ?JPEG ?MPEG 3§2. 1 压缩的必要性和可能性 ?从目前计算机的软硬件和通信网络的发展水平及发展趋势来看,可以断言: ?在将来很长的一段时期内,数字化的媒体信息数据以压缩形式存储和传播仍将是唯一的选择 4 压缩的必要性 ?信息时代的重要特征是信息的数字化,数字化带来了“信息爆炸” ?数字音频和视频信号的数据量之大是非常惊人?举例说明 5 举例一:音频 ?双通道立体声数字音乐光盘(CD-DA ),采样频率为44.1kHz ,采样精度16位/样本?1秒钟的数据量 ?44.1*103*16*2/8=0.176MB/S=1378.1kbps ?一个650MB 的CD-ROM ,可存61.55分钟,约1小时的音乐 ?MP3压缩后,压缩比约为15:1 ?1秒钟的数据量为96kbps ?声音质量接近于数字音乐光盘 6 举例二:标清电视 ?标准清晰度SDTV 格式,PAL 制式,每帧数据量? ?720*576*3=1.19MB ?每秒数据量(比特率) ? 1.19*25=29.75MB/S ?一片650M 的CD-ROM 可存帧数 ?650/5.93=546帧/片 ?一片CD-ROM 节目时间 ?650/29.75)=21.84秒/片

7 举例三:高清电视 ?全高清电视图像HDTV 格式,PAL 制式,每帧数据量? ?1920*1080*3=5.93MB ?每秒数据量(比特率) ? 5.93*25=148.3MB/S ?一片650M 的CD-ROM 可存帧数 ?650/5.93=109.6帧/片 ?一片CD-ROM 节目时间 ?650/148.3)=4.38秒/片 8 举例四:超高清电视(4K ) ?超高清电视图像UltraHDTV 格式,PAL 制式,每帧数据量? ?3840*2160*3=23.73MB(高清视频的4倍) ?每秒数据量(比特率) ?23.73*25=593.26MB/S ?一片650M 的CD-ROM 可存帧数 ?650/23.73=27.39帧/片 ?一片CD-ROM 节目时间 ?650/593.26)=1.1秒/片 9 举例五:卫星 ?一个陆地卫星(LandSat-3)的例子 ?水平、垂直分辨率分别为2340和3240,四波段、采样精度7位) ?一幅图像的数据量 ?2340*3240*7*4=212Mbit ?按每天30幅计 ?每天数据量为212*30=6.36Gbit ?每年的数据量高达2300Gbit 10 数据压缩的可能性 ?人们研究发现,多媒体数据中存在着大量的冗余 ?通过去除冗余数据可以使原始数据极大地减少,从而解决多媒体数据量巨大的问题 ?数据压缩就是研究如何利用数据的冗余性来减少数据量的方法 ?数据压缩研究的起点 ?研究数据的冗余性 11 (1)空间冗余 ?静态图像存在的最主要的一种数据冗余?同一景物表面上各采样点的颜色之间往往存在着空间连贯性 ?通过改变物体表面像素颜色的存储方式来利用空间连贯性,达到减少数据量的目的

数据压缩与编码技术

数据压缩与编码技术 ①多媒体数据压缩编码的种类 多媒体数据压缩方法根据不同的依据可产生不同的分类。通常根据压缩前后有无质量损失分为有失真(损)压缩编码和无失真(损)压缩编码。 无损压缩:利用信息相关性进行的数据压缩并不损失原信息的内容。是一种可逆压缩,即经过文件压缩后可以将原有的信息完整保留的一种数据压缩方式,如RLE压缩,huffman 压缩、算术压缩和字典压缩。 有损压缩:经压缩后不能将原来的文件信息完全保留的压缩,是不可逆压缩。如静态图像的JPEG压缩和动态图像的MPEG压缩等。有损压缩丢失的是对用户来说并不重要的、不敏感的、可以忽略的数据。 无论是有损压缩还是无损压缩,其作用都是将一个文件的数据容量减小,又基本保持原来文件的信息内容。压缩的反过程-----解压缩,将信息还原或基本还原。 压缩编码的方法有几十种之多,如预测编码、变换编码、量化与向量编码、信息熵编码、子带编码、结构编码、基于知识的编码等。其中比较常用的编码方法有预测编码、变换编码和统计编码。没有哪一种压缩算法绝对好,压缩效率高的算法,其具体的运算过程相对就复杂,即需要更长的时间进行转化编码操作。 图1.3 音频信号的压缩方法 ②多媒体数据压缩编码的国际标准 国际电活电报咨询委员会CCITT和ISO联合定的数字化图像压缩国际标淮,主要有三个标准:用于计算机静止图像压缩的JPEG、用于活动图像压缩的MPEG数字压缩技术和用于会议电视系统的H.261压缩编码。 (1)J PEG标准 联合图像专家小组,多年来一直致力于标准化工作,他们开发研制出,连续色调、多级灰度、静止图像的数字图像压缩编码方法。这个压缩编码方法称为JPEG(Joint Photographic Experts Group)算法。JPEG算法被确定为JPEG国际标准,它是国际上,彩色、灰度、静止图像的第一个国际标准。JPEG标准是一个适用范围广泛的通用标准。它不仅适于静图像的压缩;电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩标准。采用JPEG标准可以得到不同压缩比的图像,在使图像质量得到保证的情况下,可以从每个像素24bit减到每个像素1bit甚至更小。

音频数字化简单原理

音频数字化简单原理 [ 2007-3-13 9:41:00 | By: 林俊桂] 从字面上来说,数字化 (Digital) 就是以数字来表示,例如用数字去记录一 张桌子的长宽尺寸,各木料间的角度,这就是一种数字化。跟数位常常一起被提到的字是模拟 ( Analog/Analogue) ,模拟的意思就是用一种相似的东西去表达,例如将桌子用传统相机将三视图拍下来,就是一种模拟的记录方式。 两个概念: 1、分贝(dB):声波振幅的度量单位,非绝对、非线性、对数式度量方式。以人耳所能听到的最静的声音为1dB,那么会造成人耳听觉损伤的最大声音为100dB。人们正常语音交谈大约为20dB。10dB意味着音量放大10倍,而20dB却不是20倍,而是100倍(10的2次方) 。 2、频率(Hz):人们能感知的声音音高。男性语音为180Hz,女性歌声为600H z,钢琴上 C调至A调间为440Hz,电视机发出人所能听到的声音是17kHz,人耳能够感知的最高声音频率为20kHz。 将音频数字化,其实就是将声音数字化。最常见的方式是透过 PCM(脉冲) 。运作原理如下。首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,如下图所示。这张图的横座标为秒,纵座标为电压大小。要将这样的信号转为 P CM 格式的方法,是先以等时距分割。 我们把分割线与信号图形交叉处的座标位置记录下来,可以得到如下资料,(0.0 1,11.6 5) ,(0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) … ..(0.18,15.94) 、 (0. 19 ,17.7) 、 (0.20,20) 。好了,我们现在已经把这个波形以数字记录下来了。由于我们已经知道时间间隔是固定的 0.01 秒,因此我们只要把纵座标记录下来就可以了,得到的结果是 11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.4 4 18.59 17.47 16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 这一数列。这一串数字就 是将以上信号数字化的结果。看吧,我们确实用数字记录了事物。在以上的范例中,我 们的采样频率是 100Hz(1/0.01 秒 ) 。其实电脑中的 .WAV 档的内容就是类似这个样子

相关文档
最新文档