1.音频技术基本知识

第一章音频信号技术概要及MTS系统

第一节音频信号技术概要

一、音频信号技术基本概念：

1、音频信号技术：

通常是指对工作频率在20HZ——20KHZ范围内的信号进行降噪、频率补偿、频率均衡、前置放大、功率放大等处理的技术。

音频全音域分4个频段：

①、20——150HZ为低音频段，表示声音的基础；

②、150——500HZ为中低音频段，表示声音的力度；

③、500HZ——5KHZ为中高音频段，表示声音的亮度；

④、5K——20KHZ为高音频段，表示声音的色彩；

2、音频信号处理分四部分：

（一）、音频播放设备：

常见：（1）卡座、收音调谐；（2）CD、MP3播放机；

（3）VCD 、DVD、LD、CVD；（4）计算机声卡设备；（二）、音频处理：音量调节、频率均衡、降噪、音效处理、前置放大等；

⑴、音量调节：改变音频信号幅度；

⑵、频率均衡：对高低音频段信号进行提升或衰减；

⑶、降噪：滤除杂波、对波形进行平滑处理；

⑷、音效处理：杜比定向逻辑5.1声道解码，杜比AC-3 5.1声道解码，

DTS5.1声道解码3D、DSP、SRS、BBE等。

（三）、功率放大：

⑴、甲类（Class-A）放大器甲类放大器的优点是无交越失真和开关失真，

而且谐波分量中主要是偶次谐波，在听感上低音厚实、中音柔顺温暖、

高音清晰利落、层次感好。缺点耗电多，效率低，容易发热和对散热

要求高。

⑵、乙类（Class-B）放大器乙类放大器的优点是效率较高，理论上可达

78%，缺点是失真较大。

⑶、甲乙类（Cass-AB）放大器在低电平驱动时，放大器为甲类工作，当提

高驱动电平时，转为乙类工作。甲乙类放大器的长处在于它比甲类提

高了小信号输入时的效率，随着输出功率的增大，效率了增高，虽然

失真比甲类大，然而至今仍是应用最广泛的晶体管功率放大器程式趋

向是越来越多的采用高偏流的甲乙类，以减少低电平信号的失真。

⑷、集成功率放大器：电路简单，安装方便，易调试，可根据需要选择不

同的集成放大器。

（5）、市面功放机：晶体管功率放大器（石机），电子管功率放大器（胆机）。

（四）、音频输出设备：

喇叭： 1、分类：高音喇叭，低音喇叭，中低音喇叭，中高音喇叭；

2、指标参数：输出功率、频响、阻抗、灵敏度等。

音箱：由箱体、分频器、喇叭、倒相管等构成。

二、评价音响：

1．音频指标参数：

⑴、频率响应指标：表示对各种频率音频信号的响应能力。

表示方式：20HZ——20KHZ（±2dB）

⑵、信噪比：表示声音的清晰度，越大越好。表示方式：80 dB；

⑶、谐波失真度。表示声音的线性失真，越小越好。表示方式：0.008%；

⑷、线性失真。表示音频信号的丢失程度，越小越好。表示方式：0.5%；

⑸、声道分离度。表示两声道之间的彼此串扰程度。越高越好。表示方式：

100 dB；

⑹、动态范围。表示音频最大信号电平与最小信号电平之间的范围大小，越

大越好。表示方式：90 dB

2．主观感受的评价：

⑴、正面评价：

声音明亮（高中音较充分）、声音丰满（中低音较充分），声音柔和，有

力度，声音厚、结实，声音清晰等。

⑵、反面评价：

声音发毛，声音发闷，声音发尖，声音脆，声音木等。

三、响音频信号的主要因素：

电源本身产生的纹波信号干扰音频；

外界干扰，包括电磁辐射、感应噪声，分布电容耦合耦合等；

信号放大时易自激，产生振荡波信号；

喇叭选用参数是否恰当，与功放输出参数匹配；

四、采取措施：

a) 电源滤波尽可能彻底，使用大容量滤波电容；数字地线和模拟地线要分开；

b) 外接音频信号线采用屏蔽线，音频信号要求远离电源或高频时钟信号线；

c) 选用合适的功率放大器和喇叭，要求参数匹配。

第二节 MTS系统

美国使用的电视播出系统是采 NTSC 规格，其间频率分为 VHF(Lo) （90 ～ 108 MHz）﹑ VHF(Hi) （170 ～ 222 MHz）﹑ UHF （470 ～ 770 MHz）.. 等三个波段，影像（Video -- 视讯）是采波幅调变方式（AM -- Amplitude Modulation），声音（Audio -- 音讯）则是采频率调变方式（FM -- Frequency Modulation），调变的方式下一小节有进一步的说明。每一电视频道的频宽为 6MHz（MHz = 106 Hz，百万赫芝），影像载波中心频率在频宽最低点加 1.25 MHz的位置，声音载波中心频率在频宽最高点减

0.25 MHz的位置，而影像与声音载波中心频率的差为 4.5 MHz。

NTSC 播出系统频谱

MTS（Multi Channel Television Sound）是 NTSC 独有的『立体﹑双语播出系统』其发展的目的在于提高电视声音传送的品质和多元化，MTS 系统更提供了原先无此一系统的兼容性，让使用较旧电视的收视户也能听到立体的混合单音声，就像当年电视系统由黑白转变为彩色的考量是一样的，它可以将电视的声音处理为立体（Stereo）的方式播出，也可以提供副声道（SAP -- Second Audio Program）作为第二语言的播出服务，因此大大提高了音乐节目和戏剧节目的『临场感』，也让语言不同的收视者有机会选择『另一种的声音』。MTS播出系统是由美国联邦通讯委员会（FCC -- Federal Communication Committee）在 1984 年底开始订定标准的，至今不过十年，但是运用 MTS系统播出的电视台和其所属的节目已多得不可计数，可见此一系统的魅力与功效。

MTS 播出系统架构包含了下列数项规格：

主载波音频讯号：

调频方式的主载波音频讯号 -- 其提供了左﹑右声道的合，频宽（Band Width）为50 ～ 15KHz ，并装置有预加强（Pre-emphasis）电路，传统而无 MTS系统的电视亦可接收此一波段临听左﹑右声道的混合单音声（Mono Sound）。

副载波音频讯号：

调幅方式的副载波音频讯号–它提供了左﹑右声道的差，其频宽亦为 50 ～15KHz ，并装置有抑制杂音（dbx）系统及压缩器，而传统且无MTS系统是收不到此一波段的混合声音。

导引讯号：

导引讯号（Pilot）提供了激活立体播出编码器（Encoder）及立体接收的译码器（Decoder）的工作，在配备 MTS 系统的家用电视与录像机上并可激活其指示灯。

第二语言载波音频讯号：

调频方式第二语言（SAP）载波音频讯号--其提供另一种声音频道的选择，其频宽亦为 50 ～ 10KHz ，亦装置有抑制杂音系统及压缩器，在外语节目与新闻中极为方便。

专业频道讯号：

最后有一组专业频道，它提供语音（Voice）和资料（Data）传送的功能，前者可利于电视工作人员之联络通讯用，后者可传送文字（Text）或数据资料，最常用于播

出节目单之翻页表。

MTS系统声音载波频谱

MTS系统播送方块图

录音技术基础知识

个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上

音频、视频技术基础习题3

《音频、视频技术基础》习题3 一、单项选择题 1.压缩编码技术，就是指用某种方法使数字化信息的（）降低的技术。 A、采样率 B、传输速率 C、数据量 D、编码率 2.（）决定了声音的动态范围。 A、声音大小 B、量化位数大小 C、采样频率 D、压缩技术 3.人类听觉的声音频率是（）。 A、0～20Hz B、20Hz～20KHz C、20Hz～340Hz D、20KHz以上 4.人类接受的信息约70%来自于（）。 A、阅读 B、听觉 C、视觉 D、触觉 5.Premiere Pro中输出视频的快捷键是（）。 A、ctrl+Alt+M B、Shift+M C、ctrl+shift+M D、ctrl+M 6.构成视频信息的基本单元是（）。 A、帧

B、画面 C、幅 D、像素 7.关于声音数字化技术中的量化位数叙述正确的是（）。 A、量化位数是指一秒种内对声波模拟信号采样的次数 B、量化位数是指每个采样点十进制数据的位数 C、量化位数是指每个采样点十六进制数据的位数 D、量化位数是指每个采样点二进制数据的位数 8.一般来说，要求声音的质量越高，则（）。 A、量化级数越低采样频率越高 B、量化级数越低采样频率越低 C、量化级数越高采样频率越低 D、量化级数越高采样频率越高 9.波形文件是采集各种声音的机械振动而得到的数字文件，其后缀是（）。 A、wav B、mpga C、mp3 D、voc 10.超声波的频率范围是（）。 A、高于20KHz B、低于20Hz C、低于20KHz D、高于20Hz，低于20KHz 11.以下软件中不是声音编辑软件的是（）。 A、Windows“录音机” B、Winamp C、SoundForge D、Cool Edit Pro 12.用（）软件可以将自己需要的VCD片段从VCD光盘中截取出来。 A、超级解霸

数字音频基础知识

第一章数字音频基础知识主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。 ?人能听到的声音，包括语音、音乐和其它声音（环境声、音效声、自然声等），可以分为乐音和噪音。 ?乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。 ?噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。 1.2 声音的传播 ?声音靠介质传播，真空不能传声。 ?介质：能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。 ?双耳效应的应用：立体声 ?人耳能感受到（听觉）的频率范围约为20Hz~ 20kHz，称此频率范围内的声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。 ?人的发音器官发出的声音（人声）的频率大约是80Hz～3400Hz。人说话的声音（话音voice / 语音speech）的频率通常为300Hz～3000 Hz（带宽约3kHz）。 ?传统乐器的发声范围为16Hz (C2)～7kHz(a5)，如钢琴的为27.5Hz (A2)～4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素：音调、响度（音量/音强）和音色 ?人们就是根据声音的三要素来区分声音。音调（pitch ） ?音调：声音的高低（高音、低音），由―频率‖（frequency）决定，频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数，用Hz 表示。例如，20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。 ?低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。响度（loudness ） ?响度：又称音量、音强，指人主观上感觉声音的大小，由―振幅‖（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝dB）音色（music quality） ?音色：又称音品，由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。 1.5 声道

音视频技术基本知识一

https://www.360docs.net/doc/9913311097.html, 音视频技术基本知识一网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云总结网络上的知识，与大家分享一下音视频技术基本知识。与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M 以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

录音技术基础知识

录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式？C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式？B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式？D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式？D a)MP4：AVC+AAC b)3GP：AVC+AMR-NB c)FLV：H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端（iphone，ipod，ipad）本地播放器支持以下哪种视频编码？B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架（Profile）？D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称？A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps，需要每秒2个关键帧，则每隔多少帧需设置一个关键帧？A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的？D a)H.264+MP3，350K+32K，15fps，22050，320x240 b)H.264+MP3，350K+32K，15fps，22050，320x240 H.264+MP3，500K+64K，25fps，44100，480x320 c)H.264+MP3，500K+64K，25fps，44100，480x320 H.264+MP3，800K+64K，25fps，44100，640x480 d)ONVP6+MP3，300K+32K，12fps，22050，480x320 ONVP6+MP3，400K+32K，12fps，22050，320x240 ONVP6+MP3，500K+32K，12fps，22050，240x180

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。有关音频的物理属性由于过于专业，请大家参考其他资料。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。一、音频基本概念 1、什么是采样率和采样大小（位/bit）。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。 2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有

录音技术基础知识

录音技术基础知识基本录音/多轨录音无论是盒式磁带录音机、数码多轨录音机、硬盘录音机，还是其它录音媒体，其录音过程大致相同，目的都是将声音获取到缩混带上。做此工作，录音工程师采用两个步骤： 1、多轨录音——各种乐器和人声的录音与叠加录音的过程，每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上（“母带录音”），可以用某种播放系统如CD播放机或磁带卡座等进行再制作。录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，以便在播放任意一种音色时，同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。换言之，假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式：Audible1、2、3、4。https://www.360docs.net/doc/9913311097.html,网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种https://www.360docs.net/doc/9913311097.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

现代录音基础知识

现代录音基础知识（上）快速录音基础知识入门连载（一）录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。什么是叠加？假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。传统录音方式录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。这些处理过程将在后文的详细介绍中解释。

录音技术基础知识

录音技术基础知识 Prepared on 22 November 2020

奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可以找到），XLR（一般用于话筒）和1/4inch（一般用于乐器）。

视频音频编码知识

audio。AAC（Advanced Audio Coder)区别于ac3，mp3（全称MPEG1 Layer3，可不是MPEG3的缩写哦)等等，aac是Mp4官方指定的mp4音频规格。和video一样，她也有两个profile： - LC-AAC (Low Complexity) 也被叫做MAIN @ Level 2 - HE-AAC (High Efficiency) 也被叫做AAC SBR/AAC+/aacplus 再次抛开技术性的数据，HE比LC更高级一些，允许你在相同音质下已更低的bitrate编码。帧间压缩。其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。 P帧:前向预测编码帧。 P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。 B帧:双向预测内插编码帧。 B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。

音频基础知识

一般认为20Hz－20kHz是人耳听觉频带，称为“声频”。这个频段的声音称为“可闻声”，高于20kHz的称为“超声”，低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别，所以二者的接线方法是不一样的，应引起注意。声学的基本概念音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如： 1．语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定，即以主观打分（MOS）来度量，它分为以下五级：5（优），不察觉失真；4（良），刚察觉失真，但不讨厌；3（中），察觉失真，稍微讨厌；2（差），讨厌，但不令人反感；

视频音频封装基础知识

视频/ 音频/ 封装的基本知识 1.分辨率由于现在的高清视频全部是数字方式，由若干象素构成图象，一幅图象的水平象素乘以垂直象素，就表示为分辨率，比如分辨率为1920×1080，图象的水平方向每行有1920 个象素，垂直方向上每列1080 个象素。分辨率越高，构成图象的象素越多，包含的图象信息越丰富，图象越清晰，所以分辨率是高清的重要指标。 2.隔行和逐行隔行和逐行是电视系统显示图像的方法。隔行就是每一幅画面被分割为两场，每一场包含了一幅画面中所有的奇数行或者偶数行，通常是先扫描奇数行得到第一场，然后扫描偶数行得到第二场。由于视觉暂留效应，人眼将会看到平滑的运动而不是闪动的半幅的图像。但是这时会有几乎不会被注意到的闪烁出现，使得人眼容易疲劳。逐行每次显示整个图象，由于目前的平板电视绝大多数是逐行显示方式，不管电视信号如何，电视机都可以选择无闪烁的逐行显示。 4.码率码率是单位时间传送的数据量, 高清视频常用的单位是Mbps。通俗一点的理解就是原始片源制作数字格式的高清视频文件的取样率，码率越高，单位象素上包含的信息量越多，文件就越接近原始文件，清晰度越高。 5.编码方式：目前高清主流的视频编码格式有MPEG2、H264，VC-1。 MPEG2是DVD采用的视频编码格式，广泛用于DVD和电视信号传输。用于1080i 高清电视信号传输，需要12-20Mbps带宽，占用大量带宽，技术较老，压缩比不高。中国和美国的部分高清节目在使用MPEG2，欧洲已基本换用H264。Blu-ray早期部分节目使用过MPEG2，目前已全部换为H264和VC1。MPEG2压缩比低，对机器的要求最低，硬加速也最完善，只要你的机器不要太古董，都可以放得动。 H264是由ITU-T和ISO/IEC两大国际组织制定，H264在两大组织内分别表述为H264、MPEG-4 Part 10、ISO/IEC 14496-10、MPEG-4 AVC这4种名称，我们习惯使用其最

(完整word版)现代录音基础知识

现代录音基础知识近年来音频录音领域已经发生了戏剧性的变化。现在具备大量优秀数字设备已经相当便宜。技术的进步已经将崭新的令人激动的特性带给越来越多的用户群。低成本和高科技意味着许多人可以直接跳到复杂的录音设备来进行第一次录音体验。而其它一些人则转移到数码音序器——一种不需要准备太多音频录音问题的非常不同的录音体验。二者都需要对现代录音设备的一些最基本的概念有一定了解。本文的目的就是以简单形式来专门介绍现代录音的基本知识。使音乐家能够快速地开始录音操作。你可以仔细得阅读一遍本文，也可以按找你自己的需要跳到一定的章节来进行阅读。如果你对录音领域来说还是体验非常少时，我们推荐你仔细阅读本文。另外，你还要阅读一下文后的词汇表，这样可使你对将要使用的术语变得更熟悉一些。基础录音/多轨录音——————————————————————————基础录音/多轨缩混——————————————————————————一般连接端子———————————————————————————————平衡与非平衡连接———————————————————————————话筒————————————————————————————————话筒前置和幻像电源——————————————————————————基本话筒技术————————————————————————————总线——————————————————————————————————推前和推后——————————————————————————————获得正确的输入电平——————————————————————————监听效果———————————————————————————————效果布线/插入和循环——————————————————————————压缩器————————————————————————————————EQ 的基本知识—————————————————————————————并轨——————————————————————————————————虚拟轨—————————————————————————————————轨道管理————————————————————————————————非线性编辑———————————————————————————————还原——————————————————————————————————母带制作————————————————————————————————备份——————————————————————————————————录音概览————————————————————————————————总概括—————————————————————————————————词汇表————————————————————————————————— 基本录音/多轨录音无论是盒式磁带录音机、数码多轨录音机、硬盘录音机，还是其它录音媒体，其录音过程大致相同，目的都是将声音获取到缩混带上。做此工作，录音工程师采用两个步骤： 1、多轨录音——各种乐器和人声的录音与叠加录音的过程，每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上（“母带录音” ），可以用某种播放系统如CD 播放机或磁带卡座等进行再制作。录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加” ，以便在播放任意一种音色时，同时听到其它