音视频编解码_V1.0

音视频编解码_V1.0
音视频编解码_V1.0

音视频编解码基础知识详解

1、概述

音视频技术主要包含以下几点:封装技术,视频压缩编码技术以及音频压缩编码技术。播放器播放一个互联网上的音视频文件,需要经过以下几个步骤:解协议,解封装,解码视音频,视音频同步。如果播放本地文件则不需要解协议,为以下几个步骤:解封装,解码视音频,视音频同步。其过程如图所示。

解协议的作用,就是将流媒体协议的数据,解析为标准的相应的封装格式数据。视音频在网络上传播的时候,常常采用各种流媒体协议,例如HTTP,RTMP,或是MMS等等。这些协议在传输视音频数据的同时,也会传输一些信令数据。这些信令数据包括对播放的控制(播放,暂停,停止),或者对网络状态的描述等。解协议的过程中会去除掉信令数据而只保留视音频数据。例如,采用RTMP协议传输的数据,经过解协议操作后,输出FLV格式的数据。

解封装的作用,就是将输入的封装格式的数据,分离成为音频流压缩编码数据和视频流压缩编码数据。封装格式种类很多,例如MP4,MKV,RMVB,TS,FLV,AVI等等,它的作

用就是将已经压缩编码的视频数据和音频数据按照一定的格式放到一起。例如,FLV格式的数据,经过解封装操作后,输出H.264编码的视频码流和AAC编码的音频码流。

解码的作用,就是将视频/音频压缩编码数据,解码成为非压缩的视频/音频原始数据。音频的压缩编码标准包含AAC,MP3,AC-3等等,视频的压缩编码标准则包含H.264,MPEG2,VC-1等等。解码是整个系统中最重要也是最复杂的一个环节。通过解码,压缩编码的视频数据输出成为非压缩的颜色数据,例如YUV420P,RGB等等;压缩编码的音频数据输出成为非压缩的音频抽样数据,例如PCM数据。

视音频同步的作用,就是根据解封装模块处理过程中获取到的参数信息,同步解码出来的视频和音频数据,并将视频音频数据送至系统的显卡和声卡播放出来。

2、常用的基本知识

2.1 基本概念

2.1.1 编解码

编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。一个编解码器不应该同编码或压缩格式或标准混淆,一种格式是一种文档(所谓标准),一种存储数据的方式,但是编解码器确实一段程序用于读或写这样的文件。实际上,有时编解码器不严谨地意指格式。编解码器编码一个数据流或者用于传输、存储、加密的信号,解码一段用于回放或编辑。

主要视频编码一览

其结果大致是这样的:

HEVC > VP9 > H.264> VP8 > MPEG4 > H.263 > MPEG2。

主要音频编码一览

其性能结果大致是这样的:

AAC+ > MP3PRO > AAC> RealAudio > WMA > MP3

2.1.2 容器

很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式

中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。

FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于“IDP3”的FourCC。

视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。

封装格式的主要作用是把视频码流和音频码流按照一定的格式存储在一个文件中。现如今流行的封装格式如下表所示:

主要封装格式一览

2.1.3 帧与场的概念

帧:当采样视频信号时,如果是通过逐行扫描,那么得到的信号就是一帧图像,通常帧频为25帧每秒(PAL制)、30帧每秒(NTSC制);

场:当采样视频信号时,如果是通过隔行扫描(奇、偶数行),那么一帧图像就被分成了两场,通常场频为50Hz(PAL制)、60Hz(NTSC制);

2.2 参数介绍

2.2.1 采样率

采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称“位速率”)相混淆。

采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。

采样位数(bit_sample):即采样值或取样值。它是用来衡量声音波动变化的一个参数,也就是声卡的分辨率或可以理解为声卡处理声音的解析度.它的数值越大,分辨率也就越高,录制和回放的声音就越真实.而声卡的位是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数,声卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度.

对于语音采样:

8,000 Hz -电话所用采样率, 对于人的说话已经足够

11,025 Hz

22,050 Hz -无线电广播所用采样率

32,000 Hz - miniDV 数码视频camcorder、DAT (LP mode)所用采样率

44,100 Hz -音频CD, 也常用于MPEG-1 音频(VCD, SVCD, MP3)所用采样率

47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用PCM 录音机所用采样率

48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率50,000 Hz -二十世纪七十年代后期出现的3M 和Soundstream 开发的第一款商用数字录音机所用采样率

50,400 Hz -三菱X-80 数字录音机所用所用采样率

96,000 或者192,000 Hz - DVD-Audio、一些LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和HD-DVD (高清晰度DVD)音轨所用所用采样率

2.8224 MHz -SACD、索尼和飞利浦联合开发的称为Direct Stream Digital 的 1 位sigma-delta modulation 过程所用采样率。

在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。

50 Hz - PAL视频

60 / 1.001 Hz - NTSC 视频

当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。一些常见的像素采样率有:

13.5 MHz - CCIR 601、D1 video

2.2.2 声道

声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。使用杜比数字技术下,最标准常用的是5.1声道设置,但杜比数字容许一系列不同声道的选择。全部可供选择的声道如下列所示:

?单声道(Mono)(中央)

?双声道立体声(Stereo)(左、右),选择性地交叉应用杜比环回

?三声道立体声(准立体声Prospective stereo)(左、中、右)

?双声道立体声加单环回(左、右、环回)

?三声道立体声加单环回(左、中、右、环回)

?四声道环回立体声(左前、右前、左后、右后)

?五声道环回立体声(左前、中、右前、左环绕、右环绕)

?七声道环绕立体声(左前、中、右前、左环绕、右环绕、左后环绕、右后环绕)

?杜比全景声(Dolby Atmos)(基于声音对象的模式)

在5.1, 7.1 或其他等文字中,'.1'指的是低频LFE声道(重低音)。其实5.1声道就是使用5个喇叭和1个超低音扬声器来实现一种身临其境的音乐播放方式,它是由杜比公司开发的,所以叫做“杜比5.1声道”。在5.1声道系统里采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音,使人产生犹如身临音乐厅的感觉。五个声道相互独立,其中“.1” 声道,则是一个专门设计的超低音声道。正是因为前后左右都有喇叭,所以就会产生被音乐包围的真实感。7.1声道是在5.1基础上,将环绕声道一分为四:左侧环绕、右侧环绕、左后环绕、右后环绕,因此比5.1多两个环绕声道,如下图所示:

杜比全景声推出结合了动态对象和播放声道的崭新混音和声音定向方式,令观众全方位被声音包围。杜比全景声实现了适应性回放,确保在任何环境和不同的扬声器配置下,尽可能播放最接近原创者设想的效果。

1.为影院观众提供强大而生动的全新影院聆听体验;

2.声音可以在影院中自由移动,以营造动态效果;

3.再现自然而真实的音频体验,与故事情节完美契合;

4.增设顶部扬声器,实现有史以来最逼真的声音效果;

5.在各类影院设置下真切反映艺术家的创作意图;

6.最多采用64部扬声器,提高所有画面的逼真度和冲击力;

2.2.3 分辨率

分辨率,泛指量测或显示系统对细节的分辨能力。此概念可以用时间、空间等领域的量测。日常用语中之分辨率多用于图像的清晰度。分辨率越高代表图像品质越好,越能表现出更多的细节。但相对的,因为纪录的信息越多,文件也就会越大。目前个人电脑里的图像,可以使用图像处理软件,调整图像的大小、编修照片等。例如photoshop,或是photoimpact 等软件。

2.2.

3.1 图像分辨率

用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。常用'线每毫米'、'线每英吋'等来衡量。通常,“分辨率”被表示成每一个方向上的像素数量,比如640x480等。而在某些情况下,它也可以同时表示成“每英吋像素”(pixels per inch,ppi)以及图形的长度和宽度。比如72ppi,和8x6英吋。

2.2.

3.2 视频分辨率

各种电视规格分辨率比较视频的画面大小称为“分辨率”。数位视频以像素为度量单位,而类比视频以水平扫瞄线数量为度量单位。标清电视频号分辨率为720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。新的高清电视(HDTV)分辨率可达1920x1080p60,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。

2.2.4 帧率fps

Frame rate中文常译为“画面更新率”或“帧率”,是指视频格式每秒钟播放的静态画面数量。典型的画面更新率由早期的每秒6或8张(frame per second,简称fps),至现今的每秒120张不等。PAL (欧洲,亚洲,澳洲等地的电视广播格式) 与SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。要达成最基

本的视觉暂留效果大约需要10fps的速度。

2.2.5 码率(Data Rate)

码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒。是他是视频编码中画面质量控制中最重要的部分。同样分辨率下,视频文件的码流越大,压缩比就越小,画面质量就越高。

其单位Kbps:首先要了解的是,ps指的是/s,即每秒。Kbps指的是网络速度,也就是每秒钟传送多少个千位的信息(K表示千位,Kb表示的是多少千个位),为了在直观上显得网络的传输速度较快,一般公司都使用kb(千位)来表示。1KB/S=8Kbps。ADSL上网时的网速是512Kbps,如果转换成字节,就是512/8=64KB/S(即64千字节每秒)。

有了以上参数我们就可以以CD光盘为例来计算一下分析一下。

首先一张标准音乐CD光盘容量是746.93MB。注意大B是字节,小b是位。一字节(B)等于8位(b)。

CD音频是以采样率为44.1KHZ,采样位数为16位,左右双声道(立体声)进行采样的。而一张标准CD光盘的时长是74分钟

那么容量计算公式为:(44100*16*2)/8*(74*60)=783216000字节转为MB 为783216000/1024/1024=746.93MB(兆字节)。

2.2.7 I,P,B帧和PTS,DTS的关系

2.7.1 基本概念:

I frame:帧内编码帧又称intra picture,I 帧通常是每个GOP(MPEG 所使用的一种视频压缩技术)的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成图象。I 帧可以看成是一个图像经过压缩后的产物。

P frame: 前向预测编码帧又称predictive-frame,通过充分将低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像,也叫预测帧;

B frame: 双向预测内插编码帧又称bi-directional interpolated prediction frame,既考虑与源图像序列前面已编码帧,也顾及源图像序列后面已编码帧之间的时间冗余信息来压缩传输数据量的编码图像,也叫双向预测帧;

PTS:表示时间戳Presentation Time Stamp。PTS主要用于度量解码后的视频帧什么时候被显示出来

DTS:解码时间戳Decode Time Stamp。DTS主要是标识读入内存中的bit流在什么时候开始送入解码器中进行解码。

2.7.2 I帧特点

I frame: 自身可以通过视频解压算法解压成一张单独的完整的图片。

?它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输

?解码时仅用I帧的数据就可重构完整图像

?I帧描述了图像背景和运动主体的详情

?I帧不需要参考其他画面而生成

?I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量)

?I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧

?I帧不需要考虑运动矢量

?I帧所占数据的信息量比较大

2.7.3 P帧特点

P frame:P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据),解码时需要参考其前面缓存的一个I frame 或者P frame叠加上本帧定义的差别生成一张最终画面。

?P帧是I帧后面相隔1~2帧的编码帧

?P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差)

?解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像

?P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧

?P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧

?由于P帧是参考帧,它可能造成解码错误的扩散

?由于是差值传送,P帧的压缩比较高

2.7.4 B帧特点

B frame: B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,要解码B帧,不仅要取得之前的缓存画面(I帧或者P帧),还要解码之后的画面(P帧),通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU占用率比较高。?B帧是由前面的I或P帧和后面的P帧来进行预测的

?B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量

?B帧是双向预测编码帧

?B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确

?B帧不是参考帧,不会造成解码错误的扩散

2.7.5 规律

?I frame 的解码不依赖于任何的其它的帧.

?p frame的解码则依赖于其前面的I frame或者P frame.

? B frame的解码则依赖于其前的最近的一个I frame或者P frame 及其后的最近的一个P frame.

?两个I frame之间形成一个GOP,在x264中同时可以通过参数来设定bf的大小,即:I 和p或者两个P之间B的数量。

?一般情况下,如果有B frame 存在的情况下一个GOP的最后一个frame一定是P.

2.7.6 DTS和PTS的不同:

DTS主要用于视频的解码,在解码阶段使用.

PTS主要用于视频的同步和输出.在display的时候使用.在没有B frame的情况下.DTS和PTS的输出顺序是一样的.

例子: 下面给出一个GOP为15的例子,其解码的参照frame及其解码的顺序都在里面:

如上图:I frame 的解码不依赖于任何的其它的帧.而p frame的解码则依赖于其前面的I frame或者P frame.B frame的解码则依赖于其前的最近的一个I frame或者P frame 及其后的最近的一个P frame.

3、压缩方法

音视频压缩(英文:Audio/Video compression)是指运用音视频压缩技术将数位音视频资料中的冗余数据去除,降低表示原始音视频所需的资料量,以便音视频信息的传输与储存。实际上,原始视频信息的资料量往往过大,例如未经压缩的电视品质音视频信息的位元率高达216Mbps,绝大多数的应用无法处理如此庞大的资料量,因此音视频压缩是必要的。

数据冗余。例如如空间冗余、时间冗余、结构冗余、信息熵冗余等,即图像的各像素之间存在着很强的相关性。消除这些冗余并不会导致信息损失,属于无损压缩。

(1)时间上的冗余数据(temporal redundancy)

在视频资料中,相邻的帧(frame)与帧之间通常有很强的关连性,这样的关连性即为时间上的冗余数据。这即是上一次学习中的帧间压缩。

(2)空间上的冗余数据(spatial redundancy)

在同一张帧之中,相邻的像素之间通常有很强的关连性,这样的关连性即为空间上的冗余数据。这即是上一次学习中的帧内压缩。

(3)统计上的冗余数据(statistical redundancy)

统计上的冗余数据指的是欲编码的符号(symbol)的机率分布是不均匀(non-uniform)的。

(4)感知上的冗余数据(perceptual redundancy)

感知上的冗余数据是指在人在观看视频时,人眼无法察觉的数据。

一个典型的视频编码器:在进行当前信号编码时,编码器首先会产生对当前信号做预测的信号,称作预测信号(predicted signal),预测的方式可以是时间上的预测(interprediction),亦即使用先前帧的信号做预测,或是空间上的预测(intra prediction),亦即使用同一张帧之中相邻像素的信号做预测。得到预测信号后,编码器会将当前信号与预测信号相减得到残余信号(residual signal),并只对残余信号进行编码,如此一来,可以去除一部份时间上或是空间上的冗余资讯。接着,编码器并不会直接对残余信号进行编码,而是先将残余信号经过变换(通常为离散余弦变换)然后量化以进一步去除空间上和感知上的冗余资讯。量化后得到的量化系数会再透过熵编码,去除统计上的冗余资讯。

3.1 有损压缩和无损压缩

在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。

无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)

有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC

3.2 帧内压缩和帧间压缩

帧内(Intraframe)压缩也称为空间压缩(Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。

采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。

3.2.1 变换编码

变换编码的作用是将空间域描述的图像信号变换到频率域,然后对变换后的系数进行编码处理。一般来说,图像在空间上具有较强的相关性,变换到频率域可以实现去相关和能量集中。常用的正交变换有离散傅里叶变换,离散余弦变换等等。数字视频压缩过程中应用广泛的是离散余弦变换。

3.2.2 运动估计和运动补偿

运动估计(Motion Estimation)和运动补偿(Motion Compensation)是消除图像序列时间方向相关性的有效手段。上文介绍的DCT变换、量化、熵编码的方法是在一帧图像的基础上进行,通过这些方法可以消除图像内部各像素间在空间上的相关性。实际上图像信号除了空间上的相关性之外,还有时间上的相关性。例如对于像新闻联播这种背景静止,画面主体运动较小的数字视频,每一幅画面之间的区别很小,画面之间的相关性很大。对于这种情

况我们没有必要对每一帧图像单独进行编码,而是可以只对相邻视频帧中变化的部分进行编码,从而进一步减小数据量,这方面的工作是由运动估计和运动补偿来实现的。

3.2.3 熵编码

熵编码是因编码后的平均码长接近信源熵值而得名。熵编码多用可变字长编码(VLC,Variable Length Coding)实现。其基本原理是对信源中出现概率大的符号赋予短码,对于出现概率小的符号赋予长码,从而在统计上获得较短的平均码长。可变字长编码通常有霍夫曼编码、算术编码、游程编码等。其中游程编码是一种十分简单的压缩方法,它的压缩效率不高,但编码、解码速度快,仍被得到广泛的应用,特别在变换编码之后使用游程编码,有很好的效果。

3.2.4 混合编码

上面介绍了视频压缩编码过程中的几个重要的方法。在实际应用中这几个方法不是分离的,通常将它们结合起来使用以达到最好的压缩效果。下图给出了混合编码(即变换编码+ 运动估计和运动补偿+ 熵编码)的模型。该模型普遍应用于MPEG1,MPEG2,H.264等标准中。

4、音视频同步

4.1基本概念

SCR(System Clock Reference,系统时间基准)。在编码的时候,PTS,DTS和SCR都是由STC(System Time Clock,系统时间时钟)生成的,在解码时,STC会再生,并通过PLL(Phase Lock Loop,锁相环路),用本地SCR相位与输入的瞬时SCR相位锁相比较,以确定解码过程是否同步,若不同步,则用这个瞬时SCR调整27MHz的本地时钟频率。最后,PTS,DTS和SCR一起配合,解决视音频同步播放的问题。

音视频同步,有三种方法,视频同步音频,音频同步视频,同步到外部时钟!用的最多的还是,视频同步音频,为什么呢?音频的采样率是固定的,若音频稍有卡顿,都会很明显

的听出来,反则视频则不如此,虽然表面上说的是30fps,不一定每一帧的间隔就必须精确到33.33ms,因为人肉眼是观察不出来的,所以视频的帧率可以是动态的,并不是严格标准的!

解决音视频同步问题的最佳方案就是时间戳:首先选择一个参考时钟(要求参考时钟上的时间是线性递增的);生成数据流时依据参考时钟上的时间给每个数据块都打上时间戳(一般包括开始时间和结束时间);在播放时,读取数据块上的时间戳,同时参考当前参考时钟上的时间来安排播放(如果数据块的开始时间大于当前参考时钟上的时间,则不急于播放该数据块,直到参考时钟达到数据块的开始时间;如果数据块的开始时间小于当前参考时钟上的时间,则“尽快”播放这块数据或者索性将这块数据“丢弃”,以使播放进度追上参考时钟)。

第二个关键的地方,就是在播放时基于时间戳对数据流的控制,也就是对数据块早到或晚到采取不同的处理方法。

4.2 音视频同步

一般编码器会以27MHZ的时钟来进行编码,而编码器一般默认会每隔30ms会发送一次PCR信息,这里的PCR信息非常重要,是解码端解码进行帧率控制的时间基点,同时也是在进行同步校准的校准基点。PCR信息是33bit组成的一个int64的数据

用视频同步音频,做法很简单!首先,音频线程只管自己独立解码播放。视频线程在显示之前只需要检测视频PTS是否大于音频PTS,若大,则等待音频PTS>=视频PTS,若小,则直接播放,小太多则可以直接丢弃(跳帧)。

5、H264编码

5.1 基本概念

1. 宏块(Macro Block):

宏块是H.264编码的基本单位,一个编码图像首先要划分成多个块(4x4 像素)才能进行处理,显然宏块应该是整数个块组成,通常宏块大小为16x16个像素。

宏块分为I、P、B宏块:

I宏块只能利用当前片中已解码的像素作为参考进行帧内预测;

P宏块可以利用前面已解码的图像作为参考图像进行帧内预测;

B宏块则是利用前后向的参考图形进行帧内预测

2. 片(Slice):

一帧视频图像可编码成一个或者多个片,每片包含整数个宏块,即每片至少一个宏块,最多时包含整个图像的宏块。

片的目的:为了限制误码的扩散和传输,使编码片相互间保持独立。

片共有5种类型:I片(只包含I宏块)、P片(P和I宏块)、B片(B和I宏块)、SP片(用于不同编码流之间的切换)和SI片(特殊类型的编码宏块)。

3.片组

片组是一个编码图像中若干宏块的一个子集,包含一个或若干个片。

一般一个片组中,每片的宏块是按扫描次序进行编码的,除非使用任意片次序(Arbitrary Slice Order, ASO)一个编码帧中的片之后可以跟随任一解码图像的片。

4.序列

参照一段时间内图像的统计结果表明,在相邻几幅图像画面中,一般有差别的像素只有10%以内的点,亮度差值变化不超过2%,而色度差值的变化只有1%以内。所以对于一段变化不大图像画面,我们可以先编码出一个完整的图像帧A,随后的B帧就不编码全部图像,只写入与A帧的差别,这样B帧的大小就只有完整帧的1/10或更小!B帧之后的C帧如果变化不大,我们可以继续以参考B的方式编码C帧,这样循环下去。这段图像我们称为一个序列(序列就是有相同特点的一段数据),当某个图像与之前的图像变化很大,无法参考前面的帧来生成,那我们就结束上一个序列,开始下一段序列,也就是对这个图像生成一个完整帧A1,随后的图像就参考A1生成,只写入与A1的差别内容。

5.1.1 IDR(Instantaneous Decoding Refresh)--即时解码刷新。

在H.264中,图像以序列为单位进行组织。一个序列的第一个图像叫做IDR 图像(立即刷新图像),IDR 图像都是I 帧图像。H.264 引入IDR 图像是为了解码的重同步,当解码器解码到IDR 图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。IDR 图像一定是I 图像,但I 图像不一定是IDR 图像。I帧之后的图像有可能会使用I帧之前的图像做运动参考。

5.1.2 profile/level

H.264从低到高分别为:Baseline、Main、High。

Baseline(最低Profile)级别支持I/P 帧,只支持无交错(Progressive)和CAVLC,一般用于低阶或需要额外容错的应用,比如视频通话、手机视频等;

Main(主要Profile)级别提供I/P/B 帧,支持无交错(Progressive)和交错(Interlaced),同样提供对于CAVLC 和CABAC 的支持,用于主流消费类电子产品规格如低解码(相对而言)的mp4、便携的视频播放器、PSP和Ipod等;

High(高端Profile,也叫FRExt)级别在Main的基础上增加了8x8 内部预测、自定义量化、无损视频编码和更多的YUV 格式(如4:4:4),用于广播及视频碟片存储(蓝光影片),高清电视的应用。

H.264的规格主要是针对兼容性的,不同的规格能在相同级别上的平台应用。至于Baseline@L x.x、Main@L x.x、High@L x.x形式则是在不同级别下的码流级别,数值越大码流就越大,更耗费资源。所以就码流而言High@L3.0

H.264有四种画质级别,分别是BP、EP、MP、HP:

1、BP-Baseline Profile:基本画质。支持I/P 帧,只支持无交错(Progressive)和CAVLC;

2、EP-Extended profile:进阶画质。支持I/P/B/SP/SI 帧,只支持无交错(Progressive)和CAVLC;

3、MP-Main profile:主流画质。提供I/P/B 帧,支持无交错(Progressive)和交错(Interlaced),也支持CAVLC 和CABAC 的支持;

4、HP-High profile:高级画质。在main Profile 的基础上增加了8x8内部预测、自

音视频技术基本知识一

https://www.360docs.net/doc/ca3188302.html, 音视频技术基本知识一 网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云总结网络上的知识,与大家分享一下音视频技术基本知识。 与画质、音质等有关的术语 这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧 一般来说,帧是影像常用的最小单位,简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的,现在大多数视频也类似,下面说说帧速率和帧大小。 帧速率,有的转换器也叫帧率,或者是每秒帧数一类的,这可以理解为每一秒的播放中有多少张图片,一般来说,我们的眼睛在看到东西时,那些东西的影像会在眼睛中停留大约十六分之一秒,也就是视频中只要每秒超过15帧,人眼就会认为画面是连续不断的,事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况,当视频中有较快的动作时,帧速率过小,动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上,这24帧是电影的帧速率。 帧大小,有的转换器也叫画面大小或屏幕大小等,是组成视频的每一帧的大小,直观表现为转换出来的视频的分辨率的大小。一般来说,软件都会预置几个分辨率,一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等,当然很多转换器提供自定义选项,这里,不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率,如果是转换到普通手机、PSP等设备上,视频分辨率选择与设备分辨率相同,否则某些设备可能会播放不流畅,设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率 比特率,又叫码率或数据速率,是指每秒传输的视频数据量的大小,音视频中的比特率,是指由模拟信号转换为数字信号的采样率;采样率越高,还原后的音质和画质就越好;音视频文件的体积就越大,对系统配置的要求也越高。 在音频中,1M以上比特率的音乐一般只能在正版CD中找到,500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式,一般的MP3是在96K到320K之间。目前,对大多数人而言,对一般人而言192K就足够了。 在视频中,蓝光高清的比特率一般在40M以上,DVD一般在5M以上,VCD一般是在1M 以上。(这些均是指正版原盘,即未经视频压缩的版本)。常见的视频文件中,1080P的码率一般在2到5M之间,720P的一般在1到3M,其他分辨率的多在一M一下。 视频文件的比特率与帧大小、帧速率直接相关,一般帧越大、速率越高,比特率也就越大。当然某些转换器也可以强制调低比特率,但这样一般都会导致画面失真,如产生色块、色位不正、出现锯齿等情况。

高清编解码器测试说明

高清编解码器测试说明 测试时间:10.26-11.6 本次测试联系了NTT、汤姆逊、tandberg和哈雷四家编、解码器厂家。在测试限定期限内,NTT公司送测一台支持MPEG2和H.264 格式高清编码器HVE9100 设备。汤姆逊公司送测一台支持MPEG2和H.264 格式高清解码器RD3000设备。Tandberg 和哈雷公司未参加测试。 本次测试信源是由传输部提供千兆光纤信号,其中包含三路MPEG2高清信源。信源经过千兆交换机将光信号转为电信号送入高清解码器。 汤姆逊高清解码器设备支持MPEG2和H.264两种格式高清信源的解码,操作简便并且解码配置自适应。经过测试,该产品能够满足我方技术要求。

NTT高清编码器设备支持MPEG2和H.264两种格式高清信源的编码。通过测试,该产品基本能够满足我方技术要求,

注:本次测试配合收录系统一并测试,MPEG2格式编码输出的节目经过收录-编辑-转码-VOD播出整个流程测试通过。H.264格式编码输出的节目经过收录-VOD播出失败。

4.7高清编码器技术要求 1)投标人提供的编码器必须符合以下标准: ●视频编码标准符合MPEG4-AVC和 MPEG-2标准 ●音频编码标准符合MPEG-1LayerII, Dolby Digital(AC3) 2.0/Dolby Digital(AC3)5.1, AAC LC或 HE2.0和5.1 2)编码器视频编码格式支持HD MPEG-2 4:2:0 MP@HL,音频支持MPEG-1 LayeⅡ编码,音 频编码模式single/dual/ stereo可选。 3)编码器视频编码格式支持H.264 HP@4.0/4.2(High profile, Level 4.2/4.0), MP@3.0(Main profile, Level 3.0) ,BP(Baseline profile) 。音频支持MPEG-1 Layer Ⅱ编码,音频编码模式single/dual/ stereo可选。 4)单块编码卡可支持两路高/标清信号编码。 5)编码器必须支持SD-SDI、HD-SDI和SD Composite(标清复合)视频信号输入。 6)编码器必须支持数字AES/EBU及SDI嵌入式音频两种方式的音频输入。 7)编码器每路编码节目其输出码率应在2.0M-30Mbps范围可调。 8)编码器可独立对视音频码率分别进行调整。 9)编码器必须支持IP输出,IP输出应支持UDP/RTP协议。 10)编码器必须支持对节目号及其视频音频PID进行调整 11)编码器支持GOP结构(I,IBP,IBBP)的调整,GOP长度可调,支持自适应GOP长度,open GOP和closed GOP可选。 12)音频采样率支持48KHz,音频码率64K至384K可调。 13)编码器应支持对输入视频的预处理,包括滤波、降噪等功能(如需要单独授权,请注明)。 14)编码器应支持SNMP协议,有以太网网管接口,并免费提供设备的SNMP MIB库。*3.14 编 码器输入-输出可灵活联接设置,同一输入内容可同时编码输出多种(多屏)码流(频道): 可变分辨率、帧频、和带宽。 15)投标人须承诺免费提供今后的软件升级服务。 16)接口配置:ASI输出,IP输出,百兆以太网管理口。 17)单机MTBF不低于74000小时。 18)向下兼容标清 19)双电源冗余

视频处理技术

S3 视频处理 S1.1 视频基础知识 视频信息是连续变化的影像,通常是指实际场景的动态演示,例如电影、电视、摄像资料等。视频信息带有同期音频,画面信息量大,表现的场景复杂,通常采用专门的软件对其进行加工和处理。 S3.1.1 视频设备 常用的视频设备主要有采集卡(用于采集模拟信号)、1394卡(用于采集数字视频信号)、DVD/CD 刻录机(存储视频)。 S3.1.2 视频格式 1、AVI AVI的英文全称为Audio Video Interleaved,即音频视频交错格式。它于1992年被Microsoft 公司推出,随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”,就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大,而且更加糟糕的是压缩标准不统一,最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频,而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频,所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放,但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题,如果用户在进行AVI格式的视频播放时遇到了这些问题,可以通过下载相应的解码器来解决。 DV-AVI格式:DV的英文全称是Digital Video Format,是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑,也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi,所以也叫DV-AVI格式。 2、MPEG MPEG-1制定于1992年,为工业级标准而设计,可适用于不同带宽的设备,如CD-ROM、Video-CD、CD-i。它可针对SIF标准分辨率(对于NTSC制为352X240;对于PAL制为352X288)的图象进行压缩,传输速率为1.5Mbits/sec,每秒播放30帧,具有CD(指激光唱盘)音质,质量级别基本与VHS相当。MPEG的编码速率最高可达4-5Mbits/sec,但随着速率的提高,其解码后的图象质量有所降低。 MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2所能提供的传输率在3-10Mbits/sec间,其在NTSC制式下的分辨率可达720X486,MPEG-2也可提供并能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。 MPEG-4标准主要应用于视像电话(videophone),视像电子邮件(VideoEmail)和电子新闻(Electronicnews)等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率176X144。 MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图象质量。与MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互AV服务以及远程监控。

网络视频解码器使用手册

网络视频解码器使 用手册 1 2020年4月19日

网络视频解码器 使用手册 尊敬的用户,非常感谢您一直对我公司的产品的关注,假如您在使用过程中按照使用手册无法解决问题时,请致电我公司技术部垂询相关操作方法。本手册的内容将做不定期的更新,恕不另行通知。

目录 1 引言.......................................................................... 错误!未定义书签。 1.1 编写目的 .......................................................... 错误!未定义书签。 1.2 使用范围 .......................................................... 错误!未定义书签。 2 产品介绍 .................................................................. 错误!未定义书签。 2.1 产品简介 .......................................................... 错误!未定义书签。 2.2 产品技术规格 .................................................. 错误!未定义书签。 3 设备说明 .................................................................. 错误!未定义书签。 3.1 运行环境 .......................................................... 错误!未定义书签。 3.2 支持解码设备 .................................................. 错误!未定义书签。 4 产品使用 .................................................................. 错误!未定义书签。 4.1 装箱清单 .......................................................... 错误!未定义书签。 4.2 产品安装注意事项........................................... 错误!未定义书签。 4.3 连接示意图 ...................................................... 错误!未定义书签。 4.4 设置解码器 ...................................................... 错误!未定义书签。 4.4.1搜索解码器............................................... 错误!未定义书签。 4.4.2添加解码器............................................... 错误!未定义书签。 4.4.3解码器参数设置 ....................................... 错误!未定义书签。 4.4.4设备列表设置........................................... 错误!未定义书签。 4.4.5系统参数配置........................................... 错误!未定义书签。 4.4.6轮巡设置 .................................................. 错误!未定义书签。

视频编解码芯片

芯片厂商如何改变视频监控行业() 随着中国安防市场近年来的迅速增长,芯片市场也随之得到了强劲发展。安防行业的需求逐渐明确,芯片厂家开始关注并主动去推广安防这个潜力巨大的市场。安防行业的发展吸引了越来越多的芯片厂商加入,成为继工业自动化、消费电子、电话机等领域之后一个新的利润角逐场。 然而,表象背后,是否会续写电脑行业的悲哀,频频受制于英特尔?“狼来了”的口号是否会在安防行业响起?值得我们欣慰的是,安防行业产品种类繁多,应用情况又各不相同,这也就决定了芯片厂商还没有能力“一手遮天”。 未来,将会有越来越多的芯片厂商将目光投向芯片,致力于提高集成度,引入先进工艺,降低系统成本,改善系统性能以增强市场竞争力。为下游用户带来更多价值,从而推动产业向更深、更广的范围发展。 目前,中国已成为全球最大的安防市场。中国安防产值从十年前两百多亿元增长到目前的两千亿元,安防各类产品、系统、解决方案的应用层出不穷,安防市场出现难得的“百花齐放”的景象。然而,繁华背后却隐藏着些许担忧。核心技术的缺失,阻碍了中国安防技术源动力的蓬勃发展,成为中国安防市场向高端科技领域进军的掣肘。那么,是谁在禁锢着安防技术?谁又在影响和改变着安防呢?毋庸置疑,芯片决定着安防技术的级别。 随着“平安城市”、“北京奥运”等重大项目的带动,中国视频监控市场呈现迅猛发展的态势,以年均的速度傲视整个安防市场。视频监控市场需求的不断增长,除了引起安防监控设备厂商的关注,同样也引起了视频监控核心器件——芯片生产商的广泛关注。作为安防产品的上游核心客户,芯片厂商“跺一跺脚”就会直接影响着安防设备生产商们的生死存亡。、、、等一大批国际半导体企业将目光投向中国安防市场,量身打造一些符合中国安防市场使用的芯片,对推动中国安防市场的蓬勃发展起到了一定积极的作用。另外,像中国台湾和中国大陆的一些芯片商也纷纷拿出“看家本领”,进一步推动了中国安防市场的发展。海思、中星微、升迈、映佳等纷纷涉足视频监控处理芯片领域。 芯片厂商发力视频监控市场 年,恩智浦芯片在中国推广并得到应用之后,年,推出通用数字媒体处理器,正式进军中国数字视频监控领域。年左右,海思作为全球率先推出监控专用芯片的半导体公司,在綷历了三年多的调研和研发之后,进入到大家的视野之中。几乎在同一时间,台湾升迈开始整合,兼容和及多项外围,为数字监控量身打造视频编解码芯片。 基于国内蓬勃发展的监控形势,海思自年在全球推出首款针对安防应用的开始,至今已綷发展到了第三代芯片,已成为国内领先的视频监控解决方案供应商。海思半导体有限公司成立于年月,前身是建于年的华为集成电路设计中心。作为领先的本土芯片提供商,海思的产品线覆盖无线网络、固定网络、数字媒体等领域的芯片及解决方案,并成功应用于全球多个国家和地区。 在中国芯片业发展的历史上,有这样一家公司为历史所铭记,它的名字叫“中星微电子有限公司”。这家承担了国家战略项目——“星光中国芯工程”的企业,致力于数字多媒体芯片的开发、设计和产业化。中星微电子从年开始投入视频监控系统的研发和设计,在网络摄像机专用芯片、终端以及运营级网络视频监控平台等方面持续投入,并取得了一系列的成果。目前,中星微依靠多媒体芯片、视频编解码、智能、网络产品开发的技术积累,提供多媒体处理芯片、高清网络摄像机、硬件视频智能分析终端、视频监控统一媒体平台四大视频监控组件,并在此基础上提供视频监控应用解决方案。 有专家指出,安防用的芯片具有几个显著特点:一是长时间不间断工作,二是多视频的集中管理,三是视频信息的安全和稳定性要求,四是视频的实时传输和存储要求。这些特点

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

数字视频编解码 2012 试题1

2011第一学期 数字视频编解码试题 (研究生) 1、在数字视频编码过程中,运动补偿是预测编解码的基本形式之一,请阐述其基本理论及其重要性。 运动补偿是一种描述相邻帧(相邻在这里表示在编码关系上相邻,在播放顺序上两帧未必相邻)差别的方法,具体来说是描述前面一帧(相邻在这里表示在编码关系上的前面,在播放顺序上未必在当前帧前面)的每个小块怎样移动到当前帧中的某个位置去。这种方法经常被视频压缩/视频编解码器用来减少视频序列中的空域冗余。一个视频序列包含一定数量的图片--通常称为帧。相邻的图片通常很相似,也就是说,包含了很多冗余。使用运动补偿的目的是通过消除这种冗余,来提高压缩比。 2、请阐述一般数字视频信号的DCT 变换编码的步骤及其重要特点。 数字图像信号的DCT 变换编码过程为:将图像N ×N 的图像矩阵X 变换成N ×N 的系数矩阵Y 。变换过程可以用变换矩阵A 来描述。 N ×N 矩阵的DCT 变换如下: T Y AXA = N ×N 矩阵的IDCT 变换如下:T X A YA = 其中A 为N ×N 转换矩阵,A 中的各个元素为: (21) cos ( > 0)2ij i j i A C i N π += 其中0>0), i C i C 然后对变换后的系数进行量化,量化通过降低整数精度,以减少存储位数,增加0系数数目,从而达到数据压缩目的。然后进行重排序,把非零系数集中在一起,使剩下的零系数能被更加有效的编码。然后进行熵编码,将描述视频流的一串符号编码成适于传输的压缩比特流。从而获得高效压缩结果。 3、试比较Huffman 编码与算术编码的异同点。 相同点:霍夫曼编码和算术编码都是是根据出现的概率将输入的符号映射编码成一系列码字。不同点:霍夫曼编码是把每一个输入符号映射为一个码字,而算术编码是将一系列数据符号映射为一个单独的小数,所以霍曼编码每一个符号的映射码字必须是整数个比特,而算术编码每个传输符号不需要被编码成整数比特。因此算术编码的编码性能优于霍夫曼编码。 4、如何理解MPEG-4视频编码的“分档次和等级”? MPGE-4的功能内容非常繁多而且详细,包含低质的编码和高质的编码,还包括各种视频对象的编码等等,这些功 能全部在编码器中实现是非常困难的,而且通常是不必要的。为了使用不同的应用场合,MPEG-4进行了“分档次和等级”,对不同的画面质量的编码方式做了详细的分类,对不同档次做了标准,从而是编码器在不同性能的处理器和不同的应用目标上都可以实现通用性。 5、设某时刻的一块图像亮度抽样信号值为f (x ,y )8×8,采用Z 形扫描和变字长编码(可以借 助于任意的计算工具如C 语言或MA TABL 工具等,但要求答卷中带源程序) 139 144 149 153 155 155 155 155 144 151 153 156 159 156 156 156 150 155 160 163 158 156 156 156 f (x ,y )8×8= 159 161 162 160 160 159 159 159 159 160 161 162 162 155 155 155 161 161 161 161 160 157 157 157 162 162 161 163 162 157 157 157 162 162 161 161 163 159 158 158 (1)求出该块亮度信号的离散余弦变换(DCT )矩阵表达式。 (2)若采用Q coeff =roungd(coeff/Q step )的量化器,其中量化步长Q step =16。求出其量化(Q ) 后的矩阵表达式。 (3)如果上一帧亮度信号的直流值为25,根据所得的量化矩阵表方式,写出该帧亮度信号

音视频技术方案

电影院音视频系统 技术方案 启拓电子(中国)有限公司全国热线电话:400 1818 026

一、概述 1、引言 数字电影指的是从电影制作工艺、制作方式、到发行及传播方式上均全面数字化。与传统电影相比,数字电影最大的区别是不再以胶片为载体,以拷贝为发行方式,而是以数字文件形式发行或通过网络、卫星直接传送到影院。数字化播映是由高亮度、高清晰度、高反差的电子放映机依托宽带数字存储、传输技术实现的。 2、发展状况 电影院是为观众放映电影的场所。电影在产生初期,是在咖啡厅、茶馆等场所放映的。随着电影的进步与发展,出现了专门为放映电影而建造的电影院。电影的发展——从无声到有声乃至立体声,从黑白片到彩色片,从普通银幕到宽银幕乃至穹幕、环幕,使电影院的形体、尺寸、比例和声学技术都发生了很大变化。电影院必须满足电影放映的工艺要求,得到应有的良好视觉和听觉效果。 电影的历史已有百年之久.它的每一次进步都缘于科技的推动,数字技术进入电影产业.是电影继无声变有声,黑白变彩色之后的第三次革命性改进,数字技术的介入,将使电影从制作到表现手法、运作方式、发行方式、播映方式都发生革命性的变化。 电影业在长期发展中形成了全球统一的标准,一部影片可以在全球任何影院放映。数字影院发展初期,由于没有标准,各系统不能兼容,阻碍了数字影院成规模发展。在建立统一的数字影院标准的呼声

下, 2002年4月,好莱坞七大电影制作公司宣布成立名为DCI (Digital Cinema Initiatives, LLC)的组织来共同制定数字电影技术的标准,并鼓励电影院采用数字式放映设备。 2005年7月DCI 《数字影院系统规范1.0》发布,全球数字影院标准取得了突破性的发展。之后,SMPTE DC28 (美国电影电视工程师协会、数字影院技术标准委员会) 以DCI规范为基础,研究和制定数字影院行业标准,迄今为止,超过50%的数字影院标准已经发布。 3、电影在中国的发展 在国家和政府的大力支持下,2002年2月中国开始了发展影院的进程。目前,我国已建成60多家2K数字影院,成为世界上数字电影发展最快的国家之一。并发行了《天上草原》、《星战前传Ⅰ》、《哈利波特》、《海底总动员》《太行山上》、《蜘蛛侠III》等十几部数字电影。2002年中国电影科学技术研究所起草、制定了《电影技术要求(暂行)》,由国家广电总局颁布,实施。目前,电影科研所还密切追踪国外标准制定组织的进展,参考各项国际规范并结合我国现状及市场需求对已颁布的《电影技术要求(暂行)》进行修改。在城市影院的发展中,将建立与国际接轨的电影标准。 二、需求分析 目前,越来越多的消费者希望着电影院能给观众带来的更直接逼真视觉传达和舒适身临其境的听觉冲击,从1996年以来,出现了利用双音箱音响系统来产生虚拟环绕声的虚拟环绕声技术。虚拟环绕声主要原理是基于人的“双耳效应”原理和“耳廓效应”原理。它是一种利

高清解码器:解决了全数字高清上电视墙的问题

高清解码器:解决了全数字高清上电视墙的问题 在安防行业视频监控领域,基于IP的网络视频监控系统发展势头迅猛,市场越做越大,许多知名传统模拟视频监控厂商,甚至是以前非安防领域如通信行业的厂商也都推出了自己的IP视频监控产品及解决方案。网络视频监控发展到今天,其技术已经成熟,成本也大幅下降,尤其是最近两年高清网络视频监控的出现,被越来越多的用户所接受。 现在市场上有些方案采用基于PC多显示卡实现电视墙功能,但这种解决方案由诸多问题: 1、基本采用的是“软解”的方式来实现,是通过软件来完成复杂的H.264编解码 算法,视频不流畅、清晰度明显下降,达不到全高清的现实效果; 2、可靠性低,很难保证在7x24小时环境下长时间、不间断运行; 3、由于基本采用Windows系统,极易受到病毒攻击; 4、日常维护比较复杂、繁琐; 灵歌网络的嵌入式网络高清解码器HDD1218的出现,彻底解决了全数字高清监控系统上电视墙的困扰。HDD1218是一款针对全数字高清上电视墙而专门研发的产品,适合大中型规模高清网络视频集中监控系统。HDD1218拥有分组轮巡,网络自动监测、多屏输出、多接口同时输出、远程录像回放等功能。具体功能特性如下: ● 嵌入式Linux设计和专用编解码芯片 专用的编解码芯片,保证了低延迟、画面流畅、色彩逼真的显示效果;最高支持2路1080p 15M bps视频流的同时解码 ● 兼容多种型号的网络摄像机 支持包括国外主流品牌Sony, Panasonic, Axis, Arecont, Pelco, CNB等,以及国内一些知名厂商的网络摄像机。 ● 支持多种视频接口同时输出 包括HDMI ,DVI,Component(分量),CVBS,输出格式包括1080p,720p,D1等。 ● Web远程控制 用户无需在PC上安装任何控制软件,通过Web浏览器来完成所有远程控制 ● 支持向上、向下的双向倍频显示 既可以解码1080p的高清网络摄像机在传统的模拟显示器上显示D1画面;也可以解码D1分辨率的网络摄像机在高清显示器上显示1080p效果。

(完整)流媒体传输协议及音视频编解码技术

1.1音视频编解码技术 1.1.1 MPEG4 MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。 目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现,MPEG3只能是死于襁褓了。MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1、MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV 对象是MPEG4标准的基本内容。 在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。 由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高清晰度的DVD电影, 可以压缩成两张甚至一张650M CD光碟来存储。对广大的“平民”计算机用户来说,这就意味着, 您不需要购置DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片,对机器硬件配置的要求非常之低,300MHZ 以上CPU,64M的内存和一个8M显存的显卡就可以流畅的播放。在播放软件方面,它要求也非常宽松,你只需要安装一个500K左右的MPEG4 编码驱动后,用WINDOWS 自带的媒体播放器就可以流畅的播放了 AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的音视频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互性的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。 MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用 1.1.2 H264 H.264是由ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)联合组建的联合视频组(JVT:joint video team)提出的一个新的数字视频编码标准,

完美解码-教你如何调整视频播放器看1080P

在经理了无数磨难之后,我终于再次鼓起勇气来写kmp对应高清播放的文章。 希望这次写完之后赞的多骂偶的少…… kmp很多时候不同问题需要不同的对待方法,我不可能面面俱到,这里只是粗浅的带着大家入一下门,大家可以根据这些提示以及方法来自己研究合适自己的配置方案,好了,牢骚到此位置,进入正题。 kmplayer对应高清调试教程开始: 预先准备工作: 1.kmplayer 下载地址:https://www.360docs.net/doc/ca3188302.html,/html_2/1/124/id=10344&pn=0.html 2.终极解码(这里解释一下为什么需要终极解码,考虑到很多新手用户找不到各种解码器,所以下载一个终极解码作为解码器合集来提供给kmp解码器)【达人绕行这步,请自行下载自己需要的解码器】 下载地址: https://www.360docs.net/doc/ca3188302.html,/multimedia/media/detail-10544.html 3.准备电脑一台,操作系统一个,鼠标,键盘各一个,电源接入……(表打我- -) 安装工作: xp下无悬念,一路默认,所有的设置都不用考虑,全默认调整即可,我们会有后续调整。 win7用户,请注意安装终极解码的时候,一定要点击右键,选择使用管理员权限进行安装。这样可以确保解码器都正确的安装到系统(vista同win7)【关掉了UAC的用户可以同xp一样全默认】 ps:这里一定要注意,先装终极解码,再装kmp,两个都要装。 进入调试工作: 再次重申,要看文字,不要光看图,为了坑害只看图不看文字的人,我下了无数陷阱的说…… 1.终极解码调整解码中心。

解码中心按照下图所示调整。 这里解释一下为什么要选择为wmplayer这个播放器,首先wmp是微软自己的播放器,配合htpc以及遥控器看电影比较舒服,其次,这个播放器因为是微软自己出的,所以基本上没有什么报错的问题,这样我们把终极解码的解码方案指定给wmp可以说是让我们平时不用的播放器有所作为。 ps:不管你是xp还是vista win7,请确保你的wmp版本为windows mediaplayer 11.我们需要他内置的解码器以及漂亮的外观。(漂亮的外观比它的解码器重要……嘿嘿) ps2:终极解码的优先级别比kmp要高,如果你将这里指定为kmp,那么等一会不管你kmp做什么设置,都会受到终极解码的影响,从而发生一些诡异的问题……所以一定要记住,这里不能选择kmp,至于你喜欢其他的啥随便选也行。 进入kmp的调试:

4路8路视频网络解码器使用说明书

网络视频解码器用户手册 说 明 书

通知;更新的内容将会在本手册新版本中加入。我们随时会改进或更新本手册中描述的产品或程序。 目录 简介 (2) 参数: (3) 外观 (4) 操作 (7) NVS Matrix解码器控制软件简介 (7)

安装NVS Matrix (7) 启动NVS Matrix (9) 顶部菜单栏 (10) 文件选项 (10) 操作选项 (10) 解码器选项 (10) 工具选项 (11) 帮助选项 (11) 分配摄像头 (12) 解码器参数设置 (15) 报警参数设置 (15) 虚拟键盘 (17) 透明串口 (17) 搜索解码器 (18) NVS Matrix主界面操作说明 (20) 网络嵌入式解码器软件升级 (22) 问题解答 (24) 简介 非常感谢您购买我公司的产品。我们将向您提供最好的服务! 随着计算机技术和信息网络技术的发展,安防监控技术也正在向数字化、网络化的方向发展。数字化、网络化的监控系统已经步入了全数字时代,彻底打破"闭路电视监控系统"模拟方式的结构,从根本上改变了视频监控系统从信息采集、传输处理、系统控制的方式和结构形式。 由公司自主开发的的网络视频嵌入式解码器是网络产品中的一个系列。其主要功能是将经过网络传输的9000系列和网络视频视频服务器的音视频编码数据还原成模拟的AV信号,显示在监视器上。适用于大中型监视系统的控制中心。

产品功能: ?采用嵌入式设计,产品体积小,集成度高,便于组网 ?可还原网络视频服务器及网络摄像机输出的音视频编码信号; ?具有两路独立的音视频输出通道,同时输出两路音视频信号,可应用于多种流行的矩阵主机 中; ?具有一路音频输出接口,可实现与前段视频服务器对讲; ?每个视频通道可以显示4个不同的IP地址,实现在一个监视器上多画面显示; ?具有4路报警输出接口,响应前端视频服务器发回的报警信息; ?配套NVS Matrix控制软件,可实现系统设置和对前端摄像机的控制。 ?支持完全透明的RS232和RS485接口 参数:

视频编解码和流媒体协议.

RTP 参考文档 RFC3550/RFC3551 Real-time Transport Protocol)是用于Internet上针对多媒体数据流的一种传输层协议。RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。RTP协议常用于流媒体系统(配合RTCP协议),视频会议和一键通(Push to Talk)系统(配合H.323或SIP),使它成为IP电话产业的技术基础。RTP协议和RTP控制协议RTCP一起使用,而且它是建立在UDP协议上的。 RTP 本身并没有提供按时发送机制或其它服务质量(QoS)保证,它依赖于低层服务去实现这一过程。 RTP 并不保证传送或防止无序传送,也不确定底层网络的可靠性。 RTP 实行有序传送, RTP 中的序列号允许接收方重组发送方的包序列,同时序列号也能用于决定适当的包位置,例如:在视频解码中,就不需要顺序解码。 RTP 由两个紧密链接部分组成: RTP ―传送具有实时属性的数据;RTP 控制协议(RTCP)―监控服务质量并传送正在进行的会话参与者的相关信息。 RTCP 实时传输控制协议(Real-time Transport Control Protocol或RTP Control Protocol或简写RTCP)是实时传输协议(RTP)的一个姐妹协议。RTCP为RTP媒体流提供信道外(out-of-band)控制。RTCP本身并不传输数据,但和RTP一起协作将多媒体数据打包和发送。RTCP定期在流多媒体会话参加者之间传输控制数据。RTCP的主要功能是为RTP 所提供的服务质量(Quality of Service)提供反馈。 RTCP收集相关媒体连接的统计信息,例如:传输字节数,传输分组数,丢失分组数,jitter,单向和双向网络延迟等等。网络应用程序可以利用RTCP所提供的信息试图提高服务质量,比如限制信息流量或改用压缩比较小的编解码器。RTCP本身不提供数据加密或身份认证。SRTCP可以用于此类用途。 SRTP & SRTCP 参考文档 RFC3711 安全实时传输协议(Secure Real-time Transport Protocol或SRTP)是在实时传输协议(Real-time Transport Protocol或RTP)基础上所定义的一个协议,旨在为单播和多播应用程序中的实时传输协议的数据提供加密、消息认证、完整性保证和重放保护。它是由David Oran(思科)和Rolf Blom(爱立信)开发的,并最早由IETF于2004年3 月作为RFC3711发布。

数字音视频编解码技术标准工作组知识产权政策

数字音视频编解码技术标准工作组知识产权政策

————————————————————————————————作者:————————————————————————————————日期:

数字音视频编解码技术标准工作组知识产权政策 (2004年9月12日第十次工作会议通过实施) (2008年3月29日第二十四次工作会议修订) 第一章、总则 第一条本知识产权政策文件(“知识产权政策”)规定了中国数字音视频编解码技术标准工作组(“工作组”)的与制订A VS技术标准的整个过程及其所产生的标准文 档相关的知识产权的管理规则。 第二条通过签署A VS会员协议,会员书面承诺该会员及其关联者及其工作组成员同意并遵守本知识产权政策的条款。 第三条本知识产权政策是A VS会员协议的必要组成部分,并通过引用纳入会员协议。 第二章、定义 第四条对于在本知识产权政策中使用并且在A VS章程、A VS会员协议和A VS章程细则中已有定义的词语,其含义应遵从有关文件中的定义。以下词语在本知识产 权政策中定义为以下含义: 1、“符合部分”仅指有关产品或服务中实施并符合最终A VS 标准的所有相关规范性要求的特定部分,这些规范性要求应当 在最终A VS标准中明确公开,并且其目的是为了使产品或服 务能够实现该最终AVS标准所定义的解码、编码、发送数字 媒体或识别和实施权利管理。 2、“必要权利要求”是指根据授权或公布专利的所在国法律, 被最终A VS标准的符合部分不可避免地侵权的该专利中的某 一权利要求,且仅限于该权利要求。 专利的某一权利要求被不可避免地侵权,是指该侵权不可能在 实施最终A VS标准时通过采用另一个技术上可行的不侵权的 实施方式予以避免。 必要权利要求不包括,并且许可也不适用于:(1)不符合上文 规定的其他权利要求,即使该权利要求包含在同一件专利中; (2)在最终的A VS标准文档中引用或以参考方式包括在内的 其他标准中涉及的权利要求;(3)制造或使用符合最终AVS 标准文档的任何产品、服务及其部分时可能必要,但没有明确 地在该标准文档中描述的实现技术。 3、“专利”是指许可方或其关联者拥有的或者在无需向非关联 第三方付费的情况下有权许可的,在任何国家授权的任何专 利、可执行的发明证书、授权的实用新型、或公布提请异议的 任何可执行的专利申请或实用新型申请,但不包括外观设计专 利和外观设计登记。 4、“规范性参考文件”是指并非由工作组制定而是通过引用包

高清嵌入式视频编解码器 高清数字视频传输编码器

高清嵌入式视频编解码器高清数字视频传输编码器 ——虹图高清嵌入式编解码器TMV-HV1001 虹图高清嵌入式编解码器TMV-HV1001是北京图美视讯虹图系列视频编码器产品中的一员。本产品是针对较大规模的专业级数字视频系统应用而设计的专业设备,用于解决视频一级低速率数据的编解码、复用以及网络传输。具有功耗低、数据处理能力强、接口丰富等优点,很好地满足了实时系统控制、工业自动化、实时数据采集、军事系统等有严格要求,并且可靠性要求高的重要设备的需求。 【产品优势】 ? 支持全高清视频实时编解码; ? 嵌入式构架; ? 支持2 路VGA输入、2路VGA输出接口; ? 支持2 路HDMI 高清输入、2路HDMI输出接口; ? USB2.0 接口,可插入U盘用于临时视频码流存储; ? SATA接口,用于本地视频存储,适合DVR场合使用; ? 视频编码支持MPEG4-10 AVC Base line,最高1080P 60帧/秒; ? 双路千兆以太网音视频传输; ? 友好的操作界面和便于操作的菜单系统。 【产品规格】 视频输入:2 路VGA接口,2路HDMI接口 视频输出:2路VGA接口,2路HDMI接口 其他接口:1个USB2.0接口,1个SATA接口 网络接口:2 路千兆以太网 机箱:采用标准1U机箱 电源:AC220V

环境:温度:0℃~70℃湿度:85%RH 以下 外形尺寸:480×360×44(宽×深×高(mm)) 【应用领域】 可以广泛应用在通讯、网络,适合实时系统控制、产业自动化、实时数据采集、军事系统等需要高速运算的领域,也适用于智能交通、航空航天、医疗器械、水利等模块化及高的可靠度、可长期使用的应用领域。此外还适合课堂录播系统、医疗系统、雷达系统等仪器视频记录系统。 各种有线、无线网络环境的视频通讯传输应用。

相关文档
最新文档