多媒体通信中的音视频同步问题研究与实现

多媒体通信中的音视频同步问题研究与实现

刘可钊[1]2007年在《多媒体通信中的音视频同步问题研究》文中研究指明近年来,宽带通信技术的发展,大大促进了多媒体通信技术的发展。多媒体应用与传统数据应用相比,集成了各种不同性质的媒体,这些媒体数据必须以一种同步的方式展现给用户。如何正确的恢复这些媒体的同步关系,即多媒体的同步,也就成为多媒体通信中的关健技术之一,引起了学术界的广泛关注。本文针对存储连续媒体的同步问题进行了研究,并且运用到CG制作环境EDL播放中,主要的研究内容如下:1.基于接收端缓冲动态阈值的媒体同步反馈控制算法的研究。通过动态调整目标上界UTB(upper target boundary),目标下界LTB(lower target boundary)的值,补偿时延抖动和网络异常,以动态地适应网络的不稳定状态,经过一定的平滑处理,尽量减少发送端的调整力度。2.根据EDL播放的实际需求,对RTP/RTCP协议的同步控制进行研究。从底层协议出发,对媒体流的传输播放进行控制,在RTP/RTCP标准帧的基础上修改简化,设计了精简的RTP/RTCP帧,并应用于EDL播放。3.CG(Computer Graphics)制作故事版浏览器——EDL(Edit Decision Lists)多媒体播放器的设计与实现。实现了客户端以及服务器端的软件设计,首先描述了本地媒体播放器的具体实现,然后又分析了网络媒体播放器的DirectShow设计。

王少燕[2]2003年在《多媒体通信中的音视频同步问题研究与实现》文中指出媒体同步是多媒体通信中一个特殊的也是极为重要的QoS(服务质量),作为多媒体通信中的一项关键技术,多媒体同步已经引起了学术界的广泛关注。本文主要研究多媒体通信中音视频媒体的同步问题。首先,介绍了多媒体通信的媒体同步问题;然后,比较了FIFO模型和语音优先模型下音视频媒体间的同步,并且通过对音视频媒体单元排队时延偏移的理论推导和实验分析,提出了一种新的H.323终端音视频复用模型;接着,根据不同的最大分段长度(MFS)对视频数据打包,分析其对音频分组和视频分组的时延抖动影响;最后,提出了一种多媒体通信中音视频同步方案,包括多媒体数据在信源端的同步发送和在信宿端的同步播放等。实验结果表明,本文提出的音视频同步方案能够有效地实现多媒体实时同步通信,并已在实际产品中得到应用。

李晓妮[3]2012年在《面向H.264的嵌入式音视频同步编码技术研究》文中研究说明随着信息技术和计算机技术的快速发展,人们的通信方式已经从传统的单一媒体过渡到语音、文字、图像、视频等相融合的多媒体通信方式。多媒体通信技术是通信技术和多媒体技术有机结合的产物,它集计算机的交互性,多媒体的复合性以及通信网的分布性于一体,打破了传统媒体通信方式的单一性,向人们提供综合的信息服务,并成为通信技术今后发展的主要方向之一。在多媒体通信过程中,多媒体数据在传输、分组、交换等过程中不可避免的会引入信号的延时、抖动,导致媒体间应有的相互关系发生变化。对于那些经过压缩编码的多媒体数据,或者经过不同渠道汇聚到同一点的多媒体数据而言,这种情况更为严重。因此,多媒体通信技术一个很重要的问题就是如何保持各个媒体之间的同步关系。近年来,多媒体同步技术作为多媒体通信中一个极为重要的服务质量问题,越来越受到关注。对于音视频流的多媒体而言,同步系统主要包括五个部分:数据采集、压缩编码、网络传输、解码恢复以及同步播放。音视频同步主要研究在数据采集、发送、传输和接收等过程中对音频信号和视频信号进行同步控制,最终目的是实现客户端音视频的同步播放。目前,音视频同步主要通过时间标签来实现。时间标签是以理想解码器为基础制定的,这个理想解码器假设了通道缓存永不上溢或下溢,对码流的处理也是理想的、瞬时的,然而对一个实际的解码器来说这种理想解码是难以实现的;在国际上,也提出了唇同步的算法,但是只适用于解决视频会议、可视电话等应用中的音视频同步问题,而且这个算法实现起来比较复杂,对嘴部的定位不能自动实现,需要人工参与。为了解决这个长期困扰多媒体通信的关键问题,以陈贺新教授为核心的课题组提出了嵌入式音视频同步编码理论,并对其不断的丰富和发展,取得了显着的成就。在音视频同步控制部分,将音频信号作为隐藏信息嵌入视频流中,然后对嵌入了音频的混合音视频流进行压缩编码,在解码端,根据嵌入算法提取出音频信号。嵌入式同步编码理论在取得了较好压缩编码效果的情况下实现了音视频信号的完全同步传输,并克服了由于信道延时以及音视频不统一编码所带来的接收端接收不同步问题。本研究小组前期已成功的将嵌入式音视频同步编码理论应用到MPEG-2视频标准中,本文在这个基础上研究H.264/AVC视频编码标准下嵌入式音视频同步编码技术。本文以国家自然科学基金国际合作项目“基于音频嵌入视频方式同步视频编码的普适计算”和吉林省自然科学基金项目“普适环境下基于机会模型的信任计算”为依托,详细阐述了音视频同步的核心技术,对目前常用的同步方案进行了对比分析,并对H.264/AVC视频编码标准的核心技术和重要模块进行了系统的、全面的分析研究,为在H.264/AVC视频编码标准下构建音视频同步编码理论奠定了基础。本文通过分析帧内/帧间预测编码、CAVLC(context-adaptive variable-lengthcoding,基于上下文自适应可变长编码)熵编码以及运动估计等H.264/AVC标准中的核心模块,提出了不同的嵌入式音视频同步编码方案。根据嵌入模块的不同可以将同步编码方案分为以下叁种:(1)基于模式选择的音视频同步编码方案帧内/帧间预测编码是H.264/AVC视频编码标准中非常重要的一部分,每种编码都包括多种编码模式,而模式选择又是编码过程的核心问题。本文通过分析帧内/帧间预测编码中模式选择算法,利用帧间预测编码模式的多样性,提出了两种基于信息隐藏的嵌入式音视频同步编码方案。把音频信号作为隐藏信息嵌入视频流中,实现了音视频的同步编码,达到了同步传输的目的。这两种音视频同步编码方案,都是利用帧间预测编码模式的多样性,使不同的编码模式携带不同的音频信息,通过对帧间预测编码模式的选择将音频信息嵌入视频流中。这两种方案均能实现音视频的同步编码和解码。在第一种同步方案中,根据要嵌入的音频信息选择最优编码模式,但是这样选出来的编码模式可能不是实际的最优模式,所以会带来一定的嵌入开销,增加一定的编码比特率。在第二种同步方案中,改进了方案一中只利用音频信息选择编码模式,方案先将编码模式进行分组,根据音频信息确定编码模式组,然后利用率失真优化算法从中选出最优编码模式,这样选出来的编码模式更接近于实际的最优模式,对视频质量、嵌入开销以及编码比特率的影响更小。(2)基于CAVLC的音视频同步编码方案本文利用拖尾系数和除了拖尾系数之外的最后一个非零系数,提出了两种基于CAVLC的音视频同步编码方案。在第一种方案中,通过分析CAVLC熵编码中拖尾系数符号位的编码特点,提出基于拖尾系数的嵌入法。由于拖尾系数符号位是定长编码,而且拖尾系数处于整个4×4数据块的高频部分,通过修改拖尾系数的符号位嵌入音频,既不会增加编码比特率,又不会对视频质量造成严重影响。在第二种方案中,利用除了拖尾系数之外的最后一个非零系数进行音频嵌入,由于嵌入算法对非零系数的幅值改变量最大为±1,所以对视频质量和编码比特率影响都较小。(3)基于运动估计的音视频同步编码方案本文分析了1/4像素精度运动估计过程,通过实验得出应用不同的1/4像素点搜索最优匹配点对整个运动估计的影响较小,通过调整1/4像素搜索点,提出了基于运动估计的音视频同步编码方案。利用1/4像素搜索点的运动矢量MV的水平分量MVx和垂直分量MVy的奇偶性,先将1/4像素搜索点分成两组,然后根据搜索组选择的不同将音频信息嵌入视频中。实验表明,在对视频码率和质量影响都较小的情况下实现了音视频的同步编码。为了证明方案的可行性,在H.264编码标准参考C代码JM11.0上实现了本文提出的音视频同步编码方案。使用不同的视频序列对上述方案进行了测试,并用视频主观质量、PSNR值、嵌入开销、编码比特率变化等标准对同步结果做了分析。实验结果表明,本文提出的几种同步方案都实现了音视频的同步编码。方案各具优势,对音视频质量、嵌入开销以及编码比特率影响都较小,不会给传输和存储造成负担。

郑学召[4]2013年在《矿井救援无线多媒体通信关键技术研究》文中研究说明矿井应急救援通信装备是矿井救护队抢险救灾过程中不可缺少的设备,但由于煤矿空间、环境条件的制约,在灾区救援过程中最大限度的减少救护队员的携带重量和通讯工作维护量是极为重要的。因此,研究矿井救援无线多媒体通信数据在井下传输过程中的衰减及采集传输方法和设备本质安全特性等关键技术,开发出适合井下应急救援的无线多媒体通信系统,实时、准确地把灾区救援过程中的信息及灾后信息传送到井下救护基地和地面救灾指挥部及各级救援指挥中心,具有重要的现实意义。本论文从矿井灾害发生后井下的特殊环境出发,采用理论分析、依靠西安科技大学矿井安全生产模拟实验巷道和兖矿煤业股份有限责任公司鲍店矿井下巷道进行大量模拟实验和模拟计算相结合的方法,对矿井救援无线多媒体通信进行如下研究:首先,研究矿井救援无线多媒体通信的无线Mesh组网过程中的信号衰减机理和通信频段之间的关系,得出矿井无线多媒体通信在井下不同断面形状巷道、井下拐弯、井下支柱、井下巷道的粗糙度等环境中的无线衰减规律,借鉴地面先进的MIMO技术和OFDM无线技术相结合的方法来控制和减少无线信号的衰减,达到井下无线多媒体通信稳定传输的目的。其次,基于H.264编码的双码流网络视频服务器技术,对井下多媒体信息的进行同步采集技术进行了研究,利用Microsoft VisualC、双码流网络视频服务器配套SDK、微软基础类(MFC)等软件开发工具,开发了具有搜索发现服务器设备地址,红外摄像仪视频监测,视频录像,音频对讲传输,控制信号发送,传感器采集数据显示,报警提示的视音频和环境参数同步采集传输的软件系统。最后,根据井下应急救援过程中的所处的爆炸环境,以GB3836.4-2010爆炸性气体环境用电气设备和电气防爆原理为基础,研究多媒体通信设备电路的本质安全型控制方法和采用先进的保护电路芯片和多重保护电路控制,创造性的提出了通过缩短保护电流关断时间来控制火花能量的方法,将关断时间控制160ns以内,解决了井下救援过程中大容量电池的本质安全型防爆问题。结合以上相关研究,研制了一种具有Mesh组网功能的矿井救援无线多媒体通信系统,提出了矿井救援无线多媒体通信系统的技术指标。并通过现场应急救援实践,验证了矿井应急救援多媒体通信的技术指标,为进一步完善矿井应急救援无线多媒体的关键技术提供研究基础。研究结果可为进一步提升我国矿井应急救援通信的技术水平,为研制出适合矿山救护队员使用的救援多媒体通信装备提供理论指导。

董春兵[5]2007年在《音视频同步的研究与实现》文中研究说明多媒体同步是多媒体通信中一个特殊的也是极为重要的QoS(服务质量)标准,作为多媒体通信中的一项关键技术,多媒体同步已经引起了学术界的广泛关注。本文主要研究了连续媒体中特别是音视频流内和流间同步,重点是信源端和信宿端的同步控制方法的研究,这也是多媒体同步中最基本和重要的技术。本文首先介绍了多媒体同步的国内外研究进展,并对多媒体同步涉及到的相关概念等进行了全面综述。本文分别对信源端和信宿端,媒体内和媒体间的媒体同步控制策略进行了探讨。对连续媒体内,主要针对播放调度器在不同条件下对同步的影响进行了探讨;对媒体间同步,主要是通过对音视频媒体单元排队时延偏移的理论推导,比较了FIFO模型和语音优先模型下音视频媒体间的同步性能。根据研究的结果,本文提出了一种基于实时传输协议RTP/RTCP的音视频同步的综合解决方案。该方案借助实时传输协议RTP/RTCP及时间戳机制,选择音频流为主流,视频流为从流,根据音视频数据帧时间戳的对应关系,通过调整视频播放过程实现音、视频媒体间同步控制,从而达到媒体间同步的效果。实验结果表明,本文提出的同步方案能够有效地实现音视频实时同步通信。

吕小凤[6]2009年在《视频会议系统中音视频同步问题的研究》文中进行了进一步梳理随着科技的高速发展和社会生活水平的逐步提高,人们对通信方式的要求也越来越高,视频会议系统因此应运而生。它能将不同地方的用户联系起来完美的实现远程异地通信。在一次视频会议中,通过屏幕切换,各个会议终端用户利用系统发送音视频信息进行实时交流,同时,还能进行会议文档资料、静态图片的互传。然而,声音数据和会议视频场景信息从一个会议终端发出,到达其他会议终端进行播放的过程中会受到网络环境、编解码器速率等因素的影响,使得播放中出现声音不连续、图像不流畅、声音与视频不匹配等现象,因此,音视频的同步控制成为多媒体通信中的研究热点。在H.262系统中,以往的音视频同步控制需要调整本地时钟,存在一定的弊端。因为系统时钟的调整是同步控制的基础,在调整过程中即使只产生一点点偏差都会对音视频的同步播放产生一定的影响。为了解决这一问题,本文提出了一个新算法,它能够回避本地时钟的调整,把语音序列设置为参考序列,采用将到达接收端的语音流和视频流的播放时间标签调整到统一的时间参考点上的方法来实现音视频流同步播放的目的。论文后续将该算法应用到实际的AnyCom视频会议系统中,并在各个会议终端采用双缓冲队列来接收视频流,从而实现音视频流的流内同步和流间同步。最后通过实验数据验证,使用该算法后音视频的同步性能得到了较大的改善。

姚琴琴[7]2007年在《基于SIP协议的IP组播桌面视频会议系统的研究与设计》文中研究指明随着多媒体技术和网络通信技术的迅速发展,视频会议系统的研究和应用已经成为当今的一个热点。目前大部分的视频会议系统都是基于H.323协议来实现的,虽然协议比较成熟,但是实现复杂,开发成本高、难以扩展,带来应用中灵活性不够。而IETF制定的SIP协议以其简洁、灵活、易于扩展和实现等特点在多媒体通信中得到广泛应用。利用SIP协议构建多媒体会议系统可以方便地实现H.323的各种功能,而且成本较低。由于SIP会议框架还处于草案阶段,并没有成为正式标准,所以对SIP会议框架的研究与实现存在一定的理论和实践意义。目前大部分视频会议系统都需要依赖昂贵的硬件设备,本文将在SIP协议、IP组播技术和RTP协议的基础上利用软件来实现会议多点控制和媒体流的传输,研究了基于SIP协议的IP组播桌面视频会议系统的软件实现方案。本文的主要研究内容和所作的工作如下:首先探讨了视频会议系统相关的协议标准和技术,包括SIP协议、SDP协议和RTP协议以及IP组播技术,在对SIP协议介绍的基础上分析了SIP消息的处理过程,对SDP协议和RTP协议中各字段的具体意义和消息格式进行了分析,并分析了IP组播技术在视频会议应用中的可行性。研究和分析了当前IETF的SIP会议模型,通过对会议模型的研究与比较,选择了集中信令,媒体流分布的会议模型,并在此模型的基础上设计了SIP视频会议系统的体系结构,划分详细的功能模块,并对会议系统中的基本会议功能进行了详细的描述。设计视频会议系统中的SIP信令处理模块,并在NIST-SIP开源协议栈的基础上,利用JAIN SIP技术对SIP信令处理模块中的各功能进行了实现。设计视频会议系统中的音视频传输模块,并利用JMF技术实现了会议终端音视频的采集、编码、发送和接收回放,并对音视频流之间的同步进行了处理。对系统模块的运行结果进行测试和分析。

张洪艳[8]2008年在《基于数字编码的音视频同步技术研究与应用》文中认为随着信道带宽的迅速提升,海量数据传输已成为可能,多媒体通信已渐成主流。因此,解决音视频同步作为多媒体通信、视频点播及会议系统、数字电视等应用中的一项关键技术,已经越来越受到重视。应用基于数字编解码技术标准(Audio Video coding Standard,AVS)的嵌入式音视频同步方法,就是研究将AVS音频数据嵌入AVS视频编码系统,进而使传输、存储、接收端解码、以及播放过程中保证音视频“始终同步”的音频嵌入方法,相应的研究了提取方法,设计了系统整体同步方案。研究以视频标准AVS为平台,在AVS视频语法和语义的基础上,深入分析了编码器和解码端的技术和流程。试验以AVS的rm52cr模型为平台,设计了把音频嵌入视频的同步方案。用不同的编码器配置文件,采用不同的测试序列,分析对于音频嵌入视频所带来的嵌入开销和对视频质量的影响,并与传统的在MPEG-2中使用的同步算法进行性能比较。通过实验结果可以看出,使用AVS的嵌入算法同步后,嵌入带来的系统开销在1%以下,比以往应用在MPEG-2中的开销3%要小得多,而且对于视频的影响也较小,达到了预期目的。

张昕[9]2010年在《多媒体数据流描述模型与传输同步化方法研究》文中研究表明论文大体上由两部分组成:多媒体数据流的描述模型与多媒体数据同步传输的设计与实现两部分。并主要以音频和视频为研究对象实现以上两部分内容的研究。与传统的数据形式相比,多媒体数据信息最值得注意的特点就是空间性和时间性以及描述的多样性。多媒体数据流的描述模型是对多媒体数据对象的结构化集成。每个对象都要具有一个或多个表示时间的区间。在多媒体技术应用密集的领域中,一个非常突出的问题就是如何对多媒体数据流进行描述。问题解决的关键就在于多媒体数据流的表示方法。文章介绍了各个媒体对象的时间和空间坐标的确定方法,并针对这一问题提出了一种多媒体数据流的描述模型。算法主要有两个步骤:先确定每种媒体的时间坐标和空间位置,再确定是否需要切换到某一媒体呈现。论文采用SMIL(同步多媒体集成语言)描述语言,实现多媒体数据流的同步描述。作为多媒体通信技术中的一个关键技术,多媒体同步传输已经成为热点研究的问题。当前,多媒体数据采集、编码及网络传输技术相对较为成熟,这一部分文章讨论的重点在于多媒体同步传输系统的接收端同步控制。为了实现多媒体数据同步传输,论文针对目前存在的几种同步方法进行了对比,提出了多媒体同步传输的设计:结合反馈控制机制,实现没有全网同步时钟的相对时间戳同步控制。同步设计部分分为发送端同步处理和接收端同步处理。其中,发送端同步处理部分由数据采集、数据流时间戳处理及发端码率控制叁个部分组成;接收端同步处理部分的设计主要有缓冲区的设计、反馈检测模块设计等。经过测试,同步设计的实现较为理想。设计采用相对时间戳的方法,所有多媒体单元处于一个相关时标上,相关时间戳就由媒体单元在相关时标上的位置决定。播放时,具有相同时间戳的媒体单元将同时显示,即实现媒体间的同步。在同步设计时,不需要获得精准的时间,只要保证音视频在发送端同步打上时间戳即可,降低了获取同步信息的复杂度以及维持公共时间轴的难度。接收端,以音频为主流,视频为从流,比较音频帧和视频帧的时间戳信息,当发现同步异常情况时,通过对视频的丢帧、重复播放某一帧等处理,实现音视频的同步播放。同时,为了较好的消除时延的影响,在播放端设计了双缓冲机制。此外,为了解决由于发送速率及播放速率失常造成的系统拥塞、数据丢失等问题,系统在设计时引入了反馈调节模块,对码率进行调节。本文重点解决的问题在于多媒体同步设计及实现部分,也是本文的难点。

刘芳[10]2008年在《基于时间轴模型的音视频同步的研究与实现》文中指出随着计算机技术的不断发展以及流媒体的迅速普及,传统的多媒体技术已经很难适应Internet的发展,特别是在当前网络带宽不够的情况下,多媒体的传输和同步问题已成为研究的热点。同步作为多媒体通信中的一项关键技术,由于媒体数据采集、压缩编码、网络传输的相关技术己经相对成熟,本论文将重点阐述接收端同步控制。本文详细分析了目前存在的几种同步方法,深入研究了适应本系统的几种媒体间同步技术,并在此基础上提出了一种没有全网同步时钟的基于反馈控制的相对时间戳同步控制方案,该方案将组成多媒体对象的所有多媒体单元放在一个相关时标上,媒体单元在相关时标上的位置决定了它的相关时间戳,具有相同时间戳的媒体单元被同时显现,以此来达到媒体间的同步,因此该方案只需保证在发送端对音频帧和视频帧打上时间戳的相对同步性,无需采用复杂的手段获取时间戳所对应的精确的时间值,降低了获取时间同步信息的复杂度以及维持公共时间轴的难度,并且在接收端进行回放时,以音频为主流,视频为从流,除了通过比较音频帧和视频帧的时间戳信息,对视频采取丢帧、重复播放某一帧等处理达到与音频同步的目的之外,还实现了系统的自我反馈调节的功能,避免了无反馈调节系统因发送速率及播放速率过快或过慢造成系统负担过重甚至拥塞,以致数据丢失,无法保证回放的音视频质量的现象。本文还完成了基于该方案的软件系统功能的总体设计,以及具体模块的详细实现,给出了部分模块的实现流程图和相关的代码。软件实现总体上分为两大模块:发送端的同步处理模块和接收端的同步处理模块,其中发送端的同步处理模块主要包括音视频的采集、时间戳的处理以及发送码率的控制;接收端的同步处理模块从媒体内同步和媒体间同步两方面进行,主要包括去抖动模块、检测模块、反馈调整模块以及同步播放模块,其中媒体间同步是接收端同步处理的重点以及难点的部分,也是本论文的重点以及难点部分。

参考文献:

[1]. 多媒体通信中的音视频同步问题研究[D]. 刘可钊. 南京理工大学. 2007

[2]. 多媒体通信中的音视频同步问题研究与实现[D]. 王少燕. 西安电子科技大学. 2003

[3]. 面向H.264的嵌入式音视频同步编码技术研究[D]. 李晓妮. 吉林大学. 2012

[4]. 矿井救援无线多媒体通信关键技术研究[D]. 郑学召. 西安科技大学. 2013

[5]. 音视频同步的研究与实现[D]. 董春兵. 吉林大学. 2007

[6]. 视频会议系统中音视频同步问题的研究[D]. 吕小凤. 华中科技大学. 2009

[7]. 基于SIP协议的IP组播桌面视频会议系统的研究与设计[D]. 姚琴琴. 苏州大学. 2007

[8]. 基于数字编码的音视频同步技术研究与应用[D]. 张洪艳. 复旦大学. 2008

[9]. 多媒体数据流描述模型与传输同步化方法研究[D]. 张昕. 长春工业大学. 2010

[10]. 基于时间轴模型的音视频同步的研究与实现[D]. 刘芳. 暨南大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

多媒体通信中的音视频同步问题研究与实现
下载Doc文档

猜你喜欢