运动估值快速匹配算法的研究

运动估值快速匹配算法的研究

刘海峰[1]2002年在《运动估值快速匹配算法的研究》文中研究表明运动估值在视频图像压缩中占有非常重要的地位,如何使运动估值算法的搜索过程更加健壮、快速、高效,成为目前研究的热点。本文重点研究了叁步法(TSS)、四步法(FSS)、二维对数法(TDL)、交叉法(CS)和菱形法(DS)等经典的基于块匹配的运动估值算法;针对它们存在的问题,在人眼视觉系统的启发下,从仿生学的角度设计了一种新的综合模板(SDP),它体现了粗定位和准确定位并行处理的思想,在此基础上提出了一种新的用于块匹配的搜索算法—正方形—菱形搜索(SDS)算法;实验证明:该算法的搜索速度比FS、TSS、FSS、TDL、CS和DS都快,而且根据运动矢量恢复出的图像在PSNR和主观视觉效果方面都和FS相当,比其它算法要好。最后,通过对一些最新的运动估值算法的跟踪研究,明确了下一步的研究方向。

田胜军[2]2006年在《基于块匹配算法的运动估计研究》文中研究说明随着数字信息技术的飞速发展,人们对多媒体通信业务的需求与日俱增。视频压缩技术是实现多媒体通信应用的关键技术,而基于块匹配的运动估计快速算法不仅是视频压缩技术的核心环节,而且是运动目标的生成、识别和跟踪的有效技术之一;所以是目标探测和视频图像处理领域中的一个研究热点。并在整个视频压缩编码中占有较大的运算量,成为视频编码的瓶颈,其优劣与否直接决定了整个编码器性能的好坏。目前存在的大多数运动估计部分的搜索算法都是基于块匹配的整像素搜索,成果也较为丰富;而针对亚像素运动估计还有较大的改进空间,有待进一步研究,因此,研究运动估计的各种块匹配快速算法具有重要的意义。本文就运动估计快速算法的改进和优化方面作了一些相关的研究,提出了基于亚像素和分层策略的块匹配的运动估计算法;具有一定的理论意义和工程应用价值。首先介绍了有关视频压缩和编码及运动估计的一些基本概念、意义、研究现状等。然后重点研究了全搜索法和几种典型的运动估计快速算法,分析了各算法的特点,总结了提高运动估计搜索效率的几个关键技术,并通过分析它们的内在联系和存在的问题,提出了一种新的用于块匹配的分层完全搜索算法;即在完全搜索的基础上引入了亚像素和分层策略来提高搜索速度、效率和精度,以便增强全搜索的实时性。本文提出的运动估计算法:采用分层的思想减少了计算量,提高了搜索效率;运用半像素搜索方法提高了搜索精度,使之能达到更好的搜索效果。为了检验本算法的有效性,最后本文通过实验数据,与几种常规快速算法的性能进行了分析比较,结果充分表明:该算法在时间和性能上都优于常规的搜索运动估计算法。不仅可应用于视频编码与压缩,同样可应用于运动目标检测与视频跟踪,并达到了较好的实际效果。当然,在今后的研究中,还可进一步考虑基于H.264的新标准,将本文算法中的半像素提高到1/4像素运动估计,以进一步提高其搜索精度,此外还可以从块的大小、设计新的搜索策略和运用新的终止条件等来进一步研究新的运动估计快速算法。

林袁[3]2003年在《实时视频编解码系统加速策略研究》文中研究指明目前,视频图像压缩处理广泛应用在如下领域:数字电视、视频会议、数字图书馆、远程教育、远程诊断、交互式游戏等,对计算、传输、存储的要求相当高。 本文深入研究了制约多媒体系统实时实现的瓶颈问题:运算速度、数据存储和调度,以视频编解码、算法优化、集成电路设计为基础,从不同层面提出了解决这些瓶颈问题的加速策略。 运算速度是视频实时传输系统的一个严重的瓶颈问题,实时性和功耗两方面均要求减少软件层面的算法复杂度。本文对运算量集中模块的快速算法展开了深入研究,并利用加速指令集,通过增加面向高速并行操作的新指令和采用SIMD技术对大量的加法、乘法等运算有效地加速。 视频处理器一般有两种结构:专用体系结构和可编程体系结构。这两种视频处理系统在系统结构、占用资源、灵活性以及应用领域等方面都存在很大区别。可编程结构灵活。适用范围广,易于升级,但电路复杂,电路功耗大。专用视频解码器结构硬件开销小,处理速度高,但它的可扩展性差。将专用体系结构的部件和可编程体系结构的部件混杂在一起的软硬件协同系统成为目前研究的热点。本文深入研究了这叁种实现途径的加速策略。 就目前CMOS工艺而言,存储器件的速度以及存储单元同处理单元间的数据传输、调度成为制约系统性能和处理速度的瓶颈问题。因此本文研究的另外一个重要方向是芯片设计中的数据存储结构与数据调度策略。 首先研究了两类数据存储结构:帧存和本地缓存,并且提出了未来的SoC结构的发展方向:片上memory。其次,在数据存储结构的基础上研究了bus上数据调度策略,通过分析视频图像处理的持续性、周期性、相关性等特征,提出了优化的总线系统和混合调度策略。

王维东, 姚庆栋[4]2002年在《亚象素运动估值快速算法》文中进行了进一步梳理高精度的匹配和补偿可以减少预测误差,提高视频图像的压缩效果。文中提出了一种亚象素精度视频运动估值的快速算法,根据半象素精度运动估值的中间结果,直接推算出更高精度的运动估值。该算法为高精度亚象素运动估值的研究提供了算法保证。

王福龙[5]2000年在《基于DCT和小波变换叁维视频编码的研究》文中研究指明数字视频压缩编码技术是实现多媒体通信的关键技术之一。图象序列不仅表现在帧内象素之间的相关性,而且帧间象素之间也同样具有高度的相关性。本文对运动图像从叁维的角度将图象序列视为立体图象,通过叁维离散余弦变换(3DDCT)或叁维小波变换(3DWT)变换后进行变换域的低码率压缩展开了较深入的研究。本文的主要内容包括: 1.对3DDCT算法进行深入研究,结合XYZ编码的特点,提出部分3DDCT算法及相对应的编解码流程,减少了运算量,提高了编码效率。 2.针对XYZ中量化策略进行了研究和实验,结合人眼视觉特性通过进化算法得出一个改进的量化表,该量化表可以有效提高编码效率。 3.针对XYZ编码中仍然使用2DDCT的RLE+Huffman的编码策略问题进行了研究,提出改进的RLE+Huffman编码策略,新的编码策略能较适应3DDCT的特点,实验表明,可以提高编码效率。 4.针对运动剧烈的视频序列XYZ编码效率下降的问题,提出结合运动补偿的3D MCDCT编码算法,将视频序列沿运动轨迹进行XYZ编码,使编码效率得到显着提高,但编码的复杂度加大,不易于实时应用。 5.数字视频序列可以看作是从模拟视频信号中抽样得到,帧间相关性过强是由于采样过密造成的;而帧问相关性太弱是由于采样频率太小造成的。本文从采样定理的角度提出变速XYZ视频编码,对帧间相关性太强的序列可以采用帧间跳帧的方法提高编码效率:而对帧间相关性太弱的视频序列可以采用帧间插帧的方法提高帧间相关性从而提高帧间编码效率。本文给出了定时长变速XYZ编码和变时长变速XYZ编码。 6.针对零树结构在多分辩图象编码中的有效作用,本文提出基于3DDCT的嵌入式叁维零树结构视频编码,将3DDCT系数分解成多分辩率塔式结构,采用零树结构及算术编码,得到很好的编码效果。 7.对基于叁维小波变换的视频编码进行了研究,结合叁维零树结构及算术

陈国斌[6]2003年在《视频编码中质量、复杂度和码率控制》文中研究说明数字视频是多媒体的重要标志,也是多媒体信号中最具有表现力的成分。但数字视频内在的高带宽特性限制了多媒体业务的发展。为有效利用传输带宽和存储空间,必须对视频数据进行压缩。ISO/IEC和ITU-T分别制定了MPEG-x和H.26x系列标准以便于对数字视频的处理、传输和存储。除最新的H.264外,这些标准都是基于联合MC-DPCM/DCT的视频压缩框架,即采用运动补偿预测和离散余弦变换分别消除视频信号的时域和空域冗余。 视频编码是在码率、质量、处理复杂度、容错性能和交互性等约束条件下的多维优化过程。本文主要从实时视频应用角度,对混合MC-DPCM/DCT视频编码中的处理复杂度、码率控制和差错控制这叁方面问题展开了深入的研究。 众所周知,视频处理是多媒体计算中运算开销最大的部分,它的计算复杂度远大于其它媒体(文本、语音、音频、图形和静态图象)。对于实时视频应用环境,视频编码以往大多由专用设备完成。但随着通用处理器和数字信号处理器(DSP)主频的提高、面向视频处理的指令集出现,使得更为经济、灵活的软件编码成为可能。本文系统分析了MC-DPCM/DCT视频编码原理,从算法和实现这两方面探讨了降低视频编码复杂度的方法,首先重组了编码器结构;接着对编码过程中的关键模块进行优化。特别地,针对移动视频通信应用,本文提出了一种低复杂度的高性能运动估值算法;然后将与处理器硬件结构相关的方法引入了优化过程,提高了数据的处理并行性和访问效率;最后使用查找表或汇编优化对关键模块进行加速。 其次,在码率控制方面,码率—失真(R-D)分析和码率控制在视频编码和视频通信系统中起着至关重要的作用。在传统R-D模型中,码率R和失真D都看成量化步长的函数,而且失真评价函数一般在象素域或空域中进行。本文在压缩域或DCT域建立了一种失真函数模型,它能够对编码复杂度提供更加精确和可靠的预测。在此基础上,针对TM5模型中存在的缺陷,本文提出了一种改进的CBR码率控制算法,它解决了TM5中缓冲区不一致性问题,并增强了算法对场景切换的适应性。对于VBR码率控制,作者还提出了一种面向实时视频编码应用的单通道VBR码率控制算法,它避免了多通道VBR算法的多次编码或预分析的开销,减小了量化步长波动,可提供稳定的视频质量。 最后,在视频通信系统中,由于传输信道中噪声或网络中拥塞影响,传输差错和数据包丢失是不可避免的。与普通的数据传输不同,视频通信受严格的延时限制,不能通过重传机制保证无差错的传输。预测和可变长编码的使用也使得码流对误码或数据包丢失更加敏感。本文在分析MC-DPCM/DCT压缩视频特点的基础上研究了各种误码检测方法,并详细讨论了编码端的误码容错、传输层差错控制、解码端的失真屏蔽以及编码器和解码器交互的差错控制方法。

彭凤婷[7]2017年在《全景视频图像融合与拼接算法研究》文中研究表明虚拟现实(Virtual Reality,VR)技术普及和市场拓展在最近五年有一次大的飞跃。特别是VR 360全景视频的商业应用已经走入千家万户,进入了快速发展时期。人们对主观质量、沉浸式感受的需求越来越高导致高分辨率、高动态范围的全景视频数据量骤升。这直接引发了VR视频数据在传输和储存两个方面同时面临更大挑战。因此,研究VR全景视频合成和编码压缩具有强烈的现实急迫性。论文以全景视频图像的融合、拼接、编码相关技术为主要研究内容,具体地,在四个方面展开工作。(1)实现全景视频图像采集、预处理、配准到融合的全过程。基于正六面体六镜头摄像机采集的视频数据,采用棋盘标定法对相机进行标定,采用白平衡算法解决图像色差一致性问题。将六幅图像映射到球面,采用SIFT算法进行配准,采用重迭区域线性过渡法进行融合,最后生成VR 360全景视频图像。(2)分析VR球面图到平面图的多种映射格式,选择最佳全景视频编码输入格式。分析对比圆柱体、六面体、八面体、二十面体、新型瓦片分割等映射转换方式在编码性能、主客观质量及计算量方面的差异。验证得出六面体是目前最佳的编码输入格式的结论。(3)基于图像融合拼接技术提出全景视频运动估值越界折迭搜索算法。利用全景视频图像左右边界的连续性,运动补偿时通过图像拼接技术将重构帧左右边界进行拼接融合,降低运动估值搜索匹配块的误差,提升了编码效率。(4)针对CIS扫描仪扫描图像去噪提出了一种光栅条纹去除算法。分析了CIS扫描仪物理结构,建立了光栅条纹噪声数学模型,提出了傅里叶函数算法,有效去除了图像的条纹噪声。上述四个方面的工作有望为全景视频融合、拼接、编码的算法研究提供一些有益参考。在全景图像融合与拼接算法方面达到了合成全景图像平滑自然,具有较好的主观质量。对多种VR球面图到平面图映射格式测试结果表明,六面体为现有的优于经纬图的映射格式,建议作为全景视频编码输入格式的主要选择。全景视频运动估值折迭算法能够找到失真更小的匹配块,有效提升了编码效率。光栅条纹去除算法能有效去除CIS扫描图像噪声,且比现有噪声去除算法效果更佳。

陈广秋[8]2006年在《基于视频的违章车辆自动抓拍系统的研究》文中指出智能交通系统中图像处理技术是通过图像传感器获取道路交通图像,利用图像处理与计算机视觉相结合的方法,模仿人的视觉功能,获得智能交通系统所需要的信息。本文在分析了传统的违章车辆抓拍系统的特点后,对传统违章车辆抓拍系统中的线圈检测车辆技术做了实质性的改进。采用基于视频处理的运动估值技术,提出了一种新颖的视频违章车辆检测算法。本文提出的视频检测算法是将停止线附近的禁驶区域作为检测区域,在视频图像中设定虚拟线圈来代替传统物理感应线圈,检测是否有机动车违章行为的发生,避免了使用物理感应线圈对交通和道路带来的影响。在虚拟线圈的检测技术中,利用平均绝对差分值最小的模块匹配准则,用当前图像的某一宏块在下一帧内搜索最优匹配。本文对虚拟线圈的初始设置、缩减等作了详细的阐述。本文根据城市道路交通特点提出了基于道路方向的叁步搜索法快速匹配虚拟线圈,确定虚拟线圈的运动矢量,估计车辆的运动轨迹,最后综合考虑虚拟线圈运动矢量的幅值与幅角均值和标准偏差来判断车辆是否违章。

窦方[9]2009年在《基于运动矢量的视频来源取证算法》文中研究指明当今的数字化信息时代,随着先进的多媒体处理软件的普及,对数字信息的操作修改从早期的专业人士的专项技能延伸到普通爱好者的个人行为。近几年来,一些针对数字图像的恶意篡改和伪造,已开始触及到人们道德和法律的底线。随着各种视频分享网站的兴起,各类个人视频开始借助互联网迅速传播,而针对这些节目的播出环节目前尚无有效的监管措施。因此如何有效验证包括数字视频在内的数字媒体资源的真实性,已成为维护信息产业健康持续发展所必须解决的关键问题之一。数字被动取证技术中的数字视频来源取证技术正是在这样的背景下迅速发展起来,并会成为将来研究的重点内容。在目前的数字被动取证技术研究领域中,基于数字图像的被动取证技术处于主流位置,数字视频被动取证技术因其自身技术体系的复杂性,发展远滞后于数字图像被动取证技术。因此,选择能够代表不同视频来源的特征,以及选择合适的视频来源识别系统成为该方面的研究重点。本文将主要基于运动矢量这一特征对视频来源进行分析从而提出一种新的视频来源系统识别算法。本文对TM5,Premiere Pro中的默认MPEG-2编码器,Cinema Craft Encoder(CCE),佳能(FS10E)和JVC(GZ-MG730AC)五种编码器提取了运动宏块的能量阈值、搜索窗口的大小、标准运动矢量差和失真匹配因子多个特征量。在分类器构造方面,本文选用一种K-近邻(k-nearest neighbor,K-NN)分类器,建立起一个完整的视频系统识别方案。本文利用这个识别系统对分别来自这五种编码器的400组视频样本序列进行训练和识别,最终获得识别结果。实验表明,对JVC和佳能两种硬件编码器可以达到98%以上的查准率和查全率,对于Premiere的查准率和查全率也可以达到93%以上。但由于TM5和CCE自身编码器特点,对TM5查准率和查全率仅能达到86%,对于CCE查准率可达100%而查全率仅能达到50%。实验证明这种算法能够有效地识别来自这五种视频编码系统的视频码流。

檀喜敬, 平西建[10]1996年在《序列图像编码中的遗传优化块匹配算法》文中提出讨论了序列图像编码的运动估值算法。在剖析传统块匹配算法的基础上,针对其非全局最佳的缺陷,将遗传优化算法的思想应用于分层块匹配算法,提出一种遗传优化块匹配算法。算法分析和计算机模拟表明,此算法可较好地解决现有快速搜索算法中存在的非全局最小点问题,提高数据压缩效率,与穷尽搜索算法相比运算复杂程度明显减小。

参考文献:

[1]. 运动估值快速匹配算法的研究[D]. 刘海峰. 西安电子科技大学. 2002

[2]. 基于块匹配算法的运动估计研究[D]. 田胜军. 电子科技大学. 2006

[3]. 实时视频编解码系统加速策略研究[D]. 林袁. 浙江大学. 2003

[4]. 亚象素运动估值快速算法[J]. 王维东, 姚庆栋. 信号处理. 2002

[5]. 基于DCT和小波变换叁维视频编码的研究[D]. 王福龙. 华南理工大学. 2000

[6]. 视频编码中质量、复杂度和码率控制[D]. 陈国斌. 浙江大学. 2003

[7]. 全景视频图像融合与拼接算法研究[D]. 彭凤婷. 电子科技大学. 2017

[8]. 基于视频的违章车辆自动抓拍系统的研究[D]. 陈广秋. 吉林大学. 2006

[9]. 基于运动矢量的视频来源取证算法[D]. 窦方. 天津大学. 2009

[10]. 序列图像编码中的遗传优化块匹配算法[J]. 檀喜敬, 平西建. 信息工程学院学报. 1996

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

运动估值快速匹配算法的研究
下载Doc文档

猜你喜欢