基于语音识别的音频多媒体会议记录系统的研究

张晓旻^[1]2000年在《基于语音识别的音频多媒体会议记录系统的研究》文中进行了进一步梳理作为一种新型的通信手段，多媒体会议系统可将各种不同会场的与会人员的活动情况、会议内容及各种数据和信息以可视可闻的形式及时展现在每个会场的与会人员面前，成为一种快速高效、经济方便且应用广泛的新业务。但是，与传统会议相比，目前的多媒体会议系统缺乏对每个与会发言人的发言进行实时记录的功能，无法实现对会议发言记录的保存功能。本论文主要讨论了在局域网上实现的多媒体音频会议系统中，引入语音识别技术，利用语音识别的方法对与会者的发言进行识别，将语音信号转变成文本信号，保存后可对其进行编辑修改，作为会议的记录。该系统主要分为三个逻辑部分：管理节点部分，记录节点部分和会议通信部分。管理节点在会议进行时起到会议主席的作用，主持会议的进行，控制会议的进程；在非会议进行时，则可对以往的会议进行查询，对某次的会议内容进行编辑、整理，通知有关部门即将召开的新会议信息，处理个人语音训练库等。记录节点部分只在会议进行时才起作用，此时，如果某一记录节点的用户被指定为发言者，则该节点在用户发言时利用语音识别技术把发言的语音信息转化为文本信息，然后把该识别文本传送给管理节点，同时把与会者发言的语音信息传送给管理节点和其它所有的记录节点，使其它与会者能听到发言内容。其它的记录节点接收发言节点传送来的语音信号，然后播放。会议通信部分则是实现该多媒体会议系统各节点间所有的指令传送，信息交互等功能，协调该系统的各项功能，以确保多媒体会议顺畅进行。

何新^[2]2007年在《基于内容的音频信息分类检索技术研究》文中提出随着多媒体技术的飞速发展和计算机处理的不断增长,人们面临着一个巨大的数字化“信息海洋”,如何对这些信息进行快速准确地检索已经成为人们的迫切需要。在这样的条件下,多媒体信息检索技术于20世纪90年代开始蓬勃发展起来,成为信息检索技术研究的一个重要分支。开始阶段,研究的注意力主要集中在基于内容的图像检索和视频检索两个方面,而往往忽视了音频数据中所蕴含的丰富语义,加上原始的音频数据的非结构化特性,因此,音频检索相对滞后。随着音频数据的大量出现,基于内容的音频检索也逐渐成为多媒体信息检索技术的一个研究热点。本文在认真总结了前人研究成果的基础上,对基于内容的音频信息检索中的若干问题进行了相关探讨,着重研究了音频特征的分析、分类器设计和语音信息检索这几方面的问题。本文的主要工作和研究成果包括以下几个方面:(1)音频特征分类方法的研究音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基础和重点。如何有效地提取音频特征,并保持特征间相互独立,减少信息冗余就是需要进一步解决的重要问题。本文在音频特征分析中,引入独立分量分析算法,用来提取音频最为关键并高维独立的特征,提高特征的可分性。同时,在此基础上,利用支持向量机良好的分类性能,对各类音频数据的特征进行分类,即提出一种将独立分量分析和支持向量机结合而构成的混合模型用于音频特征分类问题,收到较好的效果。(2)音频分类器的设计与实现基于内容的音频检索就是要针对连续的音频信号进行分类。因此,如何构造一个分类器,使其能较好地表征音频的时间统计特性,同时又具有一定的类别区分能力是一个值得研究的问题。本文在结合课题组在语音识别研究中己完成的研究基础之上,将由隐马尔科夫模型引申出来的广义模型运用到音频分类检索中,将广义模型与支持向量机结合,提出将基于支持向量机和广义模型的混合模型用于音频分类检索。(3)基于广播新闻音频的检索技术研究语音是音频数据中的一个重要组成部分,比如,在广播新闻节目、学术会议的录音中包含着大量的语音信息。由于语音具有直观、自然、方便使用的特点,因此,如何直接利用语音来有效地检索多媒体中相关的音频信息,也是一个值得探讨的研究方向。本文针对广播新闻,进行音频检索探讨,研究其中的音频分类、音频检索以及语音识别问题。并在此基础上,设计和初步实现一个基于内容的音频信息检索原型系统。

吕凝^[3]2005年在《基于内容的视频数据库多模式检索方法研究》文中研究说明本文提出的多模式视频检索方法,是从视频语义特征的角度构建视频数据的语义特征库,将与视频语义相关的声音、字幕、音乐、剧情脚本、新闻文稿等信息特征进行整合,以人像、字幕、语音、视频镜头识别和剧情脚本分析的组合技术,建立视频数据语义特征的多模式提取模型,将语音识别引擎、OCR引擎集成在检索平台中。本文提出应用语音与音乐的临界点为场景的分割点,以说话人音色变化的临界点为镜头的分割点。本文提出的利用剧情脚本中的描述信息与字幕、语音、人像提取的特征匹配的方法,来实现对视频数据诸如人物名称、台词内容、主演人的检索。并根据剧中的代表场次图像帧,利用文献[46]改进的最近特征线法(nearestfeature line,简称NFL)算法对镜头进行基于内容的检索具有一定的创新性。在视频数据流描述的模型建立、同期化、压缩及安全机制方面,本文给出了空间性、时间性、描述多样性的基于四维矩阵的运动影像与音频数据的表示形式。把视频流看作是图像与音频数据以一种持续的密切结合的形式组成的数据流整体。这种表示形式提高了数据压缩率和视频(或多媒体)数据库系统及播放系统的QoS。并提出在主动网络体系结构下解决视频数据流的网络安全机制的方法。

何军^[4]2006年在《基于VoiceXML的语音浏览器的研究与应用》文中提出电话是当前人们使用最为平常的通讯工具之一。Internet网的出现为人们提供了空前巨大的信息资源，如何用电话来使用Internet资源就显得非常重要。语音浏览器就能提供更易为人们所接受的网络浏览模式，从而拓展了Internet的发展空间。VoiceXML语言是XML语言在语音浏览器方面的应用。本文首先介绍了语音合成技术、文语转换系统的组成及其实现过程，自动语音识别技术、自动语音识别系统的组成及其实现过程，语音应用程序开发语言——VoiceXML的发展情况、目标、VoiceXML引擎的工作过程、VoiceXML的基本元素，提出了开发语音用户界面的一些原则。在此基础上，本研究设计了一个符合VoiceXML规格与技术的交互式语音浏览系统，我们以主从服务规划三层结构来设计：前端使用者、中端代理服务器与后端提供资源文件的网页数据库。前端使用者可利用电话网络来存取信息；而中端主要由一可将VoiceXML网页剖析并转为语音的代理服务器(Agent)构成；后端则为符合VoiceXML语法的网页数据库。在本雏形系统中，我们在后端的网页数据库设计了三种应用网页，分别为：天气预报、图书订购、电影信息。此外，除了让使用者过电话按键输入控制信息外，我们还运用隐马可夫模型来开发语音识别模块来识别关键词，以方便使用者运用自然语音输入来使用本系统。本研究利用代理者的结构，设计了一个交互式的语音浏览的原形系统，我们相信这样一个运用语音技术整合因特网与电话网络的系统，是一个有实用价值并且值得继续深入研究的系统。

陈旭^[5]2008年在《基于内容的音频哼唱识别及检索系统》文中进行了进一步梳理在这个音视频数字化的时代,数字影视、数字音乐、数字动漫等多媒体已经大量的进入我们的生活。在数据库中,多媒体文件(例如歌曲)都是用它们的名字、作者、歌手等等来索引的,然而,人们对歌曲旋律的印象往往比名字、作者、歌手等等更深。随着多媒体数据库越来越庞大,数据的文字索引(名称、作者等)越来越多,人们不可能完全记住。因此,内涵式查询就突显出了其重要性与必要性。本文介绍了关于数字音频的哼唱识别系统的开发以及相关理论研究工作,详细讨论了在音频哼唱识别中的各部分的关键技术,并且实现了可用于演示的音频哼唱识别系统DEMO。在整个研发过程中,我们总共在两个平台上进行:PC平台和Altera公司的DE2嵌入式平台。我们首先分别在PC上和DE2验证板上实现了基于20首歌的哼唱识别,进行了充分的实验和参数调整,实现了关于特征提取、噪声去除、特征值识别等课题,最终在DE2板子上得出了比较高的识别率和较好的运行时间。接下来主要在PC上研发,基于30多首不到的音乐建立一个有效的部分哼唱识别系统,同时对基础音的归一化算法、改进的DTW算法进行了研究。我们基于“首尾靠近”的先验条件,创造性地提出了利用正反两次DTW进行部分匹配的识别算法,并对该算法的时间复杂度、有效性、兼容性进行了深入的分析和研究。得到比较令人满意的结果:PC平台上52首乐段利用部分匹配算法可以达到85%左右的搜索成功率,相比较不支持部分匹配的48%的识别率是有了很大进步。而且正反DTW方法在时间复杂度上并没有太大的损失,运行时间仅仅是整体匹配方法的约1.5倍,同时它还保留了对整体匹配优秀的兼容性,完全满足实际的要求。

汪浩^[6]2003年在《基于多媒体技术的图案设计研究》文中提出实际上，在你意识到之前，多媒体艺术设计已经走进我们的生活并且迅速地蔓延开来，甚至几乎所有与视觉相关的领域都带有数字化艺术设计的痕迹。从好莱坞商业电影中大量运用数码特技到我们在个人电脑中见到的应用程序界面，从我们沉醉其中的电子游戏到国际互联网上丰富多彩的Web页面；都是多媒体艺术设计的作品。尽管多媒体艺术设计已经广泛地被应用于人类生活的各个领域，成为艺术设计表现形式的重要组成部分，但我们在多媒体艺术设计理论上所做的研究和探索还显得不够。多媒体艺术设计是有着自身独特性质的魅力的艺术设计表现形式，长期缺乏自己完善有力的理论体系，不树立适应多媒体艺术设计特征和发展的观念与思想，不将这些观念和思想引入到多媒体艺术设计的创作和欣赏中去，多媒体艺术设计就无法突破传统艺术设计的模式和窠臼，无法发挥多媒体的优势和魅力。探寻多媒体艺术设计的内涵，寻找一种共通的创作方法和原则。这是一个由感性到理性的过程，一个由非逻辑性到逻辑性的过程，一个由现象到本质的过程，是需要艺术设计师不断实践、不断思考、不断努力才能实现的过程。本论文的一切都是为了这个目的。本论文以多媒体图案设计为主题，分二部分进行论述。一到三章为第一部分，主要对多媒体艺术设计的定义与范畴、发展历史、相关学科进行了基本阐述；研究了多媒体艺术设计的生存环境，探讨了多媒体艺术设计的视觉原理，并对其做具体分析和说明。四到六章在上述内容的基础上，探讨了多媒体图案设计的一般要素，以及多媒体图案设计中各要素中的重点问题；同时对多媒体图案设计的应用范畴进行了详细深入的研究；介绍了多媒体图案设计的一些常用软件。并对多媒体图案设计的发展趋势做具体分析和说明。最后指出多媒体图案设计所面临的挑战和需要解决的课题，探寻多媒体图案设计的未来。本论文在理论研究的基础上，辅以优秀设计实例进行分析说明，附大量相关图片资料并制作成课程教学软件，对多媒体图案设计进行了全面而直观的探讨与论证。目前国内外对多媒体图案设计的研究还是一个新兴领域，还不成熟，缺乏体系，希望本文的研究能够对未来数字化艺术设计理论和实践的发展尽一点绵薄之力。

万声国^[7]2017年在《基于语音识别的智能WIFI音箱》文中认为语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。基于语音识别芯片的智能硬件产品越来越多。在软件上,目前比较主流的语音识别软件有:Nuance、Google 的 google assistant 和 Microsoft 的 Cortana,Amazon的Alexa,包括国内的科大讯飞的语音识别算法,这些软件都是面向非特定人、大词汇量的连续语音识别系统。硬件上,最早从Amazon的Echo音箱的推出,到国内叮咚音箱,还有刚刚上市的Goolge homer,包括Microsoft也将推出自己的基于语音识别功能的智能音箱。因为智能音箱和和这些语音识别技术的结合很好的解决了智能产品的入口问题,已经在行业形成成共识,不久的将来智能音箱会成为家庭的控制中心.本文对语音识别技术的基本原理进行了初步研究,并分析了语音识别的实现过程和算法介绍。对WIFI音箱系统的本地语音识别方案和实现方法做了说明,并对云端语音识别方案做了介绍。并介绍了 WIFI音箱系统的特点和不同,并对音箱系统的特殊场景的问题进行分析和解决方案的提出。

段鹏^[8]2010年在《基于JAVA的网络视频会议系统的研究与实现》文中提出随着信息技术的高速发展,以往的通信方式并不能满足人们的实际需求。基于网络的视频通信已经逐步成为现代信息社会不可或缺的沟通方式。与此同时,网络视频会议系统正从以往的对特定网络及硬件的依赖逐渐发展到利用纯软件来实现,利用软件来实现媒体数据的处理及会议的过程具有重大的意义。本文首先介绍了视频会议系统的发展状况及趋势,接着描述了视频会议系统的结构组成与常用协议,然后介绍了视频会议系统的关键技术。本文通过对关键技术的详细对比和分析,设计了一套完整的实现方案。为了满足平台无关性,本文采用了JAVA语言,并通过JAVA多媒体框架JMF提供的捕捉、回放、编解码等工具,把音频、视频放到JAVA应用程序中,完成了视频会议系统中媒体数据的处理,通过对比现有的网络通信技术,采用多播进行媒体数据的传输,通过异步通讯模式实现文本的传输,较好的实现了会议功能。本文采取自定义信令,C/S(客户机/服务器)的结构方式进行视频会议的整体设计。运用JMF及多播实现音视频的采集、处理、传输、接收,利用JAVA Swing组件完成系统界面的可视开发。本系统结构简单,功能实用,成本低廉,对中小用户具有一定的实用价值。

冀中^[9]2007年在《基于多模态信息的新闻视频内容分析技术研究》文中研究表明对视频数据的有效处理、浏览、检索和管理正伴随着视频数据的快速增长而成为亟待解决的现实问题。视频内容分析技术旨在将非结构化的视频数据结构化,并提取其中的语义内容,构建低层特征到高层语义之间的桥梁,最终建立视频的摘要、索引和检索等应用系统,提供给用户方便的视频内容获取方式。本论文以新闻视频为研究对象,以音频、字幕、视觉等多模态信息及其有效融合为研究手段,以模式识别理论中的相关模型为工具,对视频内容分析技术展开了较为深入的研究。主要贡献包括以下三个方面:(1)提出了一种新颖的基于MPEG压缩域的主持人镜头快速检测算法。其中,在预处理部分,引入了一种改进的利用压缩域信息检测人脸的方法;在镜头聚类部分,构造了一个新颖的度量特征量对主持人镜头采用系统聚类法进行聚类,并用模糊C均值聚类法解决了聚类过程中自适应阈值确定的问题。该算法在保持较高检测性能的前提下提高了主持人镜头的检测速度。(2)提出了一种基于决策树的镜头分类算法,将新闻视频镜头依次分为广告、“其他”、静态图像、主持人、记者和独白六类。其中广告、“其他”和静态图像三类分别利用黑帧、运动、时间以及人脸等特征进行检测;主持人镜头采用聚类方法进行检测;对于比较难区分的记者和独白镜头,创新性地将它们的检测转换为文本序列标注的问题,并采用条件随机场进行建模。该算法有效地融合了音频、人脸以及上下文等多模态信息,对新闻视频中重要的镜头进行了区分,并取得了较好的分类结果。(3)提出了一种融合音频、字幕以及视觉等多模态信息的新闻故事单元分割算法。创新性地将字幕变化、音频类型以及镜头类型等高层次内容特征联系起来共同处理,巧妙地将新闻镜头序列转换成为多个关键词序列,使新闻故事单元分割问题转换成为文本序列分割的问题。该算法采用条件随机场进行建模,充分利用了每个序列内以及序列之间的上下文信息,得到了较好的分割性能。此外,论文还综述了视频内容分析技术,构造了一个基于规则和隐马尔可夫模型的分层音频分类方法,实现了一个较完整的新闻视频中字幕提取框架,最终设计并实现了一个基于COM架构的视频内容分析与摘要系统。综上所述,本论文分别从音频、字幕、视觉以及它们之间的有效融合等方面对新闻视频进行了基于内容的分析,实验结果证明了这些算法的有效性。

郑侃彦^[10]2010年在《基于HMM的自动唱词定位系统的设计与实现》文中研究表明字幕唱词信息帮助观众对音视频内容进行理解,在音视频文件中有着非常重要的作用。本文针对唱词定位系统的要求和特点,采用基于隐马尔可夫模型(HMM)的训练算法,实现了可以在复杂背景噪声的情况下,从连续的音频信号中提取语音端点,并结合唱词进行精确定位最后生成字幕的自动系统。本文简要介绍了HMM在语音处理中的应用,并针对大词汇量,非特定人的汉语连续语音模型训练的特点,研究了系统中声学模型的构造和音频参数的选择,采用39维的MFCC参数和对音素建模进行汉语语音HMM模型的训练。在此基础上,利用唱词文件提供的字幕文本信息,将音素HMM模型前后级联成语句HMM模型,并采用令牌传递算法对音频句子进行分割,实现唱词与音频的对齐功能。最后实现了自动生成字幕的唱词精确定位系统,进一步验证了本文提出技术的可行性。

参考文献：

[1]. 基于语音识别的音频多媒体会议记录系统的研究[D]. 张晓旻. 河北工业大学. 2000

[2]. 基于内容的音频信息分类检索技术研究[D]. 何新. 南京理工大学. 2007

[3]. 基于内容的视频数据库多模式检索方法研究[D]. 吕凝. 吉林大学. 2005

[4]. 基于VoiceXML的语音浏览器的研究与应用[D]. 何军. 东南大学. 2006

[5]. 基于内容的音频哼唱识别及检索系统[D]. 陈旭. 上海交通大学. 2008

[6]. 基于多媒体技术的图案设计研究[D]. 汪浩. 武汉理工大学. 2003

[7]. 基于语音识别的智能WIFI音箱[D]. 万声国. 东南大学. 2017

[8]. 基于JAVA的网络视频会议系统的研究与实现[D]. 段鹏. 西安电子科技大学. 2010

[9]. 基于多模态信息的新闻视频内容分析技术研究[D]. 冀中. 天津大学. 2007

[10]. 基于HMM的自动唱词定位系统的设计与实现[D]. 郑侃彦. 北京邮电大学. 2010

标签：电信技术论文; 语音识别论文; 多媒体论文; 分类数据论文; 音频应用论文; 语音芯片论文; 数据检索论文;

基于语音识别的音频多媒体会议记录系统的研究

猜你喜欢