馆藏多媒体教育文献数据库系统的功能开发_元数据论文

馆藏多媒体教育文献数据库系统功能开发,本文主要内容关键词为:文献论文,多媒体论文,功能论文,数据库系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 馆藏多媒体教育信息的特点与技术处理要求

1.1 馆藏多媒体教育信息特点

馆藏多媒体教育信息资源是根据本地区、本馆社会发展和读者学习、公民终身教育需要,系统收藏的多种媒体类型的文献信息资源,这些多媒体教育信息资源具有以下特点:(1)馆藏多媒体教育信息资源收藏具有系统性、普及性、专业性特点,数据量大,海量数据总容量一般以TB计,需要很大的存储空间,媒体间差异也很大,从而影响数据库中的组织与存储方法。(2)数据类型多,包括各类多媒体数据库、多媒体学习光盘、教育磁带、录像带、DVD、缩微胶卷等不同载体类型,由文字、音频、视频、图像等多种非结构化数据格式组成。数据种类的增多增加了数据处理的难度。(3)非结构化数据处理的实时性要求高,对数据库并发用户与实时处理提出了很高要求;另外,馆藏教育多媒体数据还具有复合性、分散性、时序性等特点,这些都对数据处理提出了新的要求。

1.2 技术处理要求

1.2.1 多媒体数据库数据存储结构与元数据存取技术要求

多媒体数据库系统存储除必须满足物理数据独立性和逻辑数据独立性外,还应满足媒体数据独立性,要求系统能保持各种媒体数据独立性和透明性,同时要求系统能反映和管理各种媒体特性以及各种媒体数据之间的空间或时间关联。多媒体数据库元数据存储技术要求包括文本元数据的存取、语音元元数据的存取、图像元数据的存取、视频元数据的存取等方面的技术要求。

1.2.2 基于WEB的多媒体信息检索与信息发布技术要求

随着用户对于信息需求的大量增加,以及对于多媒体信息的实效性要求,基于WEB的数据库信息存储的检索越来越倾向于多媒体全文信息检索的查询语言,查询不再只局限于字符查询,而应提供更多通过媒体内容的查询。与此同时,WEB数据库的信息发布形式开始更多地过渡到通过网络浏览器以多媒体电子文档的方式(B/S)传输给网上用户。要求利用多媒体WEB传输技术,向用户提供主动的特定多媒体教育信息的推送服务。

1.2.3 多媒体数据库系统的数据操作与网络功能要求

要求对不同媒体非规则数据提供不同操作,提供比传统关系数据库系统更强的适合非规则数据查询的搜索功能、浏览功能并提供演绎和推理功能。在网络方面,要求能解决分布在网络上的多媒体数据库中数据的定义、存储、操作问题,并对数据一致性、安全性、并发性进行管理。

2 基于非结构化WEB数据库技术的馆藏多媒体教育文献数据库系统功能及其实现

2.1 非结构化WEB数据库

非结构化WEB数据库是针对关系数据库模型过于简单,不便表达复杂的嵌套需要以及支持数据类型有限等局限,从数据模型入手而提出的全面基于因特网应用的新型数据库理论,它突破了关系数据库结构定义不易改变和数据定长的限制,基于超文本,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理超文本连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型WEB数据库所无法比拟的优势。以下结合非结构化WEB数据库的多媒体数据库处理技术研究馆藏多媒体教育文献数据库系统功能及其实现。

2.2 馆藏多媒体教育文献数据库系统功能及其实现

开发多媒体教育文献数据库系统的关键是多媒体元数据处理功能与媒体特征检索功能的实现。

2.2.1 多媒体教育信息元数据加工、存取管理系统功能及其实现

我们知道文本、音频、图像、视频等多媒体信息数据是非结构化的,他们不能用简单的数学解析式表示,多媒体数据库必须取得基于这些媒体对象的内容特征的解释,才能完成存储及应用,这些解释就称为元数据,通过对元数据的归类、整理、实现标准化的存取是多媒体教育信息资源组织利用的关键。利用非结构化WEB数据库进行基本元数据的存取过程如图1所示:

图1 利用非结构化数据库存取元数据过程

文本、语音、图像、视频等原始媒体信息经媒体预处理器(特征提取函数),提取媒体特征后形成独立媒体,再经非结构化WEB数据库本身的元数据管理系统进行提取处理,形成各类元数据,各类元数据再通过检索接口输出、存储并提供用户查询。(1)文本元数据的存取:文本元数据是指归类、编码、压缩处理后的文本格式描述的元数据的总称。为快速存取文本,须使用合适的存取结构,非结构化WEB数据库系统提供两种方法:一是全文扫描,在整个文件集合中查找所要的查询特性,提取合适的文本信息数据;二是倒排文件,查找信息包括索引特性和一组指向索引特性出现的文件指针。倒排索引使用散列表形成存储。(2)语音元数据的存取:数字信号处理模块获取语音模拟信号并进行数字化转化后,非结构化数据库系统利用先进的神经网络模型和动态时间分配算法进行索引特性和语音模式识别存取语音元数据。(3)图像元数据存取:图像元数据描述了对象的位置、颜色、纹理等不同特性,为了便于存取图像,经过处理产生的元数据必须以适当的索引结构存储,非结构化数据库系统通过两种技术存储图像元数据:一是存储图像中对象之间的定位与空间关系的逻辑结构;二是对于有相似特性的图像,利用相似簇技术把它们归类在一起。(4)视频元数据存取:视频元数据通常包括特定的视频点和视频点的描述,非结构化数据通过识别视频中的逻辑信息单元、视频中的图像属性、语义属性、对象属性以及不同的操作类型实现视频元数据存取管理。

2.2.2 基于内容的多媒体教育信息检索功能

馆藏多媒体教育信息资源数据包含了文本、音频、图像、视频等丰富的类型格式,具有复杂的语义特征,使用传统关系数据库基于关键词或原子属性的检索是一种浅层次信息查询,不能揭示出更深层有价值的信息,易造成信息浪费。非结构化WEB数据库使用基于内容检索多媒体信息,它从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据来,从而可以在更深层次、更有效地利用存储的馆藏多媒体信息资源。以下是基于非结构化IBASE数据库管理系统设计的多媒体教育文献数据库基于内容检索功能实现过程(图2)。

图2 基于内容特征的非结构化教育多媒体数据库检索功能结构

(1)初始化检索说明:用户检索时,开始可以使用基于示例的查询(可以是声音、图像等),也可以直接使用查询语言形成检索表达式,系统通过检索接口提取示例的特征或把检索表达式映射为具体的特征。(2)检索引擎(匹配机)相似性匹配,系统把从用户检索接口获得的用户检索要求与媒体特征库里存储的媒体特征按照一定算法进行相似性匹配,并对匹配结果进行排序,选择出符合用户要求的媒体内容,然后将结果从非结构化媒体数据库中提取出来再通过检索接口返回给用户。基于内容检索时根据媒体特征进行相似性匹配检索的媒体特征包括:颜色、纹理、轮廓、形状、空间约束、动态、领域等。(3)媒体特征提取系统:此系统由图像处理、视频处理、音频处理、文本处理、知识专家系统处理等模块组成,其功能是自动或半自动地从经过处理的多媒体元数据中提取符合用户要求的相关媒体特征。所有提取的媒体特征存入媒体特征数据库,并与媒体建立索引关联,以备特征匹配使用。(4)特征调整:对系统返回的查询结果,用户可以选择满意结果,或从中选择一个示例,经特征调整,形成新的查询。系统可以逐步缩小检索范围,直到检索出用户满意的媒体内容。

收稿日期:2003-02-25

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

馆藏多媒体教育文献数据库系统的功能开发_元数据论文
下载Doc文档

猜你喜欢