国外音像信息元数据研究综述_元数据论文

国外视音频信息元数据研究项目综述，本文主要内容关键词为：国外论文,视音频论文,项目论文,数据论文,信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 国外视音频信息元数据研究项目的分布情况

视音频信息元数据研究是一个比较新的研究课题，到目前为止，视音频元数据还没有统一的方案，很多机构、研究小组纷纷立项研制各种元数据计划和方案，使得当前视音频元数据研究项目呈现出多元化的特征。下表是我们做的简要归纳：

表国外视音频信息元数据研究项目分布

图像元数据视频元数据音频元数据视音频元数据

项目名称研究机构项目名称研究机构

项目名称

研究机构项目名称研究机构

MOA2数字图书馆联盟 Open Video

北卡罗林纳大学 CDP丹佛大学 AV Prototype 美国国会图书馆

CDL 加州数字图书馆 VDL DTIC

AES音频工程协会 Informedia

卡内基·梅隆大学

DIG35

数字图像集团

VRA core 视频资源协会

MMIMucsicBrains AGMA 德国

TMI NISO/CLIR/RLG CDWA 盖特信息研究所 P/Meta EBU

MPEG-7

MPEG

图解昆士兰昆士兰州图书馆 ViDe ViDe

国际音乐元数据内华达大学MIND 英、德、美、意

图解澳大利亚澳大利亚

数字音乐图书馆印第安纳大学 SAM 北欧元数据

国家图书馆

研究小组

各种视音频元数据研究项目的简况如下：

1.1 数字静态图像元数据研究项目

（1）美国数字图书馆联盟（Digital Library Federation）主持的MOA2（Making of America）。项目旨在建立可用于查询、显示和导航数字图像的元数据格式及其编码机制[1]。该项目始于1995年，1998年发布《MOA2白皮书》。DLF使用面向对象的方法对数字对象进行分析，将数字图像的元数据分为描述性元数据、结构性元数据和管理性元数据。

（2）美国加州数字图书馆（California Digital Library,CDL）是加州大学数字资源网络门户。CDL研究数字图像元数据的必备元素及其编码规则，提供文本、日记、档案的扫描图像，并对这些数字对象的质量、格式、存贮和访问制定了标准。元数据研究参与机构包括康奈尔大学、纽约公共图书馆、宾州大学、斯坦福大学及加州大学伯克利分校。2001年发布长达66页的《数字对象标准：元数据、内容与编码》[2]。

（3）美国国家信息标准局（National Information Standards Organization,NISO）、图书情报资源委员会（Council on Library and Information Resources,CLIR）及研究图书馆集团（Research Libraries Group）从1999年就开始合作研究数字静态图像的元数据构成元素，1999年4月举办了“图像元数据研讨会”，共同致力于研讨数字静态图像的元数据构成元素[3]。结合数字图像的复制、描述、组织和长期保存等功能需求，提出《图像技术元数据》（Technical Metadata for Images,TMI）。2000年7月NISO国家标准委员会发布《数字静态图像技术元数据数据词典》工作草案1.0版（Z39.87），2002年又联合国际信息与图像管理协会（AIIM）正式发布了该草案标准版供试用[4]。研究内容包括设计原则、元数据的编码、元数据生成、元数据的设计目标等。

（4）澳大利亚昆士兰州图书馆“图解昆士兰”编目/元数据工作组（Picture Queensland Cataloguing/Metadata Working Group）制定了数字图像元数据标准，并为如何利用这些元数据标准对图片资料进行编目提供指南。工作组以都柏林核心元数据集为基础，于2002年5月制定《数字图像编目与元数据标准》，至今已经8次修订至1.2版[5]。2002年9月发布了《数字图像描述元数据使用指南》，长达29页，至今已修订至1.3版[6]。

（5）数字图像集团（Digital Imaging Group,DIG）与很多专业图像公司合作进行图像元数据的研制工作。DIG成立了图像元数据创始小组（DIG35），目标在于提高图像设备、服务、软件之间的互操作水平，以便于数字图像的处理、组织、印制、交换。2000年8月30日推出了《数字图像元数据规范》1.0版[7]，接着又在2001年6月出版了1.1版，长达219多页。标准的内容包括概述、目标、范围、设计原则、元数据交换模型、元数据存储模型、元数据定义、元数据编码、范例、相关议题、词汇表和附录等。ACD Systems、Alinari、Canto、Digimarc、G&A Imaging、Intel、OpenGraphics等公司已经采纳了该标准。

1.2 音频元数据研究项目

（1）由美国丹佛大学Penrose图书馆主持，科罗拉多州立大学等单位联合推出的科罗拉多数字化工程（Colorado Digitization Project,CDP）下设音频元数据专项小组（CDP Audio Metadata Taskgroup）从事数字音频元数据的研究，集中归纳了若干个音频元数据标准，2001年出版了《数字音频指南》，在2002年7月发布了《数字音频元数据》（草案）[8]。

（2）音频工程协会（Audio Engineering Society,AES）下设音频元数据工作组（SC－06－06），从事音频元数据研究[9]。其第25届国际大会于2004年6月举行，大会主题就是“音频元数据”。会议议题包括：广播元数据、录音元数据、元数据管理、相关标准、语音识别、全球多媒体存取技术、元数据交换、内容存取控制、内容个性化等。AES致力于研制核心音频元数据及其数据词典，在2003年3月的会议上，提交了音频管理型元数据报告。哈佛大学的D.Ackerman提出了核心音频元数据方案，会议决定把该方案发展成为标准。

（3）欧洲广播联盟（European Broadcasting Union,EBU）在1999年发起了名为“P/Meta”的项目。该项目旨在开发一种实现有关程序信息交流标准化的通用方法，以及实现元数据在视音频资料生产和发行过程中的嵌入。在2001年12月研制出广播文档的核心元数据集（Core Metadata set for Radio Archives），在Dublin Core的基础上设计了15个元素[10]。欧洲广播联盟把英国广播公司的标准媒体交换框架作为参考模型，并对电影电视工程师协会（SMPTE）元数据标准在欧洲范围内应用于公认的交换框架的可行性进行评估，于2002年发布了《元数据交换方案》（1.0版）。

（4）印第安纳大学数字音乐图书馆工程（Variations2项目）由数字图书馆创始计划（Digital Libraries Initiative）等机构资助，建设时间从2000年到2004年，经费达300万美元。该项目与多所大学建立合作关系，包括美国的西北大学、伊利诺伊大学、英国伦敦城市大学、牛津大学、日本早稻田大学等。元数据小组由Mary Wallace Davidson负责，2001年在调查用户需求的基础上研制出第一版的数据模型和元数据模型表。2001年发布《元数据元素数据词典》（1.0版），分别界定了描述元数据、结构元数据、关系元数据和管理元数据及相应的功能[11]。

（5）网络音乐数据库MusicBrainz提出了元数据计划（MusicBrainz Metadata Initiative,MMI）[12]，积极研究网络音乐资源的内容描述模式，以建立起一种可移植的、可扩展的数字音乐资源元数据体系，当前该网站有150多万条记录。MMI扩展了部分Dublin Core元素的限制属性，例如对贡献者元素，角色类别扩展到表演者、乐队、指挥、独唱、独奏、演员、作词者、配乐者、导演、制作者、音响师、录音师、技术员、混音师等；对描述项元素扩展出混录录音名称、录音地点、原版录制地点、基调等；对关联项扩展出作品集、创作者传记信息；对权利项扩展出商标、许可证持有者、歌词权利信息、器械权利信息、演奏权、发行者信息等。同时MMI也扩展了有关音乐资料的特殊元素。其扩展元素包括：注解，提供与资源相关的评论注释；歌词；同步文本，记录一些与歌词同步的文本；数字签名，记载乐曲的数字签名；链接，描述相关网页的URI，子元素有创建者、版权、唱片、乐曲、购买、混录、作品集、艺术家、音乐视频等；订购信息，包括价格、支付方式；流派，记录乐曲所属音乐流派名称；乐曲序号；乐曲集合，描述若干乐曲组成的集合，例如一张唱片、一个音乐会的集合，包括集合类型、集合数量、品牌。MusicBrainz网站已经开发出浏览和检索界面，提供艺术家、专辑、乐曲、CD索引号、TRM号检索入口，并可按字顺浏览。

1.3 视频元数据研究项目

（1）美国北卡罗林纳大学信息与图书馆学院“开放式数字视频库”（Open Video Project）项目。（后面详述）

（2）美国国防科技信息中心创建的“国防虚拟图书馆”（Defense Virtual Library,DVL）项目2000年10月推出《数字动态图像元数据指南》，2001年发布了修订版[13]。针对国防虚拟图书馆数字化转换后的录像带资源，其元数据方案根据MARC格式和AACR2规则建立了60多个字段。

（3）美国视频资源协会（Visual Resources Association,VRA）的数据标准委员会开发出VRA视频资源核心类目（Core Categories），简称VRA Core。为了满足管理网络环境下视频资料收藏的需要，并在1996年推出了VRA的1.0版，起初设计了21个元素。2000年6月发布3.0版，第3版定义了17个元素。

（4）盖特信息研究所（Getty Information Institute,GII）艺术信息工作组（Art Information Task Force,AITF）定义了艺术作品描述类目（Categories for the Description of Works of Art,CDWA），是艺术作品及其可视资源和文献资源的描述标准，包括27个核心元素[14]。

（5）澳大利亚国家图书馆主持的“图解澳大利亚”项目研究图片的元数据方案[15]。该计划整合了澳大利亚和新西兰27个单位的图像资源，包括澳大利亚国家图书馆、新西兰国家图书馆、澳大利亚档案馆、塔斯马尼亚州图书馆、昆士兰州立大学、Campbelltown市图书馆、维多利亚博物馆、澳大利亚战争纪念馆等。其元数据元素有：题名、创建者、主题、日期、地点、描述、出版者、图片编号、格式、合集、权利等。现在已经开发出面向用户的检索界面，提供简单检索和高级检索模式。高级检索模式允许用户按上述元数据元素检索所需的图片，并且可以限定到某一个单位的图片资源。

（6）视频开发计划（Video Development Initiative,ViDe）把Dublin Core 应用到视频资源的描述中，制定了《ViDe用户指南：应用Dublin Core于数字视频》[16]。ViDe还建立了视频存取工作组（Video Access Working Group），其主要目标就是要开发出适应新技术发展的元数据结构及其多样化的传递系统，推广给广大数字视频开发者和管理者，以促进大范围的视频存取。其用户指南逐一对Dublin Core15个元素作定义，说明如何把这些元素应用到数字视频的描述，还提供对应的MARC字段，例如描述项里的摘要对应MARC的520字段。该手册还使用XML/RDF来示例。另外还提供相关参考，例如地名叙词表。对特定项目提供进一步的内容，以充分描述视频资源的特征。例如创建者项，补充了授课老师、演讲者、被采访人、科学试验研究者、证人、导演、新闻制片人、广告商、解说员、主持人等角色；在描述项中，视频信息的类型共设置了28种，包括艺术作品、体育表演、典礼等。

1.4 视音频元数据研究项目

（1）美国国会图书馆的视音频元数据示范工程（AV Prototyping Project）。（后面详述）

（2）卡内基·梅隆大学的Informedia项目。（后面详述）

（3）德国教育研究部资助基于MPEG－7框架的视音频元数据自动生成研究项目（AGMA-Automatic Generation of Audio Visual Metadata in the MPEG－7 Frame work），该项目研究内容包括语音识别、音乐识别、面部识别、系统设计等[17]。

（4）国际多媒体数字图书馆工程（Multimedia International Digital Libraries,MIND），由英国斯特斯克莱德大学、谢菲尔德大学、德国多特蒙德大学、美国卡内基·梅隆大学及意大利佛罗伦萨大学联合开发的MIND工程专门安排了研究视音频元数据的任务，其中谢菲尔德大学负责研究音频元数据，佛罗伦萨大学负责图像元数据研究，研究领域涉及到视音频元数据的抽取、资源描述的自动生成等[18]。

（5）北欧视音频元数据研究小组（Scandinavian Audiovisual Metadata group,SAM）也在从事视音频元数据研究，该项目组包括了丹麦、挪威、瑞典的代表，在Dublin Core基础上研制出视音频元数据必备元素集（Minimum list），包括标题、作者、编辑者、出版部门（department）、版权所有（owner）、主题（theme）、播出日期、描述（comment）等元素，如括号中所注，SAM的数据元素名称比较特别，如它所使用的“theme”元素对应于“subject”，“comment”对应于“description”[19]。

（6）电影电视工程师协会（Society of Moving Pictures and Television Engineers,SMPTE）致力于为视频制定通用的保存格式，发布了元数据词典。SMPTE元数据词典为时间和地点预留了位置，以便进一步深入到生产时间、环境时间、生产地点、环境地点等元素，其中地点一项同时以国家代码和地名、经纬度等形式来描述[20]。

（7）MPEG－7，即多媒体内容描述接口（Multimedia Content Description Interface），MPEG家族的新成员，是由运动图像专家组（MPEG）制定的描述多媒体视听数据的规范，目的在于提供标准化的核心技术，使多媒体环境中的视音频数据内容得到规范描述。MPEG－7是一个灵活的可扩展的框架，它将其他多种标准纳入考虑范围，如SMPTE元数据词典、DC元数据、EBU Project P/Meta、TV Anytime。MPEG－7标准包括7个部分：MPEG－7系统、MPEG－7描述定义语言、MPEG－7音频、MPEG－7视频、MPEG－7多媒体描述模式、MPEG－7相关软件、MPEG－7一致性。MPEG－7对多媒体信息资源的管理可以实现以下功能：内容制造、内容生产、内容传播、内容消费使用、内容组合、知识产权管理和保护、内容确认和描述、金融管理、用户隐私、网络资源抽象、内容表达和事件报道。

2 国外主要视音频信息元数据项目介绍

下面重点介绍几种视音频元数据项目，从中可了解国外视音频元数据研究的动态和趋势。

2.1 Informedia项目

卡内基·梅隆大学的Informedia项目创建于1994年，是美国自然科学基金会、美国国防高级研究部和国家航天航空局资助的6个项目之一。至今，它拥有一个数千兆的数字视频资料库，包括了数千小时的视频文件，可分割成50,000多个故事或文档。其视频资料库有两种类型的视频数据：新闻视频数据和文献视频数据。前者来自美国有线新闻网（Cable News Network），后者的资料来自于英国开放大学（British Open University）、QED通讯社、Discovery频道、一些美国政府机构（包括NASA、国家公园服务处、美国地理勘测局）。从1994年开始，这个项目对来自CNN的新闻视频资料和其他机构的文档、教育视频资料以MPEG－1格式进行数字化。

Informedia视频库采用都柏林核心元素集的资源描述模式，研究元数据的自动生成及基于内容的视频检索等技术和方案。该系统中一些属性是已给定的，如制作者、版权持有者和播放日期。还有其他的属性，如：起止时间、镜头顺序、缩略图和版本，都自动从视频文件中提取出来，分散到文档中，再进行编目。Informedia视频库采用都柏林核心元素集的资源描述模式来建立一个高水平的元数据框架。以现有通用的元数据框架为基础，对特殊视频资料再增加特定的描述元素，使得馆藏视频资料可以在同一框架体系下被描述。Informedia元数据储存在一个关系数据库中，并采用相同的检索方式。信息媒体计划在视频库利用语音识别、图像处理和自然语言理解去自动产生元数据方面开了先河。Informedia项目运用语音识别、图像处理和自然语言处理技术可自动析出元数据，相同的元数据可以保存为XML，通过XSLT再转化为大量的视图页面，这些视图页面都是适合用户需求和带宽要求的。但在语音、图像和语言的处理上仍存在缺陷，与手工标引的数据相比，自动生成的元数据在描述符号上有误差。Informedia项目还研究根据拼贴画元数据自动生成摘要。

Informedia文件的元数据可以用XML来表达，通过使用一个数据类型定义或者XML计划便可实现。事实上，一个描述非常详细的XML 文档可以转化成一个最小化的都柏林核心层面，或者通过XSLT的转换。目前已经开发出一个信息可视化界面，这可让用户浏览整个检索结果。这种可视化技术允许用户基于日期（When）和事件（What）在信息媒体资料库中浏览和检索视频资料。

2.2 美国国会图书馆视音频元数据示范计划

美国国会图书馆的视音频元数据示范计划（Audio-Visual Prototyping Project），已经制作出一个数据表和一个视音频元数据数据词典[21]。国会图书馆视音频元数据项目的实验数据是1999—2004年间的馆藏视音频资料。它计划在弗吉尼亚州的Culpeper建立全国视音频信息保护中心（National Audio-Visual Conservation Center），将于2005年对外开放。该项目建立了元数据抓取数据库（metadata-capture database）。2001年公布了视音频元数据表，并建立了视音频数据词典。其元数据表的具体情况如下：（1）元数据表共定义了71项内容，对每项内容都有详细的解释。（2）把描述对象分出5个层次：组/套层次、集合层次、主体对象层次、中间对象层次、终端对象层次。（3）定义了各元素的必备性、可重复性，其中必备性又分为始终必备、有则必备、根据应用或系统情况决定必备。（4）对每个元素进行功能定义，数量从1项到6项不等，这6 项功能是：表达（presentation）、存取管理（access management）、管理（administration）、发现（discovery）、数据保存（preservation of data）、重定格式处理记录（documentation of reformatting actions）。

2.3 开放式数字视频库项目

美国北卡罗林纳大学信息与图书馆学院自1998年起创建了“开放式数字视频库”（Open Video Project），由该学院的互动设计实验室负责开发，主要研究人员有Gary Geisler、Rich Gruss、Xiangming Mu等，旨在建立数字视频内容的共享库[22]。Open Video项目在MPEG－7的基础上制定了视频元数据方案，形成一个多层次、多渠道的视音频元数据体系，以实现数字视频的共享。至今已拥有近2500个视频片段，其中有彩色的，也有黑白的，有有声的，也有无声的，有的时长达50分钟，有的文件达1000多兆，共计达0.5TB。

Open Video元数据结构体系采用分层管理方式，从视频的组织结构方面分解出视频、剪辑、场景、镜头、帧和区域6个层次。每个视频段由一些连续的场景组成，每个场景由一些连续的镜头组成，每个镜头由一些连续的帧组成。这种分层结构可以通过关联项（Relation元素）来定义，如Is Part Of和Has Part等。另外又从描述内容上分出高层书目信息和低层视音频特征信息，并且分别按文本、视频、音频来描述。

3 小结

上述资料表明，国际范围内研究视音频信息元数据标准和方案的计划和项目大大小小有数十个，分布于图书馆、博物馆、高等院校的计算机系和图书馆学系、图书馆协会组织、国家标准化机构、视音频资源管理和技术行业等领域，分布范围之广说明不仅仅是图书馆界在关注视音频元数据的研究。分析一些主要的视音频元数据研究项目的实施情况可以发现，国外视音频元数据项目已经取得了丰硕的成果，既有理论的总结，也有一系列标准、使用指南、数据构成方案设计、数据词典、编码语言设计、检索技术实施等，在实践应用和技术开发方面都取得了很大进展。从这些项目的组织实施的情况看，视音频元数据研究团队具有很强的国际性，跨机构、跨地区、跨国的合作项目较多。视音频元数据研究项目与视音频信息资源的组织、检索、利用、传递、共享日益密切结合，这样一来，视音频信息元数据就不再停留在自身层次，使得研究项目具有较大的应用价值。

标签：元数据论文; 音频应用论文; 数据检索论文; 图书馆论文; 数字图像论文;

国外音像信息元数据研究综述_元数据论文

猜你喜欢