OAI集成信息检索系统研究与设计

OAI集成信息检索系统研究与设计

李勇文[1]2004年在《OAI集成信息检索系统研究与设计》文中研究指明随着计算机技术、网络技术以及信息检索技术本身的发展,信息用户的需求呈现出网络化、集成化、智能化、个性化的特色。在图书情报领域,尤其是在数字图书馆体系架构里,基于分布式计算技术和各种互操作机制的整合检索和整合浏览,便成为我们关注和研究的重点内容之一。OAI元数据搜寻协议通过元数据搜寻和检索集成这种模式为发布Web信息的机构间实现互操作提供了一个与应用无关的互操作框架,因此,本文选择OAI作为研究对象,并探讨基于OAI-PMH开放元数据搜寻的集成信息检索系统的设计与实现。 分布式计算技术和分布式体系结构是实现互操作的基础。典型的分布式计算技术包括DCOM、RMI、CORBA、Remoting等,公认的优秀分布式计算平台包括CORBA、JINI、Web Services、Enterprise JavaBean等,本文对上述分布计算技术及分布体系结构进行了介绍并对他们各自的功能和特点作了简单比较。计算环境的互作性建立于网络、数据、应用程序和管理服务四层框架之上,而数字图书馆领域内实现的互操作模式均源于计算环境互操作性的支持。难于实现裸数据层次上的整合,因此,我们致力于系统层次上“服务”的整合。目前,分布异构信息整合检索的热点技术突出表现为:实现深层次的知识挖掘;满足知识检索的要求;实现异构信息整合检索和全息检索;满足个性化用户需求等方面。 OAI-PMH是一个低入门级的元数据互操作协议,基于XML和HTTP的POST或GET方法,实现对互联网上数据提供者元数据仓库的开放搜寻。本文对OAI协议的提出背景、OAI协议的基本特征、OAI-PMH协议规范的内容、国内外研究及应用现状进行了介绍。本论文的主要目标是设计一个基于OAI开放元数据搜寻的集成信息检索系统。因此,本论文的主要任务体现在实验环境的构造及OAI各系统模块的逻辑设计和编程实现。完成的模块包括数据提供者的OAI接口模块、服务提供者的搜寻及搜寻调度管理模块、基于搜寻到的元数据的检索服务模块。通过各模块集成实验验证,程序能基本正常运行:数据提供者能为服务提供者提供搜寻接口;服务提供者能实现对本地和互联网上的数据提供者进行开放搜寻,并在此基础上为用户提供元数据库检索服务。实验环境不等于实现环境,本文也给出了在实现环境中需解决和继续完善的有关问题。 239.50通过对编码方式和内容语义的标准化来实现不同系统间的互操作,本文对OAI和239.50的互操作机制和实现功能作了简单比较。为了构建一个健壮、高性能的OAI现实运行系统,有必要在理论上对一些关键问题加以探讨,这些问题可能包括:减少元数据转换匹配差异;查询算法选择及优化:数据仓库内容同步等。关键词:OAI元数据互操作元数据搜寻集成检索XML数字图书馆

李书明[2]2011年在《数字化学习中知识组织模型及应用研究》文中研究说明数字教育资源是数字化学习的核心。教育资源因信息爆炸性增长造成了广大学习者的认知过载,一方面存在海量的信息资源,另一方面却难以发现符合个人需求的资源。这要求传统的信息资源组织与服务方式应向更简洁、准确的知识服务发展。知识服务以知识为对象,通过教育资源的描述、分类、关联等组织策略,为学习者提供个性化的资源检索、导航、推送等服务,并成为数字化学习中教育资源有效应用研究的热点问题。数字教育资源与学科知识分类体系密切关联,具有知识性、逻辑性、专业性等特点。传统的资源组织方法,如主题词表、分类法、元数据描述法等难以满足海量教育资源的内在关联关系,实现教育资源的有效组织和管理,导致教育资源的应用效率、效果低下。另一方面,由于数字教育资源包含的学科门类众多、知识体系各异、语义关系特征复杂,对面向学科的知识理解和语义互联的知识组织方法提出新的需求。针对教育资源应用中存在的问题,论文研究基于学科本体的知识组织模型,结合教育技术标准、自然语言处理(NLP)等技术,研究教育信息资源特征信息自动提取方法,以及学科自动分类机制,探索知识组织模型应用策略和方法。论文的主要研究工作体现在:(1)教育资源知识组织模型。论文构建了基于学科本体的教育资源组织模型,包括资源语义特征、元数据特征以及关联特性等。论文构建的基于学科本体的教育资源组织模型包括资源实体层,资源逻辑层、资源本体层和用户接口层,通过逻辑描述和和组织,屏蔽资源实体的不一致,解决教育资源在知识表示上的异质性问题,为提高用户的访问和查询效率提供有效支持。此外,论文以教育技术学学科为例,参照《中国图书馆分类法》的分类体系,建立了教育技术学教育资源的知识组织分类体系,通过实例分析的方式来验证与分析模型的有效性。(2)面向学科的教育资源元数据自动提取方法。论文将教育资源描述信息划分为描述类元数据和语义内容类元数据,提出了一种面向学科的、规则和统计模型有机结合的教育资源元数据自动提取方法。该方法结合关键词、位置、文档结构信息等特征进行描述类元数据自动抽取,结合学科主题词、学科知识分类体系等,采用统计学习的方法抽取语义内容类元数据信息。论文设计和实现了教育资源元数据抽取系统,对教育技术学的2000多篇期刊论文进行了可行性实验证明。(3)面向学科特征的教育资源自动分类方法。论文提出了一种面向学科的、基于主题词特征的教育资源自动分类方法。论文结合教育技术学学科知识分类体系,构建一个面向学科的教育资源主题分类模型;并以教育技术学主干课教材以及核心期刊论文作为知识源,研制了教育技术学主题分类词表;通过构建面向学科的主题特征抽取方法、以及基于学科主题的文档分类方法,提出了一种面向学科的、基于主题词的学科分类策略,并开发了面向教育技术学学科的教育资源自动分类系统。实验结果验证了面向学科的教育资源自动分类方法有效性。(4)基于知识组织的教育资源导航原型系统及应用研究。将教育资源知识组织模型应用于数字教育资源的组织、导航与检索,构建基于知识组织模型的数字教育资源导航原型系统。论文以教育技术学学科为应用背景,利用教育资源知识组织模型实现了教育技术学学科网站的知识组织,实现对网络教育资源的分类导航。论文的特色之处体现在:1)构建了基于学科本体的教育资源组织模型,建立了教育技术学教育资源的知识组织分类体系,通过实例分析的方式来验证与分析模型的有效性。2)基于学科知识分类特征,提出了一种规则和统计模型有机结合的教育资源元数据自动提取方法。3)提出了一种面向学科特征的教育资源自动分类方法。研究成果对于面向教育的知识服务体系建设具有一定的理论和实践指导意义。

王旭[3]2013年在《国内数字图书馆集成检索系统发展对策研究》文中认为随着计算机存储技术和传输技术的迅速发展,数据库资源和网络信息资源成为重要的资源类型。以数字信息资源为主要资源类型的数字图书馆建设方兴未艾。因特网的发展为用户提供了数据库和网络信息资源查询的新的媒介,通过网络检索用户需要的资源成为图书馆重要的服务方式。但随着图书馆数字信息资源总量日益增长,图书馆资源类型也日益丰富,其中包括购买的各类型数据库以及共建和自建的特色数据库,也包括经过加工的网络信息资源。然而各数据库在收录范围,数据结构,检索要求,结果返回及传输协议等方面存在很多差异,同时也受图书馆软硬件系统以及服务水平的限制,造成用户在检索方面难度高,效率低,负担重。集成检索成为用户一站式的检索多个不同类型的数据库资源,提高检索效率的有效方式。集成检索是数字图书馆的重要组成部分,各类数据库和图书馆也普遍重视集成检索平台的建设。集成检索目前阶段主要实现分布异构数据库的检索。以多个分布式异构数据源为检索对象,通过统一的检索接口,在统一的检索界面实现对不同数据库、不同数据源类型的资源进行检索,并经过分析、整合、去重、排序等操作后,返回用户统一的检索结果。集成检索的这些基本功能提高了用户的检索效率也提高了图书馆数字信息资源的使用效率。但是,近年来,国内数字图书馆建设在资源数量上得到了极大的发展,通过购买、共建和自建等方式扩大了数字资源的数量和种类。但是很多数据库资源采取不同的数据库结构和数据存储格式,对于存在于多个异构式的数据库的大量数据不能提供统一的检索接口,使得各数据不能共享检索,因此,对图书馆集成检索的现状进行研究便得更为迫切。本文从四个方面对集成检索系统进行了阐述:首先论述了集成检索系统的发展,包括集成检索系统的源起和国内外集成检索系统发展两个部分;接着介绍了国内集成检索系统的建设现状,详细阐述了集成检索系统的功能并列举出了国内集成检索系统的几个典型实例;然后分别从建设理念和技术两个角度对我国集成检索系统建设问题进行了分析,最后提出了我国集成检索系统的发展趋势及应对策略。

杨媛[4]2012年在《数字图书馆信息集成系统研究》文中研究指明随着信息产业革命的到来,科学探索也进入了新的阶段,科学数据爆发式涌入,科研人员往往需要借助数字图书馆的资源力量,找到自己所需的具有价值的信息。但是,目前数字图书馆中的数字化资源往往是不同厂家提供的,它们运行在异构分布环境中,形成了许多个信息孤岛,不利于信息的统一检索利用。我们所要研究的就是通过某种资源整合机制实现信息的集成聚合,完成一站式检索的目的,使不同类型资源在同一平台上得到集成和统一检索。本文首先介绍了信息集成的相关技术,内容包括以数据仓库为基础的资源整合机制,与信息集成密切相关的Web Service技术和数字图书馆常用协议。在系统分析部分,文章首先从需求入手,对系统所需集成数据类型,集成后数据性能等做出了概括性分析,然后,从用户角度和系统管理员角度,对系统所需实现功能做了详细分析,并以用例图的形式将系统需求形象的呈现出来。系统分析章节最后将系统中重要的数据集成功能抽象为集成、模式处理、清洗处理、抽取等几个模块,通过数据抽取时序图反映这几个功能模块的关系及工作数据流方向。在系统设计阶段,文章首先对系统的整体架构做出了明确划分,将系统分为持久层、业务逻辑层、表示层叁层。针对数字图书馆数据集成的特点,文章对系统的管理员控制模块功能、数据集成模块、数据仓库维度模型、元数据的设计与维护、数据去重、相关度排序、数据更新等内容进行了详细分析设计。其中,着重对集成模块进行分析,将其划分为集成接口、抽取模块、模式转换模块、数据清洗模块等几部分,并以面向对象方法进行类的定义。在系统实现部分,系统技术架构使用Struts+Spring+Hibernate的组合,利用它们分别对系统表示层、业务逻辑层和数据持久层进行实现。文章中对部分关键代码做了展示,并着重对检索优化的实现方式进行介绍。文章最后对系统设计工作做出了整体的评价,并对未来系统技术升级、功能完善等问题进行了展望。

唐兆琦[5]2008年在《基于DSpace的机构仓储应用研究》文中认为随着信息技术和网络技术的发展与成熟,传统的学术交流方式已经不能适应网络条件下信息交流的需求;现行的学术出版模式也存在效率低下等诸多弊病,版权问题、费用问题也是矛盾突出;由此而发起的开放获取运动,虽然在一定程度上促进了学术交流的发展,但是科研人员可以获取的开放资源却非常有限。而与此同时,学术机构在日常的科研工作中,产生了大量的、复杂的、数字化的科研资料和学术出版物,科研人员对这些资料的利用非常不便,各个机构之间共享资料也非常困难。为此,学术机构迫切需要一种方式来收集、整理、保管这些资料,从而实现资源的充分利用和共享。在这些背景下,机构仓储(Institutional Repository,IR)产生并得到了迅速的发展。同时,众多科研机构规划并实施了机构仓储系统,取得了一定的成果。从发展趋势来看,机构仓储系统的建设和应用是解决学术机构数字资源管理问题的有效途径。论文首先对国内外机构仓储的产生背景和发展现状进行了调查研究,提出了机构仓储发展所面临的问题;对机构仓储的特征及建设机构仓储的意义进行了总结阐述,对开放获取和机构仓储的概念内涵进行了深入的分析,对构建机构仓储的软件进行了分类介绍,重点研究了几种常用的开源软件系统。提出了机构仓储需要遵循的业界标准和技术规范。其次,论文分析了开源软件DSpace的功能,对DSpace项目的产生、发展和应用情况进行了研究,从DSpace系统的数据处理、用户与数字对象管理,浏览与检索,统计与订阅服务等方面进行了详细的讨论,并分析了DSpace系统的叁层逻辑结构以及各层的功能,总结得出了DSpace系统在应用中的优势和不足。再次,论文分析提出了上海交通大学机构仓储系统的需求,包括功能需求和技术需求;阐述了系统建设的目标和意义;设计了上海交通大学机构仓储系统的整体模型;制定了机构仓储系统的工作流程和系统实施的详细过程,包括编码环境的设定,信息交换、Web界面和索引的中文支持,文件格式和元数据扩展,工作流的定制和管理等,实现了上海交通大学机构仓储系统的基本功能。最后,论文基于IR系统设计出了上海交通大学学术信息平台的基础框架。通过分析现阶段机构学术信息交流的现状,以及科研人员对机构信息平台的实际需求,提出了建设学术信息平台的新思路,将学术门户、学术交流、虚拟学习等分布的应用系统有机的整合在一起,实现与这些学术应用系统以及其他信息管理系统、电子资源系统等的互联互通。作者将SOA设计模式应用于学术信息平台的构建;设计了学术信息平台的技术架构,提出了学术信息服务总线的概念。分析了基于IR的学术信息平台的服务流程,包括系统服务功能的分解和标准接口的定义。最后设计了基于IR系统的上海交通大学学术信息平台软件体系架构。作者希望通过上海交通大学机构仓储系统和学术信息平台框架的构建,能够长期保存上海交通大学的科研资料;方便校内外及国内外同行学者之间的学术交流和知识共享;能够有效的改善现在机构中学术信息交流不畅,科研产出受制于传统学术交流模式的现状,有效的支持科研生产的全过程,提高科研的产出效率。

李玉斌[6]2009年在《跨库检索技术研究及其在期刊检索平台中的应用》文中研究表明电子期刊检索平台是数字图书馆的重要组成部分,主要为用户提供查找和选择期刊数字资源的功能。图书馆中期刊数据库有不同的使用方式、检索界面及资源数量,这就要求电子期刊检索平台具有通用性和可扩展性。异构数据库的跨库检索是电子资源整合的核心技术。跨库检索技术具有并发检索能力和界面统一的特性,对于实现图书馆数字资源整合、提高检索效率以及资源利用率等方面有着重要的意义。论文结合具体课题,对比分析了不同的异构数据库检索技术,并且在此基础上提出了一种基于群集智能算法理论的Ant-Agent技术实现跨库检索功能模块的完整方案。论文对系统结构框架和详细模块功能进行了分析,介绍了Agent的原理、开发技术及基于Ant-Agent的跨库检索平台系统开发方法,设计了基于Ant-Agent的用户操作、查询分配模块和检索结果汇总模块以及数据库接口的系统组件,基于系统框架并结合课题对象的具体状况实现了西安电子科技大学图书馆的电子期刊检索平台。本系统框架设计层次清晰,具有适合于用户查询需要的优化算法,适应了提高电子期刊资源检索服务能力的需要。实现统一跨库检索,使读者能够在一个服务平台上完成以上所有数据库的检索,提高检索效率。

闫志红[7]2008年在《我国高校图书馆数字资源整合模式研究》文中认为20余年的信息化建设,数字信息资源逐渐成为了信息资源的主流,高校图书馆作为一个专门从事收集、整理、保存并传播知识的机构,在这场数字化革命中也悄然的发生了变化,正在面临着前所未有的机遇与挑战。伴随着各高校图书馆的数字化建设,整序数字信息的异构资源系统急剧增加,使得数字信息资源呈现出局部有序而整体无序的状态,优化数字资源利用环境,有效获取知识成为了人们关注的焦点。基于此,图书情报界提出了数字资源整合的概念,数字资源整合(Digital Resource Integration)是对多个相互独立的数字资源进行优化组合的过程,即根据用户的需求和资源的特点,通过各种技术、方法和手段,对图书馆所拥有的相对独立的资源系统中的数据内容、功能结构及其检索方法进行聚类和重组,形成一个标准化的查询准则,从而克服不同信息资源之间的数据结构、信息提取过程不统一的问题,提升信息之间的关联度,解决“信息孤岛问题”,实现“一站式”服务。本文针对数字资源整合的核心问题——整合模式进行了研究。本文研究的主题是数字资源整合模式的构建与实现,以及与之相关的一些法律和商业方面的制约因素,所以研究的内容涉及整合技术、整合系统、整合现状分析等方面的问题。首先,通过文献分析阐述了国内外数字资源整合研究现状;其次,提出了数字资源整合的模式,并对其实现进行了探讨;再次,分析了我国高校图书馆数字资源整合的现状;最后,针对前面内容提出了需要解决的问题。通过收集大量的文献,并进行分析统计后可以发现目前国内理论研究尚不深入,研究方法较单一,研究的空间较狭窄,对跨学科的研究重视不够,技术基础相对薄弱。在前面研究成果的基础上,本文提出了数字资源整合的叁维模型,打破了原来的平面式的整合模式,把数字资源整合放到了立体的空间中进行研究,其目的是更为全面、形象、生动的分析问题,并对其各维度的实现进行了初步探讨,分别从资源纬R的数据存储、服务纬S的数据组织、应用纬A的数据检索这叁个方面展开。本文还进行了大量的网上调查,对各高校图书馆的现有整合模式进行了分析,包括整合资源类型以及所采用的整合系统等,在调查中发现,各高校图书馆展现给用户的平台类型多种多样,各单位所提供的平台名称也五花八门,其平台所处的位置差别也很大,整合系统的功能差,整合数据不规范,整合层次低,整合资源类型有限,都是目前各高校图书馆数字资源整合所存在的问题。本文在最后就构建数字资源整合模式提出了需解决的问题,包括管理体制、资源整合范畴、技术水平、标准规范、资金、观念、人才等。通过本课题的研究,为各高校图书馆寻求有效的数字资源整合模式提供一定的参考和依据,同时,也为最大程度的消除信息孤岛,促进数字资源的共建共享做一个铺垫。

柯青[8]2004年在《网络环境下异构信息检索标准体系研究》文中研究表明20世纪80年代以来,随着因特网的发展和信息技术的进步,网上的信息资源越来越丰富,在数量越来越庞大的同时,网上信息也呈现出多种多样、结构互异的特征。但是网上信息资源缺乏一个统一的描述标准,不同的异构信息之间交换没有一个恰当的协议。因此研究网络环境下,异构信息检索的标准体系成为当前信息检索领域的一个研究热点。本文基于上述思想,从横向和纵向两个角度,系统的研究了目前用于网上异构信息检索的一些主要的协议和规范。 论文共分叁部分: 第一部分包括文中的第一章,首先分析当前网络信息资源的特点,及对网上信息检索系统提出的新要求;接着研究了网上异构信息的发展现状及当前研究的主要内容;最后总结了异构信息检索的研究现状和存在问题。 第二部分包括文中的第二章至第六章,这是本论文的重点和难点,主要介绍了当前用于网上异构信息检索的一些主要协议和规范。鉴于元数据、Z39.50及XML在实际运用中的重要性及广泛性,分别用一章的篇幅较详细的介绍了这叁种协议的概念、对信息检索的意义、体系结构、实际中的应用、存在的问题及发展趋势。第五章则对其它常见的协议和规范较简略的系统介绍。第六章在前文分析的基础上,对本文所论及的标准从起源、制订目的、应用领域、体系结构等角度作横向比较,本章亦可看成第二部分的小结和深化。 第叁部分包括文中的第七章,总结了本论文研究的理论指导意义和实践指导意义,分析了文中未能解决的问题和原因,并对下一步研究提出展望。 标准的制订也是随时代的发展呈现动态的特征,新的标准不断的被制订出来并用于实践,旧的标准也面临被淘汰的必然,在当前背景下,研究网络异构信息检索的标准无疑具有重要的意义。随着这项工作的开展,各行各业对如何选择本行业最适合的用于集成异构数据间的协议和规范将有更加清晰的认识。

胡昌平, 周永红[9]2005年在《信息集成服务回顾与展望》文中指出随着信息资源网络的发展和基于网络的数字信息资源共建共享的推进,在目前创新平台和面向公众、企业和部门的信息服务中,基于资源整合的信息集成服务已成为现代信息服务的一个重要发展方向。近几年来,理论界和信息服务行业在关注个性化服务的同时,也非常重视和关注集成服务。本文通过近几年的研究回顾,在分析面向用户的信息集成服务现状及研究进展基础上,对其发展和业务推进进行了进一步探索。

毛广卫[10]2011年在《基于DSpace的中国农科院机构仓储系统的研究与实现》文中研究指明随着信息技术的不断发展,各行各业都掀起了资源信息化、网络化的热潮,图书馆作为各高校、科研机构研究人员的资源后勤,更需要紧跟时代的发展,不断加快科研资源的数字化、信息化进程;在进行资源数字化的同时,为更好的为科研人员提供信息服务,各高校/科研机构图书馆每年要花费巨额资金用于购买商业数据库,而各库的费用呈现逐年递增的趋势。为抵制商业出版的垄断,节省科研经费,让科研人员获得更加完善的信息资源服务,图书馆界科研工作者提出了“资源开放获取”理念,并掀起构建机构仓储系统的热潮来逐步实现这一理念。在上述背景下,论文首先对机构仓储系统的理论知识与国内外发展现状进行充分的研究与分析;然后在对中国农科院各科研所对科研人员知识资源的组织与保存情况进行详细的调研分析的基础上,提出中国农科院机构仓储系统的建设目标与功能/技术需求;最后根据技术需求对所要用到的开发技术、标准与协议进行学习,对DSpace软件系统原型的产生背景、发展现状、功能特点等进行分析研究。在用户需求分析与软件技术学习的基础上,论文对中国农科院机构仓储系统的体系结构与功能模块进行详细的设计,其中体系结构包括为用户提供服务的应用层、处理系统运行逻辑与管理系统资源的业务逻辑层和组织管理后台数据库和数据资源的存储层叁层;功能模块又分为采集与提交模块、存档与管理模块和发布与服务模块叁大功能模块。论文在DSpace系统原型的基础上进行功能的修改与拓展,实现对上述功能设计的支持,主要实现的操作包括:根据国内科研用户的习惯进行系统显示界面的汉化和操作流程的修改;更改系统搜索模块中结成的Lucene引擎,添加JE分词器,使系统能更好的支持对中文内容的检索;增加按作者和资源标题显示的资源上传下载排行,作为激励科研工作者上传科研资源热情的一个策略;基于农科院特色资源“农业叙词表”,通过更改JE分词器词库内容和使用Web Service技术实现对系统检索结果的扩展;采用OpenURL和SRU协议实现对CNKI、万方数据库的集成检索,将检索结果显示在本机构仓储系统的用户界面中,减少用户对不同数据库检索时要打开不同检索系统的工作量。论文希望可以通过构建中国农科院机构仓储系统,实现对农科院各研究所科研人员科研产出的长期保存,加强院内外及国内外同行间的学术交流,同时提高院内各科研工作者的学术知名度,加速学术研究的进程。

参考文献:

[1]. OAI集成信息检索系统研究与设计[D]. 李勇文. 四川大学. 2004

[2]. 数字化学习中知识组织模型及应用研究[D]. 李书明. 华中师范大学. 2011

[3]. 国内数字图书馆集成检索系统发展对策研究[D]. 王旭. 湘潭大学. 2013

[4]. 数字图书馆信息集成系统研究[D]. 杨媛. 天津大学. 2012

[5]. 基于DSpace的机构仓储应用研究[D]. 唐兆琦. 上海交通大学. 2008

[6]. 跨库检索技术研究及其在期刊检索平台中的应用[D]. 李玉斌. 西安电子科技大学. 2009

[7]. 我国高校图书馆数字资源整合模式研究[D]. 闫志红. 重庆大学. 2008

[8]. 网络环境下异构信息检索标准体系研究[D]. 柯青. 武汉大学. 2004

[9]. 信息集成服务回顾与展望[J]. 胡昌平, 周永红. 图书馆论坛. 2005

[10]. 基于DSpace的中国农科院机构仓储系统的研究与实现[D]. 毛广卫. 中国农业科学院. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

OAI集成信息检索系统研究与设计
下载Doc文档

猜你喜欢