基于模式的XML文档模糊检索技术

基于模式的XML文档模糊检索技术

周卫峰[1]2004年在《基于模式的XML文档模糊检索技术》文中指出Internet己成为当今和未来人们获取资源和信息交流的主要场所,而Web则是Internet上应用最广泛的服务。到目前为止,几乎所有的Web页面都是用HTML编写的。HTML简单易学又通用,句法简明紧凑,使它得以在Web页面上大显身手。但是随着互联网技术的飞速发展,HTML语言本身所具有的弱点,使得其已不能满足Web越来越广泛的应用。XML可扩展标记语言是专门为Web应用设计的一个简单的SGML的子集,既克服了HTML的不足,又除去了SGML中那些对于当前Web用户来说不必要的特性,必将成为Web应用的主流标记语言。 本文在对XML文档的特点、XML文档的基本理论、XML查询语言及传统信息检索模型在XML文档检索中的应用等问题进行仔细分析的基础上,提出了基于模式的XML文档模糊检索模型系统的总体系统框架及具体算法。作者首先将查询语言XQL作了一些改进,提出了一种简单的模糊查询语言。它支持分类层次体系结构及布尔查询模式,实现了基于模式的模糊检索算法来对XML文档的检索。充分利用XML文档查询语言分类层次体系结构的特点,对每个XML查询式分析其结构,从而实现XML查询的扩展。利用查询扩展代价来进行查询结果的排序。采用太原理工大学硕士研究生学位论文自底向上的查找方法实现路径匹配,准确定位用户的兴趣需要。同时最大限度地减少检索时间,提高检索速度。本系统还只是个原型系统,相信随着时何的推捧,其功能将不断完善;必将成为一个真正实用的系统。

江腾蛟[2]2006年在《XML文本文档检索技术研究》文中研究表明XML具有自描述性、可扩展性,既有内容也有结构信息,XML文档常见于Internet上存在的网页、商业文本、数字图书馆等,XML文档数量正呈指数级增长。如何有效地解决异构的XML文档集的检索已变得非常重要。 依据内容,XML文档分为两类:以数据为中心(data-centric)和以文档为中心(document-centric)。以数据为中心的XML文档的检索一般采用数据库方式(DB-style)查询,如已成为W3C标准的XPath和XQuery查询语言;以文本信息为中心的XML文档多采用信息检索方式(IR-style)查询。 信息检索不同于数据库检索,它是一种非精确的、模糊的和部分的匹配过程。XML文档是异构的结构与文本内容结合的半结构化数据,针对XML文档的信息检索不是传统信息检索的简单延伸:①带结构信息的XML文档检索返回XML元素结点(片断),而传统的信息检索返回整个文档或网页;②传统的文档检索是关键词检索,它没有结构信息,XML检索不仅有内容约束,还要有结构约束,要求关键词查询和结构查询相结合;③XML检索要求统一的排序机制以适应模糊内容和结构(VCAS)的检索:④XML检索可以是元素粒度的检索,元素结点的权重不同。 本文在研究XML文本文档检索特性的基础上,分析了VCAS检索的影响因素;充分利用预设答案结点的逻辑意义完整性,结合模糊抽取的查询表达式,确定检索的最佳查找粒度;设计了VCAS检索的结果相关性排序模型,以及满足这种排序模型的索引结构,并在VC环境下实现;在此基础上,进一步根据用户对查询结构的自信程度设计了可配置查询参数的检索结果相关性排序模型。 具体而言: (1)XML文本文档的半结构化特性,为XML文档元素粒度的检索提供了可能。提出了根据预设的答案结点和用户查询请求的结构,重新设置返回结点的新思想,避免检索粒度过大(浪费用户浏览结果时间)或过小(逻辑意义不完整)的缺陷。 (2)排序模型扩展了经典的向量空间检索模型,结合XML文档特点,考虑了文档权重、结点权重及返回结点文本大小的影响。一篇文档被引用得越多,说明其越重要;XML文档中的结点不仅反映出文档的层次结构关系,还存在有一定的语义,因此不同的结点应该语义权重不同,同时结点的引用及包含关系也反映出结点的引用权重的不同;返回结点的文本越小,用户浏览检索结果的时间越短,越受用户欢迎。 (3)对于XML检索,结构的使用可增加查准率,但若用户对结构不熟悉,过

唐敏[3]2008年在《基于XML的网络化制造资源智能检索技术的研究》文中指出网络化制造是在网络经济下产生并得到广泛应用的先进制造模式,它利用网络技术,突破企业之间存在的空间地域,实现企业之间的协同和各种资源的共享与集成,从而缩短产品的研制周期和减少研发成本,促进企业的快速发展。制造资源检索是网络化制造环境下,整个企业之间协作环节链中的起始点,也是成功实施网络化制造的前提和基础。本文主要针对制造资源检索结果的相关性以及检索效率,提出基于XML技术的网络化制造资源检索系统。通过XML模式文件XMLSchema对制造资源进行统一描述,屏蔽了制造资源的异构性,使资源模型在网络化制造中得以实现;基于这种资源描述方式,提出一种在关系数据库中存储XML文档的方法,这种方法是基于XML Schema的,通过XML模式向关系模式的转换,实现XML文档在关系数据库中的存储,并且对XML模式中各结点采用扩展的Dietz编码,确保在XML模式向关系模式转化的过程中,保持XML模式内容、结构和语义的完整性。基于这种存储方法,研究如何将XPath查询语言转化为SQL,实现对存储在关系数据库中的资源信息进行快速、有效的检索。按照XPath表达式产生XPath查询图,通过XML Schema的Dietz编码,完成XPath查询中的加速定位,并依据定位方法得到的Dietz编码产生SQL语句,从而完成查询语言的转化。并以数控机床为例,设计开发出基于XML的网络化制造资源检索的原型系统,给出系统各功能模块关键技术实现的方法,对原型系统进行了应用验证。

乐秀夫[4]2009年在《XML数据查询技术在软件资产管理系统中的研究及应用》文中指出软件复用可以有效地提高软件的质量和生产率。实践表明,大量可复用软件资产能够有效提高软件复用的效能。软件资产管理包括了对资产进行描述、分类、存储、检索和维护等相关操作的过程。它连接着软件复用过程中的资产生产者和复用者。企业构建资产库的过程就是对软件复用思想以及软件资产管理的一种具体探索与实践。本文从理论和技术两方面对可复用资产的管理和检索进行了研究。在对可复用软件资产的管理的研究中,文章归纳总结了建设软件资产库的过程和技术方法。研究的目的是使软件企业建立企业级资产库的过程更加规范、完善,从而降低基于复用的软件开发的生产成本,提高生产效率和软件复用的水平。在对资产检索方法的研究中,笔者通过改进检索机制,提高复用软件资产的效率。在研究的基础上,设计并实现一个软件企业可复用资产管理系统的原型框架,作为对研究的一种实践。首先文章以软件资产管理为主题展开讨论。从软件复用的总体过程出发,介绍了软件复用资产管理的定位和作用,展开分析可复用资产管理的各项需求;然后从软件资产描述信息的角度定义了资产管理的信息描述模型,并由此定义了对软件资产及其相关资源进行管理的一些操作。其中重点介绍了OMG组织的RAS规范,详细了解OMG组织对资产描述信息的定义,为系统的设计提供指南。其次,文章在详细研究了可复用软件资产管理的实施方法的基瓷?明确软件资产库的基本功能划分,将企业及软件资产库管理系统分为复用资产管理平台、开发资产管理平台和用户管理平台叁个部分。并且提出了软件资产库的建设规程,以帮助软件组织建立可复用软件资产库,以此作为软件复用的基础设施.最后,以XML格式的资产描述文件的检索为出发点,文章对XML文档检索进行研究,针对XML文档检索与传统文本文档检索的区别设计了模糊内容和结构(VCAS)检索的结果相关性排序模型;同时根据用户对查询结构的自信程度设计了可配置查询参数的检索结果相关性排序模型。在以上研究的基础上,本文初步设计了基于Struts的系统框架并实现了资产创建、资产查询等功能模块,为今后对软件资产管理做进一步深入研究打好基础。

田树武[5]2008年在《基于范例推理的故障诊断在扩散制造质量管理中的研究》文中研究表明快速扩散制造是一种基于有限生产能力和制造资源的社会化联合制造模式,是一种建立在企业信息化和社会网络化基础上快速组织动员的战备方法。扩散制造资源具有异构性、分布性、动态性、多样性和可重用性等特点。如何不受时空限制地对该制造模式下的质量故障进行诊断是一个非常重要的课题。本文介绍了扩散制造的概念和故障诊断的现状,基于范例推理方法,并结合Web Services和XML技术对扩散制造中质量故障诊断进行了深入的研究。本文主要工作如下:(1)在深入研究范例库构建方法基础上,提出了一种范例库自动构建新方法。该方法研究范例的模糊集合表示,范例的抽取,范例中属性权重的确定,范例库的组织结构。(2)提出了一种范例模糊检索方法。设计了一种分层次、逐步求精的检索模型,提出了一种新的范例相似度计算方法,并给出切实可行的反馈策略。(3)给出系统在分布、异构环境下的应用解决方案。运用Web Services技术和XML技术实现故障诊断知识和方法的重用,对扩散制造中的产品质量故障进行诊断。(4)设计并实现了扩散制造中基于范例推理的产品质量故障诊断系统。给出了该系统的工作原理,分析了系统特点。本文研究的故障诊断方法在某扩散制造企业产品质量管理系统中获得了初步应用,效果良好,具有很好的推广应用前景。

江腾蛟, 万常选, 刘喜平[6]2007年在《基于答案结点的XML文档模糊检索》文中研究指明针对普通用户发出的面向XML文档的自然语言模糊查询,分析了模糊内容和结构检索(VCAS)的影响因素,充分利用预设答案结点的逻辑意义完整性,结合模糊抽取的查询表达式给出了如何找到模糊内容检索的最佳查找粒度.在此基础上,设计了VCAS检索的结果相关性排序模型,最后通过实验从不同角度对模型进行了验证.

王舜燕[7]2008年在《带主动服务机制的构件资源组织方法研究》文中研究指明随着计算机网络技术,通信技术和软件技术的发展,极大促进了网络上新技术、新服务、新应用的出现,尤其是能使用网络上的计算能力的云计算模式的出现,使得网络的应用需求正在发生深刻的变化。构件技术是面向对象技术的延伸和发展,构件具有较强的独立性,可以达到高度的可复用性。面向服务的体系结构的基点是网络构件。构件技术的出现和发展为软件复用和实现主动服务开辟了可行的道路。人工智能技术、数据挖掘技术以及Web Service等技术和标准的发展为研究和发展主动服务提供了基础。面向服务的体系结构、构件资源及其组织方法和主动服务是实现网络应用智能化、个性化、综合化,实现软件高复用性的叁个重要环节。构件资源和构件资源组织方法的研究是深入广泛地实现面向服务的体系结构的重要环节和支撑点,主动服务是实现面向服务的体系结构目标的手段。通过带主动服务机制的构件资源组织方法研究,可以深化对主动服务的模型、体系结构、协议规范和描述的研究,提升实现面向服务的体系结构的广泛适应能力。本文的工作就是以软件复用技术为基础,开展构件资源组织方法的研究。目的是解决以软件复用技术为基础的主动服务架构下构件匹配机制和ERP企业资源计划系统整合实践的重要基础理论问题,并为Web环境下构件资源应用和推动构件的组装平台标准化等重要前沿课题提供一种新方法和新思路。本文所做工作的主要创新点,体现在如下几个方面:(一)引入构件模型理论分析构件规约抽象出UCDL的XML Schema设计,并以此为基础建立一种基于领域的ERP构件模型,同时通过分析构件资源库的组织形式变化抽象出构件库存储模型,为后续的构件资源组织方法研究铺平道路。(二)通过分析构件资源库组织形式的不同需求,提出一种带主动服务机制的构件资源组织方法,用于满足构件资源应用中的核心需求:构件的匹配和组装。在该方法中我们给出一种Active Match主动匹配机制来解决构件资源组织的基本需求,并在其中采用构件刻面及其术语空间的逻辑组织结构,在基于包容匹配模型的基础上,结合树匹配模型,给出了一个采用全路径字符串库来表示刻面描述树的匹配算法,使得这种以构件资源为基础的软件复用技术具有更为形式化的清晰的语义表达,更方便构件匹配的跟踪和构件组装的实施。同时,还给出了基于UCDL的构件检索系统中的刻面选择、基本数据表设计和构件检索系统匹配中心的具体实现,进而阐述并实现了主动服务架构下的构件检索过程。这些构件检索具体化情况下的实践为主动服务支持系统的完善提供了有益的理论研究和实践探索。Active Match主动匹配机制的核心思路是:提供高效检索,有助于复用者理解构件和目标领域;能提高服务请求者的工作效率,在进行构件搜索过程中所提供的匹配策略、匹配算法中增加构件复用机会和提高构件复用质量。这种服务请求者驱动的构件资源组织策略的解决思想降低了构件资源组织的复杂度,具体化了构件检索结果匹配度量测。(叁)以本课题组研究的基于主动服务机制的ERP领域可视化构件组装系统为基础,根据本文提出的基于Active Match主动匹配机制的构件资源组织方法,设计出一种基于消息映射和反射机制的ERP构件组装方法的构件组装管理系统,用以实现构件资源的管理,同时结合ERP领域的构件资源的性质和特点,给出相应的用例研究,验证了本文提出方法和机制的可行性。软件复用技术研究是一个涉及范围非常广泛的研究领域,尤其在使得人们可以直接通过网络应用获取软件和计算能力的云计算技术出现的时代,软件复用技术所依赖的构件资源组织方法研究更具有深刻的重要意义。本文所做的工作尽管为实现ERP领域的构件资源管理和降低构件资源组织复杂度提供了一些可行的方法,在构件资源组织的若干关键技术上取得了一些阶段性的研究成果,但是对于构建一个高实用的完善的基于构件资源的软件复用系统还有很大的距离,还存在许多问题有待进一步的探索和研究。

罗泽[8]2005年在《科学数据网格服务发现框架及其关键问题研究》文中研究指明为提高现有或将来Internet软件的互操作和灵活性,在面向服务的体系结构(Service-Oriented Architecture, SOA)中,将Internet视为服务的集合,这些服务具有可扩展的,根据标准定义的接口。网格系统的演化验证了这种趋势,在开放网格服务体系结构(Open Grid Services Architecture, OGSA)中。网格服务是具有标准接口,支持安全调用、生命周期管理、策略管理、虚拟化和具有状态的服务实例。将网格系统视为可扩展的网格服务的集合。网格服务发现是使能网格应用的关键技术。以科学数据库和科学数据网格为背景,本论文研究跨管理域、大规模分布系统中产生的信息、资源和服务发现问题。科学数据网格服务发现技术用于支持在大规模分布式系统中集成异构、动态的数据库节点,通过简单高效的查询语言,在具有统一视图的查询界面上定位满足要求的信息、资源和服务。本论文研究了科学数据网格服务发现框架(Scientific Data Grid Service Discovery Architecture, SDGSDA),SDGSDA集成标准,促进互操作性。在单一的框架下包容一系列全异的概念、接口和协议。SDGSDA能够在不改变现有服务核心功能的情况下,容易地将现有的网格服务、Web服务集成到支持发现的系统中。本论文对实现网格服务发现的关键问题进行了深入的研究,具体内容包括:基于XML构建网格服务信息动态的数据模型。使得网格服务信息的分布式数据库在逻辑上表现为包含所有网格服务信息集合的单一视图;通过软状态机制实现网格服务信息的一致性维护。设计了网格服务信息分发协议,实现了强一致性及弱一致性缓存策略;设计了结构化关键词查询语言,用户能够容易地表达服务发现需求;综合数据库和信息检索的研究方法,设计了网格服务信息查询检索引擎,能够对网格服务信息进行高效的索引、查询处理,统一地支持结构查询和关键词查询,能够根据查询与网格服务信息的相关性将排序的查询结果返回给用户。研究的查询检索机制能够在用户不了解,或仅部分了解底层网格服务信息模式的情况下,执行高效的查询检索,支持部分匹配和模糊检索,支持查询结果的相关性排序。最后,本论文对如何将分布自治的网格服务信息数据库作为一个整体进行统一的服务发现进行了初步的探讨。论文介绍了相关的国内外研究现状,并与本论文研究的方法进行了比较。

江腾蛟, 万常选[9]2006年在《基于答案结点的XML文档模糊检索排序模型》文中研究说明1引言XML文档数量正呈指数级增长,如何有效地解决大量XML文档集的检索已变得非常重要。由于普通用户发出的自然语言查询的模糊性,存在着检索粒度过小(信息不满足用户需求)或粒度过大(用户还需费时查找信息)的情况,本文中充分利用答案

刘海静[10]2007年在《基于UG的制冷用换热器CAD系统研究与开发》文中研究说明制冷行业中换热设备的设计以传统的经验设计为主,主要依靠工程设计人员的手工设计计算。其开发过程事务繁杂,效率低、研发周期长,很难适应市场对新型高效换热设备的需求和复杂化、高效化的发展趋势。本文针对上述问题,在Visual C++6.0下,利用UG/Open API对UGS NX3.0进行二次开发,设计并开发了一套贯穿换热设备设计全过程的CAD系统,并对机械设计,虚拟装配与资源管理等模块进行了深入研究。在机械设计模块中,对制冷用换热器零件的参数化建模方法进行归纳,通过参数化建模方法建立零件模板,以表达式形式控制零件变型。在参数化零件模板基础上,通过定义零件之间的装配约束关系,实现制冷用换热器的自动装配,研究了装配约束关系的表达与存储方法。在虚拟装配模块中,对装配模型的静态干涉检验、动态干涉检验及基于动态干涉检验的装配序列规划方法进行了研究。静态干涉检验用以检验参数化变型后零部件模型之间的干涉情况,提出了基于边界拉伸的干涉检验方法,将通过多个离散点的静态干涉检验模拟动态干涉检验方法转化为运动轨迹上的连续干涉检验,减少了运算量,提高了检验效率;另外,在基于边界拉伸的动态干涉检验算法基础上,进一步对装配顺序进行规划。在资源管理模块中,完成了对CAD系统中所涉及的参数、模板及实例等繁杂的设计资源的归类与管理。设计了人性化的资源管理界面,并通过该界面对上述资源进行有效管理和检索。目前,该系统已在某制冷企业试运行。运行结果表明,该系统能够提高换热设备的设计效率,保证设计质量,使工程技术人员摆脱繁重的重复劳动,具有较好的实用性,有效地提高了企业的设计响应能力。

参考文献:

[1]. 基于模式的XML文档模糊检索技术[D]. 周卫峰. 太原理工大学. 2004

[2]. XML文本文档检索技术研究[D]. 江腾蛟. 江西财经大学. 2006

[3]. 基于XML的网络化制造资源智能检索技术的研究[D]. 唐敏. 江苏大学. 2008

[4]. XML数据查询技术在软件资产管理系统中的研究及应用[D]. 乐秀夫. 东华大学. 2009

[5]. 基于范例推理的故障诊断在扩散制造质量管理中的研究[D]. 田树武. 南京航空航天大学. 2008

[6]. 基于答案结点的XML文档模糊检索[J]. 江腾蛟, 万常选, 刘喜平. 郑州大学学报(理学版). 2007

[7]. 带主动服务机制的构件资源组织方法研究[D]. 王舜燕. 武汉理工大学. 2008

[8]. 科学数据网格服务发现框架及其关键问题研究[D]. 罗泽. 中国科学院研究生院(计算技术研究所). 2005

[9]. 基于答案结点的XML文档模糊检索排序模型[C]. 江腾蛟, 万常选. 第二十叁届中国数据库学术会议论文集(技术报告篇). 2006

[10]. 基于UG的制冷用换热器CAD系统研究与开发[D]. 刘海静. 大连理工大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于模式的XML文档模糊检索技术
下载Doc文档

猜你喜欢