古代科技文献信息建设的思路与方法--中医古代文献的开发与利用_文献论文

古代科技文献信息建设的思路与方法--中医古代文献的开发与利用_文献论文

对古代科技文献信息构建的理念与方法——中医药古文献的开发与利用,本文主要内容关键词为:文献论文,中医药论文,理念论文,古代论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

古代科技文献的数字化、信息化问题,近年来一直为学术界所关注。丰富的中医药古文献,是历代医家长期医疗实践经验的结晶,蕴藏着丰富的医学理论和防病治病的经验,是一直有效地指导人们医疗实践活动的实践性很强的文献。古代文献是中医药学术和中医药产业发展的重要资源。随着文献载体由纸质文献向机读文献、网络文献扩展,我们越来越清楚地看到,对中医药文献整理研究和开发利用不足,严重制约了中医药事业的发展。要想实现中医药技术跨越式发展,必须充分利用现代信息技术,使中医药所面临的海量信息,得到高效、准确的采集、存储与利用。为此,我们自1994年起确立中医药文献信息化研究方向,从而开始了中医药文献信息化的探索。

我们在长期研究中体会到,非结构化数据的优点是简便易行,检索具有相当高的查全率,但查准率一般都比较差。高结构化的数据,生成和维护的费用极高,但是能带来较高的查准率以及一致性。同时,要理解和使用这些记录,不论对于人还是软件,都是相当复杂的一项任务。因此,每一种资源描述方式,都是在成本、生成和保持的简单性以及实用性方面进行折衷的结果。特别是随着信息技术的发展,信息处理方法每天都发生着革命性变化。基于这种思想,我们重点探索了实现中医药文献信息化的模式问题。《中医药古文献保障系统》即是基于IA方法和竞争情报学思想进行中医药古代文献的信息化研究,特别是根据中医药古文献的行文及结构特点(实词多,虚词少,行文相对规范,语义较完整),运用自然语言后控机制进行文献的智能化检索和利用,以优良的投入产出比,得到了教育部“中国高等教育文献保障系统(CADLIS)”工程领导小组的充分肯定。

中医药文献保障系统由山东中医药大学文献研究所开发研制,目前共有4大类55个数据库,是采用C/S、B/S相结合的结构方式,将古代各类中医药图书、文献、图像文件等内容数字化,以标准电子文档资料格式自动存储和管理,并在Internet或Intranet环境下服务于读者,具有分类查找、全文检索、浏览、下载、打印等功能的信息集成系统。

1 超前的设计理念

本系统是以信息构建理论为指导思想而开发设计。信息构建“Information Architecture”(简称IA)是一种新兴的组织信息的艺术和科学,是基于网络环境、尤其是面向万维网环境的信息组织方式和设计新理念。一方面IA提供了一种新的构建信息空间的方法学和图景,阐述了设计一个有效的信息管理架构所必需的理论、原则、指导方针、标准和约定。另一个方面,IA又很重视系统的微观设计方面,为信息空间构建提供了很具体的方法指导[1]。

1.1 IA自底向上(Bottom-up)的开发方式

是一种基于数据库,基于底层网络内容对象,依赖受控词表,通过标引等手段对内容对象进行组织的信息结构。可以理解为是指一种基于对信息内容的理解,借助一种对于信息内容进行标引等处理的工具及知识库的使用,由此构架一个内容对象的底层体系结构,其核心是处理异质内容对象间的关系,其中具体涉及到:内容对象的元数据标引、建立主题概念空间。它的最大好处优点是能够提高检索精度。

1.2 合理的概念空间架构

概念空间是IA底层信息组织的重要方法,它的构建将成为IA的开发过程中的一个关键。概念空间概念要点可被概括为两点:一是它表示了概念及其之间的多维联系,比如任何一个复杂概念都可以由简单的概念组配而成。如果每一个简单概念可以由一维的坐标轴表示,那么一个复杂的概念就可由多维概念空间的一个点来表示;二是它可以用一个概念与另一个概念之间的距离来表示两个概念之间的亲疏程度。

本系统力求研制针对一批文档建立与之相适应的概念空间,以便实现语义检索。例如控制词表的开发与研制。控制词表是自然语言的集合,最简单的词表列出了某一特定领域内的标准术语和等价术语,更高一级的是定义了术语间等级关系的分级方案,建立起概念间的关联后就形成了词库。因此,词库是以控制词表为基础的,包含了等价、分级和关联这三种语义关系,将词汇与它们的同义词、同音词、反义词以及上位类、下位类和同位类术语连接起来,从而把许多相近的词映射到一个标准概念上,消除了由语言的模糊性给人们的信息搜索带来的障碍[2]。

2 先进的信息技术

中医药文献保障系统是目前国内外技术领先、索引检索速度最快、空间膨胀率最低、功能强大应用广泛的中英文检索系统之一。

2.1 多种先进技术

采用先进的算法,响应速度快,实现海量数据库毫秒级、亚秒级查询;中文按词、按字索引,字词结合智能全文检索;支持西文按词检索,支持中英文(全角/半角)混合检索;内嵌汉语自动分词系统,有自学习、动态词索引功能;支持禁用词典的使用,具有停用词(Stop-list)处理功能;具有多个检索词逻辑运算(与、或、非、差、优先、相临、异或)功能;支持渐次逼近检索、部分一致匹配、距离检索、同义词扩检等功能;同时管理文字资料、数据库、HTML页面、多媒体信息;数据变长存储,最大限度节省空间;支持重复字段和多值字段等多种数据属性。

2.2 系统性能指标

系统中可以建立的全文数据库个数没有限制;一个全文数据库中的字段数可达255个;一个全文数据库中可以存储和管理最多42亿条记录;每个记录的长度无限制,每个字段的长度没有限制;支持大量的(几百个以上)并发用户对数据库进行同时访问;一次检索可以跨至少1024个数据库;在2G字节的原始信息库上的平均查询时间为亚秒级;全文索引500M原始文本信息的时间在30分钟左右;空间膨胀率在-0.1至0.3之间,可通过选项调节;增量索引速度:不会明显变慢;记录实时维护速度:秒级;联机检索的查全率和查准率达到实用要求;对2G文本数据进行全文索引的总时间不超过2小时;在100多万条记录2G数据量上实际测试的平均全文检索时间为0.3秒。

3 强大的系统功能

3.1 具有中医药古文献的编辑、分类和储存功能(保障系统维护用)

3.1.1 采用C/S和B/S方式建立动态的分类文献输入模式

分类检索,即按类别逐级查找文章的一种检索方式,需要用户建立相应的分类并对文献进行分类整理,这里采用C/S和B/S方式进行分类文献的输入,使用户既能在熟悉的工作环境中快速地完成文献整理工作,也可以使用任何一台安装了浏览器的机器完成相应的操作,使工作不受地理位置的限制。

3.1.2 研究开发数据抽出器,自动判断文献库的结构(保障系统维护用)

针对已经存在的电子化文献,可以使用数据抽出器自动判断文献库的结构,将其中的结构与数据提取出来,供用户进行选择。

包括以下部分:用户可以通过用户界面指定需要操作的文献库、需要执行的操作等;识别数据结构(程序);指定需提取数据(界面);提取数据;保存成指定格式文件(程序,可选操作)。

3.1.3 根据数据结构自动建立浏览和编辑修改文献界面

利用数据抽出器得到的文献库的结构,自动生成浏览及编辑界面,用户可以选择所需要的字段,也可以选择所需要的数据,同时也可以对数据进行修改,满意后再将其转存到自己的数据库中。

(1)用户界面。根据数据抽出器所提取的数据结构,自动生成浏览及编辑界面;指定需要哪些字段;查看字段类型,指定将数据转换成何种类型;查看字段长度,指定需要转换的数据长度;如果要存储到数据库中,可以指定与数据库中字段的对应关系。

(2)提取功能实现。指定提取数据的条件,按照条件及在前一步设定的字段对应关系及数据转换条件将文献库中的数据提取出来。

(3)提取数据的存储实现。可以将提取出的数据存储按用户指定的方式进行存储,可以存储在文件中,也可以存储到指定的数据库中。

3.1.4 研究开发转换器,实现从文献文件向相应数据库转换存储

除采用用户整理文献分类输入的方法外,还提供转换器按照用户指定的规则自动从已有的文献库中提取数据,在提取的过程中可以自动判断文献库的结构将其中的数据进行转换存储在本系统中。这样可以充分利用现有的数据资源,节省文献整理工作的时间。

3.1.5 研究数据导出器,使能够从系统数据库导成要求格式(指定)的文件

为照顾不同用户的使用习惯,可以使用数据导出器将数据库中的数据按照用户的要求导成指定的文件格式,如pdf、doc等,或者将数据导入指定的数据库中供其他系统使用。也可做提供数据服务用。

3.2 具备分类和全文查询检索功能

3.2.1 通过分类选择,直接从相应分类库查询

适用于分类明确的信息查找。是一种可供检索和查询的等级式主题目录,以超文本链接的方式将信息按照分类或主题的方式组织起来。这些主题目录一般在大类下面分成若干小类,类目之间按等级系统排列,用户通过逐层点击主题目录,直到找出需要的信息为止。由于经过了人工的筛选和系统组织,检索的结果质量较高,条理性较强。

3.2.2 在自动建立检索索引的基础上,实现全文检索(浏览、简单检索、复杂检索、二次检索)

3.2.3 由于中医药古文献的特殊性,采用先进技术实现语义检索,提高查准和查全率;为弥补古汉语与现代汉语的差异,避免歧义

在中医药古文献中使用的很多词,现在已经不再使用,或者具有其他含义,为提高检索的效率以及检索结果的正确性,通过建立语义表实现对检索词的理解。语义表将通过管理员或专家或系统来追加、删除、更新等。

3.2.4 提供类似相关检索的后控检索

后控检索就是通过对检索词进行一些有意义的扩展(如同义/反义,下/上词等),来提高命中效率,根据开始输入的关键词检索后,为了进一步按照正确地方向检索,列出一些相关(近)的词组进一步检索。对检索词的扩展通过后控词表来实现,后控词表的主要作用是显示各种词间关系,以方便扩检和缩检。

3.2.5 建立个性化检索结果表示

用户可以选择新需要的内容,而不需要的内容可以不表示,检索结果可以个性化设定。

3.3 具备浏览阅读和打印功能

3.3.1 实现个性化浏览,如方名(类似题目)或段落、全文浏览

对检索的结果可以根据用户的喜好定制需要查看的内容,如有的用户只需要看一下方名,有的可能需要看全文,用户可以按照自己喜欢的方式查看检索的结果。同时也可以方便地在不同的显示方式之间进行转换,如只看方名还不够时,可以将全文显示出来等。

3.3.2 对于文献全文,也可通过链接采用AdobeAcrobatReader来浏览

在对文献的处理过程中,可能一些古文献中使用的难字被其他的代码或表示方式代替,如果用户希望看到真正的古文献的原貌,也可以查看扫描的文献原文,这样既可以把古文献原貌保存下来,也可以满足用户的要求。

3.3.3 提供目录打印和段落以及全文打印等功能

如果用户觉得检索的结果对以后的工作有利用价值,同时又不想总是上机检索的话,也可以使用打印功能将所需的内容打印出来。打印时有多种方式可以选择,如目录、段落、全文打印等。

3.4 检索结果的PDF生成功能

可以将检索结果通过转换程序,自动生成PDF文件。

4 结论

综上所述,中医药文献保障系统具有以下显著特点:

(1)界面美观、友好、风格多样。系统全部采用浏览器界面,美观、友好、风格多样,操作流程简单、方便,页面框架大小可以自由切换,提供多种阅读方式。

(2)系统广泛支持、管理各种信息数据。系统采用先进的检索策略、和数据存储格式,可支持各种不同结构的数据库,能容纳海量信息,支持分布式网络结构,能够处理文本、超文本、PDF、DOC、XLS、PPT、各种格式图片(JPG、GIF、TIF、PNG等)、以及WAV、AVI、MPEG、MP3等格式的多媒体文件。

(3)支持大规模分布式结构。系统支持大规模分布式结构,具有负载均衡处理和良好的并发处理能力。在海量信息检索和大用户量访问的情况下,系统仍有很快的响应速度。系统可对多个数据库服务器进行资源动态调度管理,实现了适合文献特征的多种显示浏览方式。

(4)先进的检索策略,灵活的浏览形式。系统有全文检索、字段检索、组合检索、语义检索、后控检索等多种检索方法;有树型浏览、字段浏览、自然段浏览、摘要浏览、分级浏览等多样的浏览形式。

收稿日期:2004-11-12

标签:;  ;  ;  ;  ;  

古代科技文献信息建设的思路与方法--中医古代文献的开发与利用_文献论文
下载Doc文档

猜你喜欢