论文献结构索引_文献论文

论文献结构标引,本文主要内容关键词为:结构论文,论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在文献加工当中人们最多接触的文献标引有分类标引和主题标引,这两类标引的结果总是和文献本体分开存储,起到文献定位的指示作用。随着因特网的产生和发展,网络化的数字图书馆正处于快速发展阶段,文献资源数字化已成为数字图书馆建设的重点项目。数字文献要得以充分利用,就必须经过正确地全文标引,除了对文献进行分类标引和主题标引外,还引出了结构标引。结构标引是指建立在元数据基础上,利用特定的标识符系统对文献的逻辑结构进行全文标引,以达到支持知识管理的目的。本文在对传统文献的逻辑结构及结构标识分析的基础上,探讨数字文献结构标引。

1 文献的组成元素

文献是人造客体,它记录着人们在改造世界过程中创造的知识和经验总结。文献在生产过程中很自然地遵循知识的逻辑性,文献内容反映知识的逻辑体系。如果我们对文献内容进行划分,文献总是由若干个逻辑单元组成的有机体。在元数据的术语当中,文献当中的逻辑单元被称为元素。可以这样认为:文献是由若干个元素组成的元素集合。文献中的元素有不同的类型,按其作用可以大致分为三大类:文献描述性的元素、构成正文内容的元素和对文献内容进行附加说明的元素。

1.1 文献描述性的元素

文献描述元素是有关对文献特性进行描述的元素,是我们通常所说的元数据,包括传统文献中的版本记录。元数据一般分成三大部分[1]:(1)内容描述部分有题名(书名、刊名和论文篇名)、主题(论文编辑当中列出的主题词或关键词)、说明(文摘、序言、前言、凡例和出版说明等);(2)知识产权部分有创建者、出版者、其他责任者和权限;(3)外形描述部分有日期(出版日期、修订日期等)、类型(图书、期刊、专利说明书、标准和文集等)、形式(开本大小及卷集册数说明等)和标识符(ISBN号、ISSN号和国家统一书刊发行号等)。

1.2 构成正文内容的元素

构成文献正文内容的元素是文献结构标引的主要对象,它们的有机组合反映文献记录的知识体系。正文是构成整个文献的一个大元素,由它来包含其它的所有内容元素。内容元素主要是从编辑角度来说的,它们包括卷、部、篇、回、章、节和段落等元素,还有表格元素、图片元素、科学公式元素和注释符元素等。“卷”起源于古代的卷轴装[2]。现在卷对于期刊来说代表一年为一个出版周期内的各期的集合,对书而言代表著作的一个重要部分。“回”,原指说书的一个段落,文艺小说中的“一回”即指“一章”。“篇”与竹简有密切关系,后称首尾完整的文字,如《论语》二十篇,“一篇”即“一卷”;《诗》三百篇,“一篇”即“一首”。又如,一部论文集中每篇论文都可称一篇。“章”,原指音乐一曲为一章,后指诗歌的段落,进而泛指论著中就某一专题或某一论述文词意尽语止时为一章。“节”,指段,论著中一般居于“章”下,并非指文章中的自然段。段落元素的“段”,指的就是自然段。

表格元素和图片元素是两种特殊的元素,它们有自己的特别内部结构。由于结构和文字部分不同,它们总是以独立的体系插入到文献当中。表格以行、列的形式出现,用来描述一组对象之间的逻辑结构关系。表格本来就是一种良好的结构表示方式,在文献中是常见的逻辑结构元素。图片元素是一种最为复杂的元素,有抽象图(坐标图、进度图、比率图等),也有实物图(地图、照片等),它们都用来描述那些内部结构难以用文字表述的对象。

1.3 附加说明的元素

附加说明的元素指与文献内容有直接关系,而又分离于该文献正文之外的部分,包括注释、附录、参考文献等。注释,是对文献正文中某些语汇、成语、典故、人物、地名、书刊名、内容、引文出处等所作的简要说明。附录,指附加于正文后的有关文章、文件、图表、索引、资料等。附录中各种资料,都与正文有较为密切的关系,对正文起补充、参考或检索作用。参考文献,通常包含两个方面的内容,一是著者在著书立说中所参考的各种文献资料,二是引导读者就论著中所涉及的有关课题深入学习与研究的有关文献。参考文献常以列表的方式出现在文献正文结束之后的地方,或在每章的结尾。

2 元素的组合结构

上文所列的所有元素,如:题名、作者、章、节等等,在文献学中都有明确的定义,是具有普遍意义的抽象概念。它们分别代表一个种类的元素,应当是元素类型,而不是文献实体当中的具体的逻辑结构成分,即元素本身。例如:“章”是一种元素类型,而某书中的第一章、第二章、第三章才是该书中的三个元素,它们分别有各自不同的标题和内容;但都属于“章”这种元素类型。在文献当中,有的同种元素类型的元素重复出现多次,如上例中的章元素;有的只能出现一次,如:若文献中的整个正文部分当作一个元素,那么一个文献只有一个正文元素。元素还可有属性,如章元素,它总有标题、序号等一些属性。

元素可以分为简单元素和复杂元素。简单元素是不能再分的元素,如段落元素和图像元素等;复杂元素是可包含其它元素的元素。如章元素可以包含若干个节元素,而节元素可以包含若干段落、表格和图像元素等。一般卷、部、篇、章、节都是复杂元素。它们的包含关系为:卷→部→篇→章→节→(段落、表格和图像),出现在前的元素可包含所有后出现的元素,括号内的元素是相互独立的互不包含的元素。包含其它元素的元素又称为父元素,而被包含的元素称为子元素。例:某书中的第三章包含了四节,则“第三章”就是其下四个节元素的父元素,而这四个节是“第三章”的子元素,“第三章”和这四个节存在父子关系。父子关系有包含与被包含的关系,如上例中,该书的第二章与第三章下的四个节就不存在父子关系。同一个父元素下的所有子元素称为兄弟元素,兄弟元素是并列关系的元素。并列关系分有序并列和无序并列,一般篇、章、节类型的元素如果重复出现时,多按顺序排列并编有序号,如第一、二……章;有的书按多卷出版,各卷有卷名,卷与卷之间无先后顺序,如《中国煤炭志》(煤炭工业出版社)由综合卷和省(自治区、直辖市)卷组成,省卷以省名命名无先后顺序。子元素还可以包含子元素,这样就形成了元素的层次关系。如果某书分二篇,每篇下各分若干章,每章下又分若干节,这本书便有了三个层次的结构。篇元素是第一层,二个篇元素下的所有章元素构成第二层,各章元素下的所有节元素同属第三层。在文献当中元素的层次数是不定的,有一层、二层、三层的文献,还有更多层的文献。

对一个文献进行结构标引时总会出现这样一个元素,它包含所有其它的元素而自己没有任何前导元素,这种元素称为根元素,例如“书”、“期刊”便可作为这样的元素来使用。根元素包含所有元素,所有元素之间存在包含、父子、并列和层次关系,总起来便构成了文献的树型结构。根元素做树干,卷、部、篇、章、节则为树枝,段落、表格和图像可看作是树叶。以本文为例:如果本文独立存在,则用“论文”做根元素来标识该文的整个内容;该文分有四节:第一节为“文献的组成元素”、第二节为“元素的组合结构”、第三节为“传统文献的结构标引方式”、第四节为“数字文献结构标引”,它们为树枝,树叶则是各个自然段落和插图。这篇论文的文献结构如图(1)所示。

图1 文献结构示意图

不同类型的文献所含元素类型不同,元素之间的组合方式也不同,图书中多有“章”类型的元素,期刊中一篇篇的文章放在一个个“篇”元素当中,“篇”的上层为“期”元素,一般没有“章”元素,所以不同类型的文献有不同的树型结构。文献类型实际也是依据文献的结构来划分的。

3 传统文献的结构标引方式

文献的结构如何反映出来以便读者一目了然,传统文献在编辑上通常采用标记符、排版格式两种方法结合起来标识出文献的结构,并已形成一般规律为读者所了解。

3.1 标识符法

标识符法是通过一些文字或数字加标点符号,有规律地表明元素的类型及起始范围。字、词作为结构符号可以直接表明元素的类型,这样的字词具有明确的语义,是通用的文献编辑术语。根据这类术语在文献当中出现的位置,读者可以判断其用意和文献的逻辑成分。例如,“著者”、“著”、“译者”、“译”、“出版发行”、“章”、“节”、“版次”等等都是这类术语。如果在书的封面见有“××××著”,很自然便知“×××”就是该书的作者。再如在书的正文内见到“第×章×××××××”,我们会知道“×××××××”是一章的标题,标题以下的文字或表格通常在文献的正文中同类型的元素出现多个时,总是在术语用字词前加序数词,一是区分同类型元素的个体,二是表明每个元素出现的前后位置即逻辑顺序。其实所加序数词和标题都是元素的属性值,它们进一步表明了元素的个性特征。

数字加标点符号也是常用的结构标识符。数字、标点符号按规律组合,可以清楚地表明元素的父子关系、层次和顺序。在实际应用中,有的连其后的标题都省去,它所代表的元素类型,要由内容来判断,这是一种纯符号,用法简单明了。数字与标点符号的组合方式有很多,如用个位数加小句点表示论文中的节,节下的子节则用括号内填数字来表示;在图书馆当中,我们常见到这样的表示符:“第4章××××”代表某章的开始,其下的各节就由“4-1;、“4-2”、……、“4-×”来引导,而节下的子节则用“4-×-×”引导。这些符号呈现出明显的组合规律性,符号的语义不需作明确的说明读者便能掌握。规律性是这种标识方式的关键,只有具有规律的数字组合符号才能正确地标识文献的结构,并被读者所接受。

3.2 排版格式法

排版格式法通常采用加粗字体、另起新行、新页、空格等方式来辅助标识文献的结构。一般章、节的标题用比正文较大号的粗字体来突出显示,且多数情况下独占一行。图书当中的章元素及更上层的元素,多以新页开始,结束处多余的页面空起。段落元素中文字部分以占两个字符的空格或首字符以大号字体开始,结束行多余的部分以空格表示元素的结束。图表元素则以独立的体系插入到文字部分内,并用标识符标引,标识符和正文中的引用标识符对应。

4 数字文献结构标引

4.1 数字文献结构标引的意义

20世纪70年代以后,以多元化的信息媒介为对象、以内部业务处理自动化和面向用户的信息服务自动化为主题特征的自动化图书馆,开始取代原来以纸质文献为对象、以手工整理和检索为主要工作内容的传统图书馆。自动化图书馆的兴起适应了社会信息化的需要,图书馆管理开始由文献管理走向信息管理。然而进入90年代,图书馆发展的环境又发生了根本性的变化。一是信息技术尤其是网络技术所引发的社会基础结构的变革;二是知识经济的兴起。信息技术的进步使信息资源的数字化存贮、处理和利用成为可能,数字图书馆作为一种新的图书馆形态开始崭露头角;知识经济的兴起使知识成为社会经济发展的最重要的资源和内生变量,要求作为社会知识创新与知识传播链条上一个重要环节的图书馆转变职能,由信息世界走向知识世界。具体来说,图书馆要由对信息资源的收集、处理、传播和开发利用为主转向对知识资源的获取、组织、创新和开发利用为主,即实现管理模式由信息管理向知识管理的转变。

数字图书馆知识管理就是通过对数字图书馆所拥有的包括信息、知识各种要素在内的所有智力资本进行组织、开发和运营,实现知识创新、知识扩散和知识增值的过程。知识组织是指把知识客体中的知识因子的知识关联表示出来,以便人们识别和理解知识。知识组织是数字图书馆知识管理的基础内容。在数字图书馆条件下,由于信息网络的发展,传统的信息资源不均衡和信息获取困难得到极大改变,信息检索和传递走向非中介化、非专业化和非智力化,用户关注的是如何从繁杂的信息环境中捕获和析取解决问题所需的信息内容和知识。因此,数字图书馆的工作重心要由信息组织转向知识组织。

知识组织的方法多种多样。依知识的内部结构特征,可分为知识因子组织方法和知识关联组织方法;依知识的不同组织形态,可分为主观知识组织方法和客观知识组织方法;依知识组织的语言学原理,可分为语法组织方法、语义组织方法和语用组织方法,等等。[3]

文献是记录知识的客体,文献的结构尤其是文献内容的结构反映了知识的结构,文献结构标引表示出知识的内部结构特征,通过文献的结构信息支持对知识的组织。数字文献是由计算机来管理的。传统文献的结构标引方式适合人对文献结构的理解,它含有许多不确定性因素,这些不确定性人可通过综合分析和复杂推理来完成理解,而计算机则不能理解。要让计算机理解文献的结构,只有用计算机能理解的标记语言来对文献的结构进行标引。经过结构标引的数字文献不只保留了文献原有的内容,还含更多的有关文献结构的信息,有了结构信息,计算机就能通过应用程序来操作文献的结构。数字文献结构标引的意义就在于让计算机通过文献的结构信息管理文献的知识单元。

4.2 计算机结构标记语言

计算机标记语言有很多种,但不是所有的标记语言都适合用于文献的结构标引。有些标记语言用于标识文档的显示格式,例如,超文本标记语言HTML,它应用于网页的制作,强调文档内容在网页中的布局,字体的颜色、大小等显示效果,而对文档的逻辑结构的处理能力却很差,不能用于文献结构标引。有一类标记语言具有结构化标记功能,目前这类标记语言中应用最广泛的是XML。XML具有良好的结构化描述能力和可扩展性,是文献结构标引的最佳标记语言。在可扩展性方面,XML允许自定义文档类型,允许用户根据某些通用的原理来自定义标记,新定义的标记可在文档类型定义(DTD)中加以描述。一个定义完整的标记可作为一个基本元素类型来使用,例如我们可以定义一个“节”标记,用它来描述文献当中的节元素。一个基本元素类型就像面向对象技术中的类,它可被其它元素使用,能以开放的方式结构化的表示数据信息,这正符合文献结构规律。

确切地说,XML是一种结构标记元语言,所谓元语言指语言本身还可以用来制定产生另一种新的语言。基于XML产生了许多专业领域内应用的结构化标记语言,如:MathML数字标记语言、CML化学标记语言[4]、GML、SVG和VML用于描述矢量图形的标记语言,它们都可用于文献的结构化标引。

4.3 数字文献结构标引的一般原理

文献数字化后存储到计算机里就以文档的形式存在,一个文献可以做一个文档存储,也可以分解为多个文档存储,文档继承文献的结构特性。数字文献结构标引就是用类似XML这样的结构化标记语言对相应文档进行结构描述。文档经XML进行数字化表示后被称为XML文档。对文档进行数字化表示,是指把文档转化成某种计算机可读的代码,这种代码能帮助计算机理解文档的结构,在此基础上实现对文档进行诸如存储、处理、传送、显示和打印等工作。

一个XML文档一定遵从某种模式组织而成,这种模式通常可用XML来定义,称文档类型定义。文档类型定义是由元素类型、属性、实体和符号等一系列定义组成的一个集合[5]。在文档类型定义中包含了文档结构的描述和元素的使用规则,明确规定在文档中哪些元素的出现是合法的,以及在什么地方是合法的。文献类型依据文献结构不同来划分,不同类型的文献有不同的结构。在XML当中不同的文献类型用不同的文档类型定义来描述。

XML元素构成XML文档的支柱,它对应于文献中的特定逻辑结构单元(元素)。在文档类型定义中有元素类型定义,元素类型定义说明了元素的内容模型。在指定元素的内容模型时,描述能在元素中出现的子元素和属性,指定元素是否能包括文本和元素,以及子元素在元素范例中出现的秩序等。XML元素总有名称和标记,名称用计算机识别特定的结构成份;标记分为开始标记、结束标记,它们用来标识文档中特定内容的起始范围。XML元素之间的关系实现了文献中的逻辑结构关系,它们和文献中的元素关系一样存在包含、继承(父子)、并列(兄弟)和层次关系。XML文档解析程序以类对象的方法处理元素和元素关系,以此达到处理结构化文本数据的效果。

当定义好文档类型和元素类型后得到一个词汇集,它更是新生成的结构标记语言。我们就用这个标记语言按该文档类型定义中描述的规则对相应类型的文档进行结构标引。

标签:;  ;  ;  ;  

论文献结构索引_文献论文
下载Doc文档

猜你喜欢