标签在揭示数字学术资源内容中的作用研究_用户研究论文

标签在数字学术资源内容揭示中的作用研究,本文主要内容关键词为:学术论文,作用论文,标签论文,数字论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着信息技术的飞速发展及其在学术领域的广泛应用,学术资源的生产环境、交流环境、消费环境正在发生深刻的变化,数字学术资源的数量迅速增长,表现形式多样化,发布渠道多元化,即时生产、即时消费,因此,对资源的描述正变得越来越困难,越来越复杂。另一方面,信息技术的发展使用户可以广泛参与到学术资源的组织和描述活动中,用户不再仅仅是资源的创建者和使用者,更成为新一代的资源描述者和组织者。但是,在学术环境中,用户这种资源描述者的角色扮演的如何?是否有助于资源内容的揭示和更深入的利用?本文即是围绕这一问题展开的。

1 标签元数据概述

标签并不是一个新概念,为对象加标签在上个世纪的网络服务开发中就已经存在,例如在组织图片时为图片加一个标签以便于搜索[1],但本文所讨论的标签是近两年开始流行的一种新的资源描述方法,它是Web2.0的核心特征之一。为资源对象加标签是一种用户标注行为,而标签是这一行为的结果,它是资源使用者(用户)为资源赋予的一种元数据,其作用等同于传统资源描述方法中的类名或关键词等元数据。标签是资源使用者为方便自己再次发现和使用资源而为资源赋予的别名,它是将资源与用户头脑中的某个概念联系起来的一个纽带。它与传统的关键词、类名等元数据的根本区别在于它是由用户,即资源的消费者创建的,是为方便自己再次使用资源而创建的,而传统的元数据则是由资源的创建者或组织者创建的,是为他人共享使用资源而创建的。

当前,按照被标注对象的不同,标签的应用大体上可以分为两种:一是标注资源链接,社会性书签工具(social bookmarking tools)是其典型代表,如当前最为流行的美味书签[2],面向科研人员的书签工具Connotea[3]、CiteULike[4]等;二是标注实体资源,如标注照片的Flickr[5]、标注音乐歌曲的uptoll[6]、标注目标的43things[7],以及标签在博客网站上的应用等。标签的广泛应用引发了分众分类法的出现与流行[8],同时还出现了标签的集成检索工具,如Guten Tag[9]。

尽管与传统的资源描述元数据相比,标签有很多不足[10、11],如词义模糊(缺乏词汇控制,会导致一词多义和一义多词现象);选择随意,没有规则的约束;表达形式简单,大多数系统还只支持单词或合成词,无法表达语义关系;缺乏稳定性,创建者可随时修改自己创建的标签;会充斥着一些恶意使用或垃圾标签等。但它仍具有传统描述方法无可比拟的优势。标签吸引了一批用户共同参与资源的描述,相当于无成本的增加了资源的描述者,有多少用户做了标注,就相当于有多少用户参与了资源的组织与描述,由于标签的创建没有任何规范或框架的制约,因此用户可以以自己习惯的方式表达对资源的认识,对于检索者而言,无需揣测作者或资源组织者是如何组织和描述资源的,而只需要用自己感受的方式去查找资源,只要其中有一个用户(标签创建者)在描述资源时选择了自己习惯的思维或表达方式,那么就可以找到所需要的资源。标签的出现,使得网络用户的角色从资源创建者(作者角色)和使用者(读者角色)进一步向资源描述者和组织者延伸,用户不仅可以创建和使用网络资源,还可以描述别人创建的资源,并与他人共享所描述的资源。

2 标签在揭示数字学术资源内容上的作用——实验准备

2.1 问题的提出

图1 信息资源与用户需求的揭示与匹配示意图

信息资源作为一种产品,其价值的实现依赖于对其的利用,利用的越多、越充分,其价值实现就越大,因此,有更多的消费者发现并使用资源是促进资源价值实现的前提,这要求消费者能够准确的发现满足其需要的资源,即实现资源内容与用户需求之间的匹配。现实中,这种匹配是由表达出来的用户需求和表达出来的资源中蕴含的知/内容之间的匹配来实现的,参见图1。因此,资源能否被利用取决于两个方面:①资源中蕴含的内容能否被准确的揭示;②这种描述与用户需求的描述是否一致。实际上,在这两个描述过程中,都会存在着一定程度的遗漏、误解、歪曲等情况,因此很难完全准确、客观的表达出用户需求和资源内容。为了扩大资源的利用范围和受众对象,就需要尽可能的改善上述两个表述过程,一方面,尽可能充分地揭示资源内容;另一方面,尽可能以与所表达出来的用户需求相一致的方式加以揭示。

在传统的信息资源组织中,这种揭示是通过用分类号、主题词、关键词等元数据对资源的描述来实现的。因此,揭示的程度取决于此类元数据的描述能力,传统的资源描述一般是由作者或资源组织者完成的,一方面,由于资源所能携带的标引词有限,不能完全涵盖资源的内容;另一方面,由于描述者的精力和能力有限,认知和理解能力不同,不能有效的发现并揭示资源中的一些隐含内容;再者,由于描述的过程受一定的规则的约束和限制,不能用多种表达方式来展示资源内容,如多种同义词或变形词的选择、语种的选择,因此在全面、深入的揭示资源的能力方面还存在一定的局限性。

网络环境下,用户越来越多的绕过专业人员而直接参与检索过程,相同的用户需求表达出来的方式可能多种多样,使得传统描述体系中有限的标引词来应对如此多样的用户需求更加困难。用户行为是用户思想的体现,用户的标注行为反映了用户对资源的认识和使用的角度。标签是用户标注行为的结果,它反映了两个方面:一是用户对资源的认识和使用情况,包括希望从哪个角度来使用该资源,其中可能隐含着对资源内容的揭示;另一方面也是用户需求的一种表达,表明用户在某个方面渴望获得资源或资源中蕴含的知识。

2.2 研究的主要内容

一方面,对资源的充分利用要求尽可能全面、彻底、深入的揭示资源的内容,而传统的资源描述体系在这方面的表现尚不尽如人意;另一方面,在不断发展的信息环境中,标签作为一种新的资源描述方式开始出现并被越来越多的人开始接受。那么,标签是否能够在一定程度上弥补传统资源描述体系的不足,它对更全面、深入的揭示标注对象的内容是否有帮助?它在数字学术资源传播中的作用是什么?是仅仅为资源的发现开辟了一条新的渠道(相同的内容用不同的方式进行了标识或表述),还是进一步揭示了资源中蕴含的更多的内容,如一些隐含的知识?围绕着这些问题,本文的研究内容主要包括以下几个方面:

●标签元数据能否揭示资源中蕴含的知识/内容;

●如果能够揭示,在多大程度上揭示了这一内容;

●是否揭示了传统资源描述方法未能揭示的内容;

●标签在揭示资源内容过程中存在着哪些问题。

2.3 研究方法

关键词是一种广泛使用的传统的资源描述方式,它以词语方式揭示了资源的主要或核心内容。本文采用比较的方法,通过标签和关键词的比较以及标签与原文的比较来揭示上述问题,从以下三个层面进行比较:

●标签是否与关键词相同,或者是否包含在关键词中,探讨标签是否能够揭示资源的内容;

●对于没有出现在关键词中的标签,其同义词或变形体是否出现在关键词中,探讨标签是否以另一种方式揭示了资源的核心内容;

●对于上述两种情况之外的标签,分析其在原文中出现的情况,并分析未出现的标签对原文内容的揭示情况,探讨标签是否揭示了传统描述方法不能揭示的内容。

2.4 研究对象

目前,支持标签的学术性书签工具主要有CiteULike、Connotea、unalog[2]、H20 playiists[13]等,其中CiteULike和Connotea是使用比较广泛的两种。因为CiteULike提供按期刊检索的功能,方便于数据的获取,因此本文选择CiteULike作为标签数据的来源。

CiteULike是一种由个人创建并维护的社会性书签工具,创建于2004年,主要面向学术领域的用户,为科研人员提供书签管理服务。用户可以将感兴趣的资源的链接存储在上述系统中,并用标签来描述这些资源,通过标签既可以使自己在日后重新检索到这些资源,也可以与其它用户共享该资源。与del.icio.us等面向大众的社会性标注工具的区别在于它支持一系列的科技数据源,如Elsevier,当用户提交一个资源链接时,系统可以自动搜索这些数据源,从中提取该资源的详细描述信息(如题名、年卷期、作者……),无需用户输入,避免了重复劳动,也避免了因输入错误而导致的无效信息。CiteULike本身并不支持原始资源的创建、存储和管理,而只是对外部资源链接的存储和管理,类似于传统浏览器中的收藏夹。

2.5 数据准备

(1)数据采样。本文选择图书情报及信息领域的论文为例进行研究。在2006年6月,利用CiteULike提供的“browse current iSSues”功能,选择了21种与图书情报或信息领域相关的期刊,利用CiteULike提供的“Journal Name”检索途径对CiteULike中包含的上述期刊中的论文进行检索,获得样本数据。

(2)数据清洗。对获得的样本数据进行清洗,主要完成3方面工作:①删除噪音数据。噪音数据包括没有标签的论文记录和非学术性论文记录,删除后获得有效数据213条。②对这213条数据逐一查找原文,补充关键词,并对标签与关键词之间的关系进行判断。其中可以获取关键词的论文为174篇。③对未在关键词中出现的标签(包括没有关键词的论文的标签),判断其与原文之间的关系,查找其是否在原文中出现,以及未出现的标签是否揭示了原文的内容,从哪个角度揭示。其中可以获取原文的论文为153篇。

由于部分论文没有给出关键词,部分论文无法获取原文,因此在下面不同部分的数据统计中,所选取的样本数据量可能不同,这种差别会在下面的具体分析中给出。

3 标签在揭示数字学术资源内容上的作用——实验数据统计与分析

3.1 形式特征分析

(1)标引长度分析。标引长度指每篇论文所标引的标签或关键词的个数。统计结果显示,在213篇论文中,用户共标引标签634个次,每篇论文所标引的标签的平均个数为3个次(2.98),其中共有174篇标引了关键词,合计731个次,每篇论文所标引的关键词的平均个数为4.2个次。可见,标签的标引长度明显低于关键词的标引长度。对一篇论文的标签数量与标注者数量之间关系的进一步分析发现,二者直接相关,随标注者数量的增多,标签数量明显呈增多趋势,约有3/4的用户只以1~2个标签来标注论文,只有不足5%的用户对一篇论文标注的标签超过5个,参见表1,这说明目前用户对标签的使用上力求简便,只以最简单的方式为再次获取资源留下线索。对于一条资源而言,表1中的标签数据为去重后的结果,以对角线将表中数据分为两个区域,可以发现左下方区域的数据基本为零,说明不同用户之间的标注存在着一定的差异。

(2)标引词长度分析。标引词长度指每个标签或关键词所包含的单词个数。统计结果显示(表2和表3),关键词的组成以合成词为主,只有约1/3为单个单词,且合成词中有许多是由多个词组成的短语,平均每个关键词的单词个数接近2个(1.9个);而标签的组成恰好与之相反,只有约1/3左右为合成词,其余均为单个单词,而合成词基本由2-3个单词组成,每个标签的单词个数为1.3个。这说明:与关键词相比,标签的构成明显显得简单、单调,这与系统不支持短语形式有一定的关系,但也在一定程度上反映了作者在选择标签时的态度——以简单为主。同时也说明标签在表达语义方面还没有关键词强。

3.2 内容特征分析

(1)标签与关键词的重叠度分析。关键词是对论文内容的反映,因此通过考察标签与关键词的关系,来探讨标签是否反映了论文的内容。判断标签是否在关键词中出现的原则如下:出现:

●二者完全相同;

●标签作为关键词的一部分出现则视为出现,如关键词是一个短语,某个标签是这个短语的一个组成单词即视为出现;

●不区分大小写;

●比较合成词或词组时,忽略单词之间的空格、连词符的差别。

同义出现:

●单复数不同;

●动词的不同时态和语态;

●同义词。

未出现:

●对标签中的合成词进行分解,其中一部分(实词)未出现的作为未出现的处理;

(样本量:全部(只包括有关键词的论文):174篇论文;有原文部分:114篇论文)

以被标注对象(论文)为基本单位分析二者的关系。对于同一个被标注对象(论文),将二者之间的关系归纳为如下三种:

●包含关系:标签列表中的全部标签均在关键词列表中出现。

●相离关系:标签列表中的全部标签均未在关键词列表中出现。

●交叉关系:标签列表中的标签有一部分在关键词列表中出现,一部分未在关键词列表中出现。

统计结果如表4所示。结果显示:标签完全被关键词涵盖的资源只占被调查资源的1/5左右,其余4/5的资源中,用户创建的标签与关键词不完全相同,其中有一半左右的资源其标签与关键词完全不同。说明用户和关键词创建者在使用和描述资源时存在着很大的差异。

另一方面,从单个标签的角度对二者的关系进行统计,结果显示(参见表5),约有1/3的标签与关键词相同,另有1/5的标签是关键词的同义词或变形体,即有一半的标签与关键词表达了相同的含义,说明标签在揭示资源内容方面有很大的作用。

表5 标签与关键词的重叠度分析(以标签为单位计算)

重叠度 出现同义出现 未出现

数量

163

99244

频次

32.2% 19.6%48.2%

(样本量:174篇论文,即表4中的“全部”部分)

表6 未在关键词中出现的标签在原文中是否出现(以论文为单位)

出现情况未出现完全出现部分出现

论文数量2342 25

频次25.6% 46.7% 27.8%

(样本量:90篇论文,即表4中的“有原文部分”)

表7 未在关键词中出现的标签在原文中是否出现(以标签为单位)

出现情况出现未出现

标签数量12373

频次62.8% 37.2%

(样本量:90篇论文)

(2)未在关键词中出现的标签在原文中是否出现。如果标签在原文中出现(正文或摘要),说明它在一定程度上揭示了原文的内容,可能是核心内容,或是局部内容。因此,对于上述未在关键词中出现的标签,考察其在原文中出现的情况,结果显示(参见表6和表7):有近一半的论文其标签在原文中出现,约有1/4的论文其标签完全未在原文中出现,所有未在关键词中出现的标签,有近2/3在原文中出现,说明标签与原文内容具有一定的相关性,在一定程度上揭示了原文的内容,但用户选择的标签并不是完全取自原文。

(3)未在原文中出现的标签是否揭示了原文的内容。对于上述未在原文中出现的标签,考察其揭示原文内容的情况。结果显示(参见表8):有一半以上的标签在一定程度上揭示了原文的内容,主要从以下几个方面揭示原文的内容:

●揭示论文的主要内容或主要研究对象

●揭示论文所研究的方法/技术/模型等的背景环境或应用环境

●揭示论文研究内容的所属领域或上位概念

●揭示与论文内容相关的一些概念

●揭示论文的局部内容

表8 未在原文中出现的标签是否揭示了原文的内容

揭示情况未揭示揭示 不能确定

标签数量 4456 14

频次 38.6%49.1%

12.3%

(样本量:71篇论文)

3.3 结论

从上面的统计分析可以看出,标签在揭示资源内容方面具有一定的作用。约有一半(52%)的标签与原文相关,从某个角度揭示了原文的内容。在这些揭示原文内容的标签中,有一部分标签既没有在原文中出现,也没有在关键词等传统的资源描述方法中出现,但是所表述的内容却与原文有关。因此,可以说,标签作为一种新的资源描述方法,揭示了资源的内容,而且在一定程度上揭示了传统的资源描述方法所没有揭示的内容。

从标签与关键词的关系上看,约有1/5的标签是以同义词或变形体的形式出现在关键词列表中的,说明标签在一定程度上是以一种与传统描述方法不同的方式揭示原文的内容的。

标签与关键词之间还存在着另一种关系:一半的标签或其同义词出现在关键词列表中,但只有约20%的关键词或其同义词出现在标签列表中,造成这种不对称性的主要原因是由于一些标签过于简单,在许多时候不能涵盖关键词却能够被关键词涵盖。这也从另一个角度说明了标签构成的简单性。

在另一半无法归入揭示原文内容的标签中,有很大一部分是由于标签创建者选用缩写、简写或非英文单词的形式,使得无法辨别其是否揭示了原文的内容。例如,在一篇名为“Scale and Translation Invariant Collaborative Filtering Systems”的论文中,用户标注的标签中有一个是“cf”,从论文内容及其它标签的使用中推测,这个标签很可能是对“Collaborat]ve Filtering”的简写表示,但在判断时缺少足够的信息来证实这一点,所以只能归入“不能确定”类。当然,也有一部分标签并没有揭示资源的内容,在所调研的标签中,可以明确断定约有5%的标签与论文的内容完全无关,有些似乎只是用户的一个随意之举,对于其它用户而言,没有任何意义。例如,有一些用户对资源标注了no-tag,但与资源的内容明显无关,也不是缩写或表示资源的其它属性,属于垃圾标签。

4 标签使用和发展中存在的一些问题

作为用户创建的元数据,标签在资源组织中的应用刚刚兴起,尚处于初期发展阶段,在利用标签描述资源的过程中,还存在着一些问题,包括:

(1)标注粒度问题,即标签与被标注对象之间的精密关联问题:当前的标签绝大多数是对所标注对象的宏观描述,但仍有一部分标签是对被标注对象局部内容或特征的揭示,随着标签应用的广泛、深入,实现这部分功能的标签将日益增多。那么,如何将标签与其所标注的内容片段联系起来将成为一个重要的问题。如果不能在二者之间建立联系,当资源包含了丰富的内容时,尽管用户跟随标签发现了该资源,但仍然不能方便地在资源中发现他所需要的内容片段。

(2)标签歧义的困扰:由于同一个词在不同学科或不同语种中的含义可能不同,即使在相同的背景下,如学科相同、语境相同,不同的人也可能使用同一个标签来表达不同的含义。另一方面,不同的人使用不同的标签来表达相同的含义,即使同一个人由于其本身知识结构的变化或受其他人的影响,在不同的时期内也可能选用不同的标签来描述同一内容,这些导致了标签含义的模糊性,在实际使用中会导致漏检、误检现象。

(3)个人标签的管理:如何对待标签的修改问题。当用户的个人资源(如书签)积累越来越多时,如何协助用户管理这些资源的标签将成为一个新问题。例如:当用户的知识结构发生变化时,可能导致他对先后出现的两个或多个内容相同的资源采用不同的标签进行标注,这时如何在这些标签之间建立映射。系统是否可以提供一种功能,允许用户批量处理选定的一批资源的标签,如添加、修改标签。

(4)与传统元数据的融合问题:在资源的描述和组织中,标签不能取代传统的元数据,这一点已经达成共识。那么,如何在资源组织和描述中将二者有机的结合起来,使之相互配合,更深入的挖掘资源的内容,多维度的组织资源。当前,使用标签的系统一般不再使用传统元数据来描述资源,尽管有一些系统限制用户在提交资源时为资源指定所属的类别,但这种分类是很粗浅的,还没有很好地将二者结合起来。

一个新事物的出现和发展总是伴随着问题的不断出现和解决,才能达到日臻完善的境界。为了不断解决标签发展过程中遇到的各种问题,充分发掘和利用标签描述和组织资源的能力,资源的组织者(如flickr网站的创建者租维护者)还需要做更多的工作,进行有效的组织和管理,如在标签创建时做一些引导工作[14],开发更强大的标签管理工具,支持更丰富的标签形式和更强大的标签处理能力等。

5 结语

由于人的认知差别,对于某一特定资源,不同的人从不同角度去观察会得到不同的结果,又因为观察者的知识背景、文化环境、对问题或事物的理解能力,以及描述动机等的不同,因此标注的结果可能会有很大的差异。对非文献型资源,如科学数据、图形图像等,难以利用自动抽取、标引技术实现资源的描述,而不同的人在析取其中所蕴含的信息和内容时会得到不同的结果。用户标注行为相当于有更多的人作为描述者来描述资源,为资源中隐含内容的揭示提供了更多的机会。

标签的作用不仅仅是上面所研究的揭示资源的隐含内容或信息,还可以实现对资源的聚合,协同过滤与推荐等,本文仅就标签在揭示所标注对象内容方面的功能进行了探讨,限于标签在学术资源应用方面还不是十分广泛,以及所采集的样本量有限,研究结果还比较粗浅,但旨在研究标签在资源内容表述方面的作用,希望能够发现新的,补充和加强原有资源描述体系的方法。

收稿日期:2006-09-15

标签:;  ;  ;  ;  ;  ;  ;  

标签在揭示数字学术资源内容中的作用研究_用户研究论文
下载Doc文档

猜你喜欢