基于主题列表的OPAC检索技巧_主题词论文

基于主题词表的OPAC检索提示,本文主要内容关键词为:词表论文,提示论文,主题论文,OPAC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

DOI:10.13663/j.cnki.lj.2014.01.004

近年来,在网络搜索引擎与资源发现系统的影响下,OPAC日渐式微,用户正在流失[1],这与OPAC不能与时俱进地增强检索功能和提升用户体验等原因不无关系。例如检索提示与检索系统的可用性密切相关,已成网络搜索中最受用户欢迎的特色功能[2],但并未在OPAC得到广泛应用[3],尤其主题检索更是缺少检索提示等帮助与引导功能。主题检索是用户最习惯使用与效果最佳的一种检索方式,尚未发挥出应有的利用效果[4]。目前,规范的主题标引语言与用户输入的自然语言之间存在的差异,可能导致用户难以检索到理想的图书。本文试图从分析需求与思路入手,通过设计个性化的主题词,实现书目主题检索提示的功能。

1 需求及研究思路

1.1 相关研究

检索提示分为相关词提示与聚类浏览提示,属于一种查询交互方式,是检索系统的重要评价指标,可以帮助用户明确检索需求并优化查询式,改善检索策略不当或技巧不够造成的信息过载问题,因而一直是信息检索领域研究的重点和热点。相关研究主要集中在检索系统的相关词提示[5]、语境导航[6]及聚类算法[7]等方面。这些研究有利于优化检索系统的性能以及提升查询的可用性、可信度及用户体验,对本文的写作亦具有一定的参考价值。然而,目前的这些理论与实践鲜见具体针对OPAC检索提示功能的设计与实现等方面的研究。

1.2 需求分析

书目检索系统的专业性较强,需要用户掌握一定的检索策略和技巧,不利于用户轻松、快速、准确、有效地找到需要的图书。例如,用户输入的检索词过短,返回的书目数据过多,导致信息定位困难;由于检索词存在同义词或歧义词,导致检索结果偏离用户的信息需求。因此,新一代的OPAC应具备检索提示的特征[8],帮助和引导用户轻松地获取满意的检索结果。主题检索作为用户使用频率最高的检索行为,更应实现检索提示的功能[9]。检索提示可帮用户优化或重构检索式,明确查询需求,减少检索步骤,降低找书难度。

1.3 技术思路

技术思路如下:依据主题词的数据特征,设计个性化的主题词表,利用Mashup、触发器或DTS等方案来采集与存储主题词及相关数据,并采用Ajax、JavaScript、Css和数据库等技术实现相关词及聚类浏览等检索提示。技术思路大致可分8个部分,如图1所示。

技术思路的关键在于主题词表的数据准备,主题词及相关词语的采集与主题词表的构建是实现检索提示的前提和基础。技术难点在于判断用户的检索意图并提供实时的引导。

2 书目主题词表的设计

2.1 书目主题词的数据特征

主题词是在标引和检索中用以表达文献主题和描述内容特征的规范化的词或词组,是最能反映检索需求的名称或概念词,包括实用性、准确性、通用性等标引原则。主题词具有字符长度短小、数据标准规范、内容揭示深入及显示隐性知识等领域特征[10],反映图书主题的深度和广度,检索专指度高。和题名、责任者、分类号等其他书目元数据相比,主题词更能完整、准确、深刻地揭示文献内容,可集中不同作者或学科的文献。

2.2 主题词表的数据结构

为了实现检索提示的功能,需要对书目主题词数据进行隐性知识的收集、分析、整理与利用。为存储主题词及关联信息,需要设计一个关系表x_subject,其结构见表1。

2.3 主题词表的数据采集方案

书目主题词表的设计与数据采集是一件严肃而慎重的工作,需要科学分析,缜密研究。图书主题标引在CNMARC格式中主要使用600-607字段,如600(个人名称主题)、601(团体名称主题)、602(家族名称主题)、605(题名主题)、606(学科名称主题)、607(地名主题)等字段,而用606字段的信息载体标引约占93%~97%,成为重点收集与整理的目标。当且仅当同时满足以下必要条件时,进行数据采集:①主题词为中文字符;②主题词的字符长度小于或等于14;③主题词的书目检索结果大于或等于2。具体方案包括:

(1)Mashup爬网方案。利用Mashup网络爬虫技术对书目信息页面的内容进行屏幕抓取(Screen Scraping),使用Microsoft.XMLHTTP组件来远程获取返回的源代码。在获取OPAC网页返回的调用结果后,需要利用Replace( )、InStr( )及Mid( )等函数,对获取的数据进行分析、糅合与存储,以抽取有用的主题词信息,并将其存储到表x_subject字段subject0。

(2)数据库触发器方案。触发器(Trigger)是个特殊的存储过程,由事件来触发,在表中插入、删除或更新数据时激活它执行。可以利用触发器的这种特性,在ILS(Integrated Library System,图书馆集成系统)数据库中设计插入或更新类的触发器,并加入相关监测书目库数据表中插入或更新主题词的事件,以在发生更改时存储相关主题词数据。

(3)数据库DTS方案。DTS(Data Transformation Service,数据转换服务)是将数据从一个数据存储位置移动到另一个存储位置。ILS平台大多采用Oracle、SQL Server、Infomix及Sybase等关系型数据库,因此可用DTS导入/导出向导,从书目库MARC数据中导出主题词,并导入主题词数据表。

三者比较,方案(1)不受时空限制,不改动原有书目库的设计,安全高效;但需要编写专门的爬网程序,技术要求较高。方案(2)需要改动原有书目库的设计,具有一定的操作风险;但数据采集的过程是全自动的,维护成本较小。方案(3)操作简单,不需要编写程序或SQL代码;但数据不能自动实时更新,且无法更新表x_subject字段Fr0的值。具体采用哪种方案,应因地制宜,视特定图书馆的实际情况而定,也可综合采用这3套方案。

2.4 主题词表的数据准备

为了深入挖掘主题词的检索提示价值,扩展主题词表在OPAC的检索应用,必须进行表x_subject字段subject1、pinyin、py、yingwen及zhongwen的数据存储工作。可用Mashup技术与数据库查询语句,检索已有的汉语同义词或近义词词典表、汉字拼音表、汉英词典表及汉语词典表或相关在线词典,获取主题词的相似词语、拼音或其首字母、英语表达形式及中文释义等数据,也可以自行编写相关代码进行数据抓取。如设计VBScript程序,通过遍历Scripting.Dictionary对象转换汉字的ASCII码值,可以获取主题词的拼音或其首字母[11]。字段fre0的值则可在从书目库表字段subject的数据采集过程中予以更新。

3 书目主题检索提示的实现

3.1 主题词提示

主题词检索的本质是概念匹配,系统应推荐用户使用主题检索。在OPAC相关页面进行主题词提示,有利于培养检索者的主题词检索习惯。主题词提示实际上是利用主题词数据表x_subject将用户输入的自然语言转换为规范词再进行查询的过程。

(1)热门主题词推荐。用户访问OPAC并不一定存在非常明确的检索目的,或不能准确地表达自己的查询意图,因此应在首页进行热门主题词的推荐,为用户提供推荐服务。

(2)主题词输入联想提示。检索输入框下的提示包括汉字与拼音的字符输入提示。目前客户端的输入速度严重影响了书目检索性能,主题词输入联想提示可以弥补汉字输入法及用户使用不熟练的缺陷,即利用Ajax技术实时地提示对应的字词,如图2与图3所示。

图2 主题词输入联想提示图

图3 主题词拼音联想提示图

用户还可以输入拼音首字母如“wx”,系统将返回“文学”、“卫星”及“无锡”等相关的汉字,并按热门程度排序后返回给用户选择,用户利用键盘选取或鼠标点击相关的主题词后,系统将直接返回书目检索结果。主题词输入提示功能的实现,有赖于查询表x_subject的subject0、pinyin、py及fre0、fre1等字段。

(3)主题词拼写检查。字词输入错误往往难以避免,OPAC应对用户输入的主题词执行拼写检查,尤其当检索结果为“0”即检索失败时。其原理是对表x_subject字段subject0、pinyin执行模糊及对应的拼音查询,找出字形相似或拼音相同的类似主题词,即检索词的多音字、同音字、相近字或错别字等,并提示给用户。提示并校正疑似错误的主题词,无疑确保了用户在输入出错的情况下仍能获取需要的信息,减少了用户操作失误和提高了查准率,扩展了用户的检索面。假如用户输入“古点小说”,系统将提示“古典小说”。

3.2 主题词查询扩展

主题词扩展查询(Query Expansion),即查询字词扩张或扩展,是为了改善书目检索的召回率(Recall),将原来的主题检索词修改为新的主题词来重新检索。即将用户输入的主题词先做一次检索,根据检索结果,依据表x_subject字段subject0、subject1、pinyinji及yingwen来选取相关的主题词,以便重新检索,解决检索请求中表达差异的问题。

(1)同义词或近义词扩展。汉语中存在大量的同义词或近义词、同音词或多音字、缩写词或俗称,主题词亦不例外,如不注意区分,将会严重干扰检索聚类结果[12],造成错检或漏检。例如,“化学肥料”简称“化肥”,“蕃茄”俗称“西红柿”,“美国国家信息交换标准代码”缩写为“ASCII”等。主题词标引时出现的一词多义和多词一义现象,使编目员与用户之间很容易出现理解分歧。这种汉语表达的复杂性,加上个人用词的习惯差异,使得只有对用户输入的主题词进行必要的同义词或近义词扩展,更完整且更规范地描述原检索词所隐含的查询语义或主题,才能显著提升书目检索系统的查全率。假如用户输入的主题词为“红楼梦”,一组新的且更准确的相关主题词序列如图4所示。

图4 相关主题词查询扩展图

当用户点击图3中的主题词链接后,系统将表x_subject字段fre2的值累加1后使用Sq1语句进行更新,修改点击频次,并以此作为相关主题词出现频率与排序的重要依据之一。

(2)英文表达形式扩展。同一主题词由于语言表达形态的不同可能导致检索结果大相径庭,如“客户关系管理”与“Customer Relationship Management”,“企业资源计划”与“Enterprise Resource Planning”,“用户生成内容”与“User Generated Content”等词的含义相同但形态各异。因此,系统应依据表x_subject字段subject0、fre0及yingwen等来选取相关词,实现中文词对应的英文单词或词组及其简写形式等提示,以降低OPAC的漏检率。

(3)截词检索。主题词截词检索是指在主题词的合适位置进行截断,然后使用截词符进行处理,用截断的主题词的一个局部进行检索。截词检索既可节省输入的主题词字数,又可提高查全率。按截断的位置来划分,截词包括左截词(后方一致)、中截词(左右一致)及右截词(前方一致),其中前者使用最多。截词检索通过规范用户输入的主题词,控制与干预书目检索结果,但应以不曲解用户检索意图为前提,并通过科学实施使得查全率和查准率同时达到最高值[13],包括有限截词、中间截词、无限截词等方式。系统利用族性的主题词字面,缩检或扩检先组度高的标引词,以改变检索范围,是预防漏检和减少检索途径的一种常用技术,这种方式可以减轻用户构造检索式的负担,主要在检索结果过少时使用。

3.3 主题检索结果聚类

主题检索结果聚类是指应用主题聚类技术,将书目的检索结果自动分成若干子集,得到若干个聚类类目,每个子集中的书目之间具有较高的主题相似度,而不同子集之间的书目主题相关度较低,以便用户甄别与选择结果。一般用户偏向于使用比较宽泛的检索式,导致书目检索结果过多,其中往往包含大量的与检索意图或查询主题无关的书目信息,存在结果数据呈知识孤岛且定位困难的问题。依据主题词在检索结果中的共现率及表x_subject的fre0、fre1等字段来进行排序,利用主题聚类对检索结果进行知识组织,使书目信息以不同主题类别的形式分面显示。主题类似的检索结果被划分为一个类目,向用户快速呈现图书在不同主题之间的整体分布状况,形成反映上下隶属和派生关系的主题树状结构导航,展示主题之间的族属关系,呈现可视化的知识关联图谱,以缩小检索范围与细化检索结果,便于用户发现特定主题,有效提升查全率和查准率,使得书目检索过程更快、更高效和直观。

3.4 主题图书推荐

向用户推荐隐藏的主题图书,引导用户正确选择与利用馆藏图书,让用户从浩如烟海的信息中找出自己感兴趣的图书,同时让有价值的图书被需要的用户发现,减少图书查询的盲目性。主题图书推荐的原理是在书目数据库表中检索与用户所浏览图书的主题相同或相近的图书,并在OPAC相关页面以一定的权重标准进行排序后再显示给用户。判断主题是否相同或相近,主要存在3个计算依据:①图书的主题标引完全雷同。例如《脂砚斋重评石头记》、《红楼梦》与《红楼梦程乙本》等图书的学科名称主题完全相同。②与表x_subject字段subject1的值相同。③与表x_subject字段pinyin的值相同。最近几年,OPAC流行以标签云的形式推荐图书,更是把访问者的关注点吸引到了网页的特定区域,可以降低用户检索的难度。主题词为“红楼梦”的图书推荐标签云,如图5所示。

图5 主题图书推荐标签云图

3.5 其他检索提示

书目检索提示功能的应用还包括中英文主题词释义、主题词内文链接提示及百科知识提示等方面。主题词释义是指主题词的中英文解释:用户在OPAC图书详细信息页面发现并使用鼠标拖选存在疑问的特定主题词后,系统利用JavaScript脚本获取用户拖选的数据,并检测用户松开鼠标的事件即触发跳出使用Css设计的主题词释义弹窗,系统通过查询表x_subject字段pinyin、yingwen及zhongwen,返回所选主题词的相关解释,如图6所示。

图6 主题词释义提示图

主题词内文链接提示及百科知识提示则是系统在书目信息页面的题名、主题、提要、文摘、全文目录及书评等栏目中查询包含了主题词的文字,通过创建主题词词典对象,在网页正文中正则匹配书目主题词,即利用Replace( )等函数将原文本文字替换后以链接的形式呈现给用户。如该主题词经查询与表x_subject字段subject0匹配,则使用内部链接,用户点击可直接访问该主题词的书目检索结果;否则使用外部链接,用户点击可浏览该主题词在百度百科、互动百科等网站的知识检索结果。网页主题词锚文字链接的设置,有利于减少网站的跳出率或方便用户获取更丰富的资讯。

4 实践效果与相关思考

4.1 实践效果

从笔者设计的惠州学院图书馆OPAC书目检索提示功能的试用情况来看,实现效果较好,用户反映不错,在单位时间内初步取得了满意的用户反馈与实践效果,如表2所示:

分析表2得知,OPAC用户存在被引导与帮助的需求,具有一定的检索提示功能的使用兴趣,其中输入联想提示功能的使用量最大,反映了用户偏好选择最省力的检索方式。

本文设计的OPAC检索提示与其他系统的检索提示相比,均能针对用户的具体检索行为来帮助、引导检索者更容易地获取满意的检索结果,从而提升检索绩效。不同之处在于:①设计目的与应用领域不同,前者专门为书目检索系统而设计;②数据来源不同,前者的相关词来源于相对规范的书目数据而不是用户输入的自由词;③数据采集方案不同,前者综合采用了多种数据采集方案;④应用范围不同,前者应用于从用户访问检索系统到获取检索结果的整个过程,而不是仅仅局限于检索阶段;⑤针对的检索行为或检索意图不同,前者更侧重于针对用户的主题检索。

4.2 相关思考

自建的特色主题词表除了可用于书目检索提示功能,还可以作为主题标引、图书采访等工作的参考查询工具。例如,个性化的主题词字典,可供编目员标引参考,以符合《中国分类主题词表》对使用频率不同的主题词进行修改、删除、新增的相关规定[14];图书馆可以在采访时参照热门的主题图书。目前,书目数据主题标引的网罗度、专指度、一致性的程度都不高,导致主题检索的查全率、查准率都低,主题词标引不准确不完整必然导将图书的错检漏检。科学的书目主题标引是进行OPAC主题检索和检索提示的前提和基础,有待于标引人员认真学习研究标引技术,熟练掌握标引规则和技巧,使标引工作更标准、规范。

5 结语

本文通过设计书目数据的个性化主题词表,就OPAC主题检索提示进行了详尽的研究。特色主题词表的构建将传统书目数据的主题词及其相关数据整合成一个有机体,主题词表的应用是针对主题检索的性能优化与辅助手段,不但加大了书目检索的深度,而且更适应用户自然语言检索的习惯。查全率与查准率之间,始终存在着互顺和互逆的关系。从检索系统的角度来看,在具体的主题词检索应用与策略设计上,应注意权衡利弊,依据用户的检索需求,找到两者之间的最佳平衡点;从使用者的角度来看,应选择恰当的主题词和配置合适的逻辑关系。目前主题词表中的主题词字段数据主要采集于书目数据库,来源单一,覆盖面窄,还应动态更新用户输入的检索词与热门的流行词等数据,这是未来研究工作的重点。

标签:;  ;  ;  ;  

基于主题列表的OPAC检索技巧_主题词论文
下载Doc文档

猜你喜欢