数字图书馆移动视觉搜索众包模式初探_数字图书馆论文

数字图书馆移动视觉搜索的众包模式初探,本文主要内容关键词为:数字图书馆论文,视觉论文,模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      互联网时代的到来使得用户需求、信息来源、信息形式等发生了重要的变化,以馆藏书目和文献为基础的数字图书馆要想在新信息环境下更好地发挥作用,必须进一步对数字图书馆中现有的图像和视频资源进行丰富,同时积极采集并融合外部信息资源。相对于图书馆的数字化资源而言,网络视觉资源更加分散和多样化,时效性和更新速度也各不相同,如何高效率、高质量地采集视觉资源是资源库建设的前提。不同来源的信息获取方式和信息结构的差异,直接影响了视觉对象资源库建设的基本架构,且面对不同的用户群体和任务情景,现有数字图书馆在满足其个性化、精准化和敏捷化的用户需求方面,还存在较大的瓶颈。移动视觉搜索(Mobile Visual Search,MVS)作为一种重要的信息资源获取方式,可以解决资源构建过程中面临的各种场景问题,通过将移动智能终端与视觉搜索技术相结合,能够快速有效地帮助用户从视觉资源数据库中找到其感兴趣的信息资源[1]。笔者认为在MVS中,资源的采集和建设不能仅仅依赖于传统机构的职能服务和业务拓展,单纯靠组织内部员工的贡献模式已经无法满足日益增长的数据需求和格式多变的内容需求。因此,群体智慧和大众智能应该通过众包和众创等形式进一步挖掘和提升,将众包模式融入到移动视觉资源构建中,能够激发用户对原创视觉信息的分享欲望。在移动互联网社区平台中,传统的组织主导模式已经让位于用户生成和贡献模式,每天数以万计的用户利用SNS、即时通讯、网络社区等社交媒体传播大量的图片、视频、音频等信息资源,并形成爆炸式的增长趋势,移动视觉搜索与众包模式的结合跨越了传统的组织界限,为实现任务或项目目标提供了丰富的人力资源,同时克服了海量资源规模大、数量多、分布广泛的问题,并提高了多源异构资源的采集效率,这种由大众参与者自发性生成的多元化信息内容,可以有效地验证移动视觉搜索中众包模式的巨大应用价值。

      2 数字图书馆移动视觉资源构建

      大数据环境下,数据的容量大小、类型多样以及复杂性等特征使得数据属性更加难以把握,同时对数据采集和处理速度的要求也给数字图书馆带来了一系列新的挑战。现有的数字图书馆大多基于馆藏资源的数字化而建立,内容还集中于传统的图书、期刊和报刊等文献资源,更新速度较慢。随着搜索引擎的不断发展以及社会化媒体的日渐壮大,数字图书馆在用户获取信息和搜索信息的业务上逐渐失去了优势。同时,数字图书馆提供的服务从视觉的直观性和生动性而言都还有所欠缺,难以满足用户日渐增长的可视化信息需求,对于移动端视觉信息服务的开发和建设也显得力不从心。

      2.1 移动视觉搜索概述

      移动视觉搜索是指通过移动智能终端获取视觉对象资源,将所获取的视觉对象资源信息与存储在视觉对象知识库中的描述进行匹配和识别,并返回匹配度最高的一个或一组搜索结果[2]。移动视觉搜索技术将图像识别软件集成在用户的移动终端设备中,可以快速而方便地连接到用户想要查询的信息内容,消除了线下和线上媒体的差别,当用户对一个视觉资源进行扫描和拍照时,图像识别软件会自动链接到与之相关的信息内容。例如我们在看报纸的时候看到一个喜欢的法国作家,有意向去了解这个作家,但是由于不知道作家的姓名,也不知他有没有写过其他作品,此时我们只要拍摄一张照片,上传到网页上后系统会提取图片中人物的信息然后和图书馆资源库中的馆藏信息进行匹配,最终找出与图片中作家相符的其他信息。

      同时,移动视觉搜索技术使得用户的搜索诉求从获取信息变为更加生活化的实体搜索;搜索方式从Web网页变为APP搜索;信息对象输入方式也因为使用场景的多变性、移动设备的特征而发生了巨大变化,从文字输入变为图像、声音、位置等的综合输入;输出结果因为移动设备的特征而变得更自然、智能和互动,如语音和图片等[3],这种搜索方式的转变使得信息搜索和收集的过程更加自然化,更加符合人们随时随地对信息内容的搜索需求,同时将人与设备的信息交互变为人与人之间的信息交流,用户不需要输入任何文字描述便能上传自己的视觉资源,同时检索与之相关的其他用户提供的各种资讯,也使得资源检索与搜集的过程更加人性化。本课题组认为,从狭义上理解MVS是指利用移动终端设备在现实世界中获取视觉资源作为检索项,通过移动互联网进行解析处理并返回相应结果的交互式信息检索方式。从广义上理解,MVS是指移动互联网环境下的一种数据驱动、任务导向的创新型信息服务模式,强调对视觉类信息资源的高效分析及其相关信息的有机结合与展示。从广义上理解MVS更贴近于图情学科的角度,有助于理解用户行为、信息资源以及科学技术的结合统一,突破技术范畴从而延伸到更广阔的服务理念、管理模式和运作机制上去,从宏观上赋予该研究领域更丰富的理论视角、研究对象和应用情境。因此,从资源采集、组织加工、展示以及服务的角度而言,MVS充分体现了大数据的时代特征以及科技革命和产业变革的现实需求。

      2.2 基于MVS的视觉资源库构建

      移动视觉搜索技术可以开创数字图书馆信息和知识服务的新局面,通过智能终端和移动互联网,用户可以任意地访问数字图书馆的图书资源,即时、高效地获取自己所需的信息。将移动视觉搜索与多个数字图书馆相结合,用户可以跨越时间和空间的限制,同时获取整合自不同数字图书馆的相关资源信息。移动视觉搜索有别于传统信息搜索模式的不同之处在于,前者更侧重于视觉资源的获取和建设,如图像和视频等,强调“读图”和“识图”。因此,以视觉资源为主题和对象的资源库建设是实现数字图书馆移动视觉搜索服务的核心和基础,视觉资源建设是构建基本的移动视觉搜索的前提和保障,也是近几年来“数字人文”领域所关注的热点方向,即对可视化资源的高效存取和利用。目前,各类搜索引擎、在线社区、门户网站等已经积聚了丰富的图片和视频资源,各级各类图书馆、博物馆和档案馆也都进行了很多数字化工作,在这些信息源中,信息结构各不相同,其中图博档已有的数字信息资源符合标准化的信息资源,而网络视觉资源以及由社会大众提供的现实世界的视觉资源,如用户通过移动终端上传的图像、视频等更倾向于海量异构的非结构化资源,在视觉资源整合的基础上,面向结构化和半结构化数据,可采用XML/RDF采集、OAI元数据收割技术,面向非结构化的数据特征,可采用HTML爬虫采集、RSS采集器等构建相应的视觉资源库(见图1)。

      然而,基于数字图书馆信息资源库提供移动视觉搜索服务还存在诸多障碍。首先,数字图书馆现有的资源库内容难以为移动视觉搜索服务提供支撑。已有资源库是依赖馆藏资源数字化构建的,以图书、期刊、报纸等文献资源为主,种类单一、更新速度慢、图像和视频资源相对偏少,且时效性和场景感很弱,检索入口单一,搜索难度较大,难以为用户提供更全面和高质量的知识服务。其次,数字图书馆现有的资源建设机制不能保障高效率、高质量的视觉对象资源库的建设。陈传夫等[4]认为,在大数据环境下,相对于可被感知的半结构化或者非结构化数据,存储于数据库中的影像资料、办公文档等结构化数据居多,资源建设结构不合理,资源同质化现象严重。图书馆的数字资源建设一直依赖图书馆员,然而,移动视觉搜索服务所要求的视觉对象资源库的丰富度大大超出了图书馆有限的人力物力资源所能实现的程度,在视觉对象资源库的建设过程中,从视觉资源的采集和获取、分配和部署、标引和描述到最后的使用和维护,每个环节都需要大量的人力资源参与,仅单纯依靠图书馆员和图书情报机构自身去完成资源建设是不现实也是低效率的,因而在对大数据背景下数字图书馆资源建设的需求分析的基础上,如何在新的环境下完成图书馆移动视觉资源构建,值得进一步探讨。

      

      数字图书馆在对资源进行整合的同时,也面临着资源的序化、发布和连接各类数据、挖掘资源相互之间的隐含关系等一系列挑战。这些任务在本质上属于资源组织的范畴。相较于传统图书馆,大数据环境下的数字图书馆其标引、检索、呈现方式均有别于传统方法。因此,一套有效的视觉资源组织机制,可以有序地存储信息并将信息和知识进行系统融合,以便用户进行访问和使用[5]。然而,移动视觉搜索与传统信息搜索不同,移动设备的性能、处理能力等特性对移动搜索的过程提出了更高的要求。在移动设备处理能力的瓶颈尚未突破的情况下,一套好的资源组织方式能够有效地管理并提取数据,从而增强移动搜索的能力。因此,在视觉资源建设的基础上,对于已经采集的大量的数据和信息资源,需要进一步深入研究数字图书馆移动视觉搜索的资源组织机制。

      3 移动视觉资源库建设的众包模式

      3.1 众包模式的相关概念

      随着网络用户的增加,携带着大量知识的劳动力也发展起来,企业或组织可以充分地利用网上的丰富的劳动力资源完成工作任务或解决技术问题,如一个IT公司耗费几百万元也无法解决的技术研发问题,可能被一个外行人在两周之内圆满完成;而过去要几百元才能买到的专业图片,现在可能只需要1元就可以买到;微差事网站通过众包让繁事变易事,能够快速解决企业的弹性劳务需求,同时帮助用户在碎片时间里赚钱,作为一种基于互联网的新兴合作模式——众包应运而生。“众包”(Crowdsourcing)概念由杰夫·豪在2006年6月提出,指的是企事业单位、机构乃至个人把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的社会大众群体解决或承担的做法[6]。众包的核心思想就是“集思广益”,是利用群体的智慧和力量完成个人或机构无法或难以完成的任务[7]。其通过互联网并以低成本汇聚大众智慧,以其独特的优势赢得了企业和组织的推崇,众包跨越了传统的组织界限,众包中参与者可以在任何时间、任何地点参与完成相应的任务。李克强总理在近期的互联网大会上也表示,互联网是大众创业、万众创新的新工具。只要“一机在手”、“人在线上”,实现“电脑+人脑”的融合,就可以通过“创客”、“众筹”、“众包”等方式获取大量知识信息[8]。

      从众包的技术角度来看,众包的理念源于互联网的开放化与共享化,将逐渐取代过去封闭式的技术特性。同时,众包还必须依托后台系统的功能技术实现,将逐步被更多互联网领域采用,并对互联网领域的技术和市场产生一定的影响[9]。基于众包模式的搜索使得新一代搜索方式将人的智慧和经验融入其中,当用户在使用智能终端进行搜索时,也会相应的输入用户自身的行为数据,这些众包用户生成的信息会送到云端做数据挖掘,进一步完善数据库信息,参与的用户越多,所搜集到的数据信息就越精准全面。可见,众包模式作为新兴的信息资源采集和获取方式,有广泛的应用前景。

      3.2 基于众包模式构建视觉资源库的必要性与可行性

      视觉对象资源库的建设是数字图书馆为用户提供移动视觉搜索服务的基础,新视觉资源的获取是视觉对象资源库的生命力和价值所在。图书馆、博物馆、档案馆、搜索引擎、门户网站、网络社区等都包含了大量的视觉资源,然而这些资源分布过于分散,需要大量的检索和筛选才能更好地满足面向大众的社会信息服务以及面向学科的科研知识服务。此外,目前数字图书馆的资源大多还是人工标引的形式,当面向大数据环境时,海量的数字资源、各种各样的非结构化数据为图书馆员和编目工作者的工作增加了难度。同时,由于相关训练集尚不发达,很多情况下对于高精度识别和匹配的视觉对象机器标引的效果也并不理想。众包模式为当前的困境提供了解决方案,通过众包模式借助于大众参与共同完成资源库构建工作,既节约了图书馆视觉对象资源构建的成本,同时也提高了大众的参与热情,获取了无限的新型视觉资源。

      网络技术的发展与移动设备的普及为数字图书馆开展众包服务提供了基础,数字图书馆拥有大量的用户群体,且用户主动参与意识提高,海量的用户提供各种有用的数据资源也为图书馆众包模式的实现提供了可能,同时由于图书馆不以盈利为目标,很多用户愿意自发参与馆藏资源建设,贡献自己的力量并实现自我价值。众包模式可存在于基于数字图书馆资源的各种应用中,国外图书馆已经通过实践证明了众包模式在图书馆资源建设中的可行性,如美国国会图书馆的照片众包、纽约公共图书馆的古籍善本菜单众包、澳大利亚国家图书馆的文本校对众包、德国国家图书馆数字化百科全书众包等[10]。因而大数据时代数字图书馆可以通过众包的理念和方法获取新的视觉资源,并行之有效地建设视觉资源库。

      3.3 MVS视觉资源库构建的众包模式应用

      将众包技术与智能终端相结合蕴含着巨大的经济及社会价值,移动视觉搜索移植众包理念,借助大众参与及信息分享,使得大众参与者在获得信息的同时,也帮助了数据库信息的扩充。

      (1)MVS众包模式的应用。位于洛杉矶的创业公司Image Searcher目前开发了一个图像识别应用CamFind,是一款移动终端图像搜索APP,CamFind结合了专有图像识别技术,用关键词对图片进行标记,从而实现了80%准确率。不同于以往的娱乐化搜索,CamFind搜索似乎有了更多的使用价值,利用人工智能的方式来识别图像。例如,用户在马路上碰到一只宠物狗,用CamFind来识别和了解该宠物信息,智能终端后台基于Computer Vision搜索到你刚才拍摄的物体,准确地识别出搜索对象的颜色、质地、轮廓等信息,并提供相关的搜索结果,用户可对搜索的结果进行翻页浏览,还可收听有关宠物的音频资料。此外,它还结合了众包模式来解决问题,如果APP需要识别的图像不清晰,那么CamFind将会让相关专家为用户反馈图像识别的信息结果,这些专家都是Image Searcher的员工,当专家也没有办法给出准确答案时,APP后台会将问题发送给所有用户,让用户参与共同识别图像,同时,任何用户都可以对他人提交的图像识别结果进行改进,即参与识别图像的用户越多,反馈的结果将会越准确。研究发现,CamFind在进行图像识别时,可以在12秒以内给出一个准确的答案。如果这个图像是曾经识别过的,那么当再一次识别时只需几毫秒就能完成识别[11,12]。

      (2)资源构建众包模式的应用。为了进一步丰富和完善馆藏数字资源,上海图书馆向读者开放全国首家“家谱知识服务平台”,推出基于关联数据技术的开放的数字人文服务。关联数据是国际互联网协会推荐的一种规范,用来发布和连接各类数据和信息,可以使用户能够借助整个互联网的计算设施和运算能力,直接通过搜索就可以准确、高效地查找、分享这些相互关联的信息和知识[13]。用户可以通过该平台在线查询自己的家族信息,如在“家谱数据库中”网页选择相应的检索提问式,并搜索某个姓氏,便能在下侧列表区中显示检索的命中记录,用户点击相应的检索命中记录,就可以获取姓氏概况、先祖名人、相关家谱等信息,针对专业学者和爱好者,网页也标注了家谱的馆藏信息以供进一步的研究[14]。上海图书馆“家谱知识服务平台”支持基于UGC的知识生成和积累,运用众包模式吸引对家谱信息感兴趣的研究专家、学者、民间团体贡献知识,任何对家谱知识感兴趣的研究专家、学者都可通过撰写相关意见信息进行家谱知识的交流互动,经过认证的专家可直接对错误的数据进行修改,经审核通过后发布在网页上,同时系统会记录用户的每一次修改信息,使数据在使用过程中不断增值,不断地完善和修正家谱信息资源,从而使资源价值最大化[15]。

      4 数字图书馆MVS的众包模式分析

      将用户纳入图书馆数字资源建设过程在Web 2.0兴起时就在图书馆界引起过热议[16],这种大众参与的数字图书馆建设方式旨在通过用户参与丰富馆藏资源、提高馆藏资源利用率、提高用户体验并增强用户的忠诚度。目前,数字图书馆由于其非营利性质,且移动视觉资源隶属新型资源类型并且无法从其他机构直接获取,要完成海量视觉资源的收集与分类,不仅超出了工作人员的能力范围,且耗费成本较高,因而需要引入众包模式,借助于大众参与的力量来完成相关资源建设任务,使组织利用大众将分散的资源进行聚集,降低了资源库构建的成本。同时,网络普及率提高以及用户主动参与意识增强的信息环境,也为数字图书馆移动视觉资源构建中众包模式的运用提供了有利的保障。美国国会图书馆、纽约公共图书馆等已经通过实践证明了众包模式在图书馆资源建设中的可行性和有效性[10]。

      数字图书馆移动视觉资源库的建设过程中要考虑三方面的问题,从移动视觉资源角度,应注重视觉资源的主题选择、资源征集与整理,例如基于特定主题的图片与视频资源收集等;从参与者角度考虑,应关注如何通过设计物质和奖金激励、积分以及用户排名等激励模式提高用户主动参与的热情;从资源质量方面考虑,应关注所搜集的视觉资源的内容纠错与质量评估。因此,通过众包模式实现数字图书馆移动视觉资源库构建需要解决三个问题(如图2所示):(1)数字图书馆视觉对象资源库建设的众包任务应该如何设计?众包模式强调任务驱动,所以任务机制,包括任务的设计、分解、分配会在一定程度上影响众包的最终实施结果。(2)在通过众包模式进行数字图书馆视觉对象资源库建设的过程中,应该如何激励用户参与众包活动?用户参与是众包任务成败的关键,在数字图书馆视觉对象资源库的建设中也不例外,用户的参与动机和众包的激励机制都显得尤为重要。(3)在数字图书馆视觉对象资源库建设的过程中,应该如何进行众包结果的质量控制?众包是群体智慧的体现,但事实上,由于参与众包任务的用户在知识水平、理解能力、表达能力等方面的不同,也会导致众包任务完成时质量的参差不齐,质量控制也是必不可少的环节。

      

      4.1 众包任务设计

      众包中强调任务驱动,任务的设计、分解、分配都影响着众包的最终实施结果。组织应根据自身的需求和任务的类型,对众包模式的任务粒度进行分解和优化。就目前而言,图书馆的众包项目主要分为三类:公众参与资源标引,例如图片中动物信息的相关描述;文字录入或纠错,例如对纸质的书稿与书信的电脑存档;参与元数据方案定义用以避免某个人或某几个人在选择合适元数据要素时的偏见[17]。从数字图书馆的视觉对象资源库建设角度而言,众包任务设计主要是帮助移动视觉搜索引擎丰富和完善知识库和关联信息库,特别是资源的采集、标引和描述。具体任务包括:

      (1)对已有视觉资源的标注。对互联网中已有的相关图片、视频资料进行标引,人工设定标签、关键词,包括视觉对象描述符,在用户上传或扫描相关视觉对象信息后,能搜索到相同或相似的图片信息。例如,亚马逊土耳其机器人发布的一条关于花草图片的标注任务,用户基于图片的信息内容,对相关植物图片的种类信息等进行标识。此外,在对视觉对象资源库进行标引的过程中,还要考虑到采集视觉资源的内容以及粒度属性,一般来讲众包的任务分为常规型任务、创造型任务和复杂型任务[18],一般常规型任务对参与者没有较高的信息能力和技术含量的要求,如上述关于花草图片的标注任务,这种简单的图片标注任务任何用户都可以参与其中,而创造型任务和复杂型任务则需要满足相关能力要求的众包参与者来完成,例如日文动漫海报的信息标引通常需要参与者具有相应的知识技能。在某些微型众包环境下,有些用户不愿或者没有能力参与到长期的、复杂的资源搜集任务中,因而,对于这种粒度比较大的任务,可将其分解成简单的可被参与者快速完成的任务,同样,对于简单的资源标注任务,也可基于众包任务的内容将其合并在一起作为一个整体任务来完成[19]。

      (2)对视觉资源对象关联数据匹配。对于已经形成视觉对象描述符的相关图片、视频,根据其具体内容(所涉及的关键词)进行关联数据的匹配,从而将图片结合传统搜索引擎的数据库链接到具体的信息。例如当用户用手机拍摄到某本图书时,将该视觉对象作为搜索对象,执行移动视觉搜索,就会反馈关于该书的作者、出版社、经授权许可的电子图书、教学课件、视频、图片、实体信息资源在实体图书馆中藏书地点以及该图书作者的其他著作或论文等关联信息。在移动视觉搜索过程中,同一个视觉资源的关联信息可能存在着多元化、异构化以及冗余性等特征,因而为了从视觉资源库中检索出符合用户信息服务需求的信息,就必须研究移动视觉搜索对象与资源库对象间的关联性,详细分析视觉资源对象间的相似性与差异性,找出符合资源对象信息的最优匹配结果,从而提高视觉资源的检索效率[20]。

      (3)新资源的产生和上传。对于新增的数字化资源,如馆藏纸质资源的电子化、现实世界的视觉资源(如图书馆、博物馆的三维模型)、经过用户处理的视觉资源等,可基于众包模式汇聚大众力量参与完成资源的构建。移动视觉搜索技术一旦“移动”起来后其功能不可小觑,我们几乎全天携带移动设备,在生活中发现新东西的概率比在网页浏览时发现的概率要大,新颖的有价值的视觉资源的产生和上传,极大地丰富了现有的视觉资源库,并且增加了移动环境下多用户交互式知识交流和信息共享,开启了人们探索数字化世界的新方式,同时与传统的现金购买资源的模式相比,基于众包模式的资源采集将互联网中闲散的资源进行合理的整合,不仅提高了资源采集效率,同时也降低了成本。

      因此,如何针对上述具体任务类型进行任务设计,将其发布在已有的众包平台或者针对特定众包任务专门设置的众包平台,号召大众的积极参与,是移动视觉资源库构建需要解决的问题。用户既是信息资源的接受者,也可以是信息资源的开发者和建设者。用户在进行移动视觉搜索的同时,可以对上传信息进行有选择性的标引和关联数据的匹配。同时,如何结合移动终端的特点和数字图书馆移动视觉搜索服务的目标,帮助用户利用碎片化时间进行贡献,也是任务设计中值得关注的要点。

      4.2 众包激励机制设计

      对于一个成功的众包项目,其最重要的就是拥有一个活跃且忠诚度高的用户社区,大众用户行踪不定,留住他们比吸引他们难得多。目前,Web2.0网站的用户激励模式主要由物质和金钱激励、积分与等级提升激励、资源—积分—资源激励、用户排名激励四种方式构成[21]。数字图书馆资源构建的众包项目具有自身的特征,由于数字图书馆隶属非盈利组织,因而资金激励不足,数字图书馆馆藏资源多倾向于科技文献等专业资料,项目较为专业化导致大众没有兴趣参与,同时参与者人数较少、众包项目数据量较多、需要长期参与其中。数字图书馆的视觉数据资源隶属新型信息资源,因而众包模式设计中应关注符合移动视觉资源的激励模式。

      (1)外在动因分析。众包模式的成功运用需要大量用户的参与,因此在图书馆众包项目确定后,往往需要采取一定的激励措施来吸引用户主动参与,包括外部激励、感知有用性等[22],用户也会出于改善就业前景、利益互惠、学习或仅仅为了得到认可等目的而主动参与众包项目[23]。用户在了解相关众包任务后会形成一定的期望,当参与任务后会根据自己的经验来确定期望是否得到满足,从而确定是否参与。从感知有用性的角度来讲,大多数用户特别是青年学生可能没有足够的耐心去阅读文字信息,而图书馆视觉资源的标注与描述具有可视化的特征,向用户提供简要的图片与视频信息等,用户在开展“搜索即学习”的过程中,不仅提升了用户的学习速度,也帮助用户建立多角度、全方位的知识学习机制,从视觉与娱乐的双重体验来提升感知有用性。此外,基于图片标注的众包任务的激励机制研究表明,货币激励具有较强的显著性[24],因而可根据现实情况对某些复杂的视觉资源标引任务提供金钱或奖品等物质奖励。

      (2)内在动因分析。除了外在动因,对众包参与行为内在动因进行解析也必不可少。数字图书馆众包项目满足公众兴趣尤为重要,相关研究基于享受乐趣、虚拟社区感、自我肯定、提高能力等内在动机来对用户持续参与行为进行分析,其结果表明用户参与完成众包任务不仅仅是为了满足物质需求,还包括内在动因的实现[22],图书馆可定期举办相关的视觉资源征集活动,让用户自己完成并对视频资料进行整理,鼓励用户拍照上传并写下自己的描述,也可分享到图书馆官方网址或者公众账号上,以吸引更多的用户参与,图书馆可针对排名靠前的内容发起投票,让观众自主决定想要浏览的内容,对于排名靠前的用户,图书馆可通过免费借阅图书或者共享非公开的文稿信息来鼓励用户持续参与,同时亦可提倡用户之间相互推荐,对于不同地域的用户也可采用不同的激励措施。

      (3)激励策略分析。探索更加有效的激励策略也是众包项目完成的关键,例如,“游戏化”模式就是当下热议的提高用户参与度和忠诚度的手段[25]。随着传统的激励政策的失效,未来的激励制度的管理将更多地关注参与者的自我激励,而一些设计巧妙、引人入胜的游戏就建立在对人类的动机和心理的研究之上,可以最大程度激发参与者的兴趣。这种游戏设计思维在基于众包模式的视觉对象资源库的建设过程中有着很大的应用空间,例如在视觉资源的搜集过程中,可采用游戏化的晋级模式,在用户上传资源的过程中不断送出奖励与积分,引导用户不断向前推进,让众包的协作变成一件实现自我价值的事情。

      因此,需要从内在动因和外在动因两个角度,结合自我决定理论的波谱框架进行划分[23],探讨影响用户参与数字图书馆视觉对象资源库众包任务的要素及要素间的关系,并设计相应的激励策略鼓励用户的自发参与。同时,还要对用户停止参与图书馆众包任务的原因进行调查,现有的用户行为研究中,对用户参与动因的研究比较多,而关于用户停止参与和迁移的行为动因研究相对较少。根据赫兹伯格的双因素理论,使用和不使用行为往往有不同的深层次原因。还要对众包项目参与中的恶意行为进行了解,众包存在一定的风险,并且这种风险不可避免,基于博弈论的思想在竞争情境中来研究众包中恶意行为的正常性,有助于未来众包市场中激励模式的决策。

      4.3 众包建设的质量控制

      网络环境下,场景的复杂性与用户的不确定性使得众包服务出现许多弊端,例如由于参与者自身素质的差异,视觉资源的上传、标注和描述的结果质量参差不齐,对于需要相关专业知识的众包项目,比如英文视频信息的标引,由于参与者相应的英文知识储备水平不同,所收集到的视觉资源的质量可能会良莠不齐。另外,有些参与者由于工作懈怠,为了使自己的利益最大化,可能随机甚至错误地提交一些无关的信息资源。因此,运用众包模式进行视觉对象资源库建设时,众包的结果要进行质量控制和反复确认修正,以保证其准确性和可信度,从而为移动视觉搜索服务提供保障。目前,众包的数据管理很大程度上是自动和人工相结合的方式,质量控制也成为学者们关注的核心问题之一[26]。通过对数字图书馆视觉对象资源库建设的众包质量控制进行系统性分析,将众包过程中的质量控制按时间维度划分为三类——任务开始前、任务进行中和任务完成后,并分别阐述视觉对象资源库众包建设过程中质量控制的具体方法。

      (1)在任务前识别参与者质量。为了测量和提高众包任务结果的质量,许多研究者提出了不同的测量指标,但是对于参与者本身的素质却经常被忽视。由于视觉资源多数基于UGC而生成,对视觉资源的搜集受到用户主观意识与知识储备的影响,因而搜集的高效性很大程度上取决于参与者自身的素质,对大众参与者质量的测试和分析可以帮助我们开展行之有效的招募策略,最大化众包参与者的整体质量,同时也有助于避免众包中存在的选择偏见现象。吕英杰等[27]基于多指标决策算法对参与者的任务完成能力进行有效的评估,为组织选择适合的知识型人才。在资源搜集之前识别参与者能力,如分析一个众包参与者的搜索历史、偏好、知识背景、标引历史等信息,也可测试参与者对资源标引的了解程度,包括资源分类体系、关键词、主题词等,基于识别的参与者能力形成个性化推送。

      (2)在任务进行中识别欺诈者。图书馆视觉资源库构建的众包过程中,如果用户的质量水平较高,那么他所标注或上传的图片、视觉资源等质量可能更好。但是由于用户的知识水平开始是不可识别的,甚至有些参与者对于相关视觉资源根本不了解,仅仅是为了报酬,因而在众包任务执行过程中识别欺骗者极其重要。可将众包项目集合划分为多个子阶段,在任意工作阶段结束后,通过参与者与组织工作组投票值一致的方法对参与者的质量进行评估,从而检测出不合格的参与者[28]。同时,组织可以在任务中随机添加一些常识问题[29],如在为馆藏增补资源进行标引时,可添加一些简单的动植物或人物图片让用户进行标引,根据用户提交结果测试用户是否为欺诈者,若为欺诈者则进行剔除,而对于那些高质量的参与者可给予一定的积分与奖励(免费借阅图书等)。在任务进行中识别欺诈者,不仅可以提高众包结果质量,还可以节约任务完成的时间与金钱成本。需要注意的是,在添加常识问题时,要避免被用户发现。

      (3)在任务完成后保证结果质量。由于众包参与者是非固定的且不可识别,甚至有些用户在完成组织提出的众包任务后,很可能就此离开,不会再和组织有任何关系,因而对于用户在智能设备上标引或上传的视觉资源,需要进行搜集整理,然后对资源结果的质量进行评估,可利用投票原则、贝叶斯理论、EM算法等。基于成本和精确性的验证机制来研究众包任务结果质量的研究表明,对于低成本的常规性任务,可采用投票原则的方法,而对于高成本众包任务结果的评估则需要采用专家组评定的方法[30]。如果用户提交的资源标引结果质量较差或者有误,图书馆可以拒绝赋予用户相应的奖励,同时为了避免用户争辩,也可采取分开奖励的办法,例如对于一个图片资源标引任务,可采用两种奖励方式,将2分作为金钱报酬,另外1分作为可累加的积分等级,只有用户提交的结果质量较高,才会提升用户的积分等级,从而保证完成任务的结果质量。

      此外,由于依赖一个用户给出的答案很难确保任务结果质量,因而同一视觉资源可采用多人多次标引的方式,帮助查询结果内容的不断修正,还可以对资源标引进行标准化、规范化设定,出台相应的标引规范,提高整体的资源库建设效率,同时也提高了视觉对象的识别质量。

      4.4 比较分析

      借助于先进的互联网技术,依靠大众的智慧来开展移动视觉资源建设,为数字图书馆事业迎来了新的契机。与传统的资源建设模式相比,众包模式在图书馆视觉资源建设中有非常广泛的应用前景,在面向MVS的视觉资源的收集方式、收集成本、任务完成时间以及价值体现方面具有相当大的优势(表1)。

      

      (1)收集方式。采用传统方法进行视觉资源的构建多依赖于组织机构内部完成,某些特定需求下也会向相关机构购买视觉资源(例如某些高校课程的教学视频),而众包模式扩大了组织的边界,资源的构建和参与者不再局限于图书馆员和编目工作者,而是面向社会大众,任何对数字图书馆资源感兴趣的用户都可参与资源构建工作。

      (2)收集成本。传统的基于组织内部人员构建视觉资源过程中,某些图片、视频等资料的征集、整理经常需要耗费相当多的人力、物力,甚至对于有些特色音频、视频等资料,图书馆不知道去哪里搜索,而众包项目的参与者来自于世界各地,知识背景也各不相同,为图书馆资源建设提供了丰富的信息资源,节约了资源建设的成本。

      (3)参与时间。依赖图书馆员与编目工作者进行视觉资源构建工作时,资源的收集工作基于很多现实情况具有工作时间上的限制,而众包模式跨越了时间与空间的概念,用户只要有空闲时间,便可以随时随地进行图片的上传、标引与描述工作,网络环境很好地融合了地域与时间的间隔。

      (4)价值体现。图书馆视觉资源的可视化使得其内容大多通俗易懂,基于众包模式的大众参与者在自愿帮助图书馆构建视觉资源的同时,也了解了大量自己感兴趣或者有用的资料内容,不仅吸引了用户对图书馆的参与,同时为图书馆资源和服务增加价值,也相应地提高了数字图书馆的知名度与关注度。

      从上述相关分析可以看出,与传统依靠组织员工进行资源构建的方式相比较,基于众包模式的视觉资源构建,不仅点燃了大量用户参与图书馆视觉资源建设的热情,同时也保障了高质量视觉资源的建设。

      5 结语

      移动视觉搜索技术结合大众主动参与,不断地拓宽了组织和参与者之间的沟通桥梁,大众参与者知识共享为网络环境下组织的资源建设提供了高质量的信息。本文以信息技术为支撑,以互联网服务模式为指导,在现存视觉资源库建设的基础上,探索高效的基于移动视觉搜索的视觉资源库的建设机制,采用众包理念作为新资源获取的有效方法和手段,重点从众包模式的任务设计、众包模式的激励机制以及众包模式的质量控制三方面开展深入分析和探索,最终提出数字图书馆移动视觉搜索的资源建设机制,指出众包与数字图书馆业务职能的融合将会为数字图书馆带来全新的发展。

      今后进一步的研究中将综合理论分析与实证探索,运用文献调研、案例分析、深度访谈、社会计算实验等方法,通过定性分析探索移动视觉搜索资源库众包建设过程中的影响因素,并提出相应的策略与建议,结合定量分析对众包项目进行评估,验证数字图书馆移动视觉搜索资源库的众包策略,并最终提出数字图书馆众包模式视觉资源建设的对策和解决方案。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数字图书馆移动视觉搜索众包模式初探_数字图书馆论文
下载Doc文档

猜你喜欢