国外情景关注元数据的研究进展_元数据论文

国外情景化注意元数据的研究进展,本文主要内容关键词为:研究进展论文,情景论文,国外论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G250.7

近年来,包括数字图书馆信息服务、e-learning等在内的很多网络服务都在通过用户的反馈来优化用户查询结果、推荐相关资源、提供个性化服务、实现用户兴趣共享等,以达到提升服务质量的目标。传统的方法一般通过用户注册并设定个人喜好,系统采用联合过滤等技术来实现。但是由于很多用户没有时间甚至不愿意注册和设定自己的喜好,有些用户虽然进行了注册,但因无法准确表达个人需求、个人理解与系统描述有差异等原因,依靠用户外在反馈的传统方法实际上发挥的作用非常有限。于是,人们开始尝试采用机器跟踪获取用户注意力(Attention)的形式,自动分析和挖掘用户的兴趣爱好来达到上述目的。

为了描述用户注意行为,注意元数据(Attention Metadata)及其拓展情境化注意元数据(Contextualized Attention Metadata,CAM)应运而生。在比利时Kuleuven大学计算机系Erik Duval、Jehad Najjar等人的推动和组织下,美国计算机协会(ACM)从2006年开始召开相关国际会议(CAMA),目前已经召开了两届,分别是2006年11月信息与知识管理研讨会一部分的“情境化注意元数据:收集、管理和拓展丰富的使用信息”[1]和2007年6月国际数字图书馆会议JCDL(Joint Conference on Digital Libraries)的一个专题“情境化注意元数据:数字资源的个性化获取”[2],吸引了来自比利时、美国、德国、英国等国的教育、图书馆和信息检索等领域的研究人员,对CAM的概念、研究意义、数据的获得、应用、发展前景等多个方面进行了讨论。本文根据会议文献和相关的文献,对国外情境化注意元数据的主要研究进展进行了归纳和总结。

1 CAM的相关理论研究

1.1 CAM的概念

将注意元数据引入到信息技术领域的人是AttentionTrust总裁和AttentionXML标准的合作创建者Steve Gillmore[3]。2006年CAMA会议对注意元数据的概念进行了充分讨论,认为“注意元数据是用于描述用户处理信息行为的数据,可以通过观察用户的行为来收集相关的数据,并通过在行为和内容之间建立联系来抽取用户的兴趣和目标”[4]。后续文献引用较多的概念解释来自于Jehad Najjar等人:“注意元数据是指用户在使用普通网站、Wiki、Blog、文本交流、电子邮件等资源过程中,被用户注意的和引起用户注意的任何内容”[5]。情景化注意元数据(CAM)也由Jehad Najjar等人2005年提出,具体定义是:“情景化注意元数据是用于描述用户某个情景下发生的一系列行为的数据”[6]。

1.2 CAM的描述对象

CAM定义虽然只是强调了其描述对象是用户某个情景下发生的系列行为,但是这里的行为并不只是“行为”本身,还包括行为处理的对象及情景等。对此,各研究人员认识的侧重点有所不同:Dmitrii等人构建的概念注意记录模型主要基于行为和项目,注意记录则包含了时间戳(Timestamp,记录行为发生的时间和顺序)、行动(包括事件和状态转换)、项目(标识行动对象)3个必备项和实例(Instance,帮助用户区分多个窗口显示的同一文档)、属性(包含与行为相关的关键特性)等非必备要素[7]。Martin Wolpers等人从行为处理对象角度说明了CAM的描述对象:关于情景的数据(应用数据、应用模型、相关行为)、关于用户的数据(利用数据、用户模型、用户驱动过程)、关于内容的数据(Schemas,模型、领域导航)[8]。

CAM具体应用中也出现了一些值得参考的对描述行为的总结。Xavier Ochoa等人将学习型对象应用注意记录中应记录的行为分为创建行为、标记行为、提供行为、选择行为、使用行为和保留行为6大类12种行为[9]。Dmitrii等人将网络浏览器应用中记录的行为分为底层I/O行为(鼠标移动和击键)和高层行为(文档装载、打印文档、硬盘保存、添加到收藏夹等)[7]。Jürgen Belizki等人在改善个人计算机桌面搜索中使用CAM记录了“利用、修改、保存内容关闭、不保存内容关闭、打开、删除”等15类行为[10]。

CAM对于情景的描述也有所不同。某些应用将情景格式包含了诸如人、资源、主题、任务、项目、机构、位置信息、时间等信息[11]。Andreas Dengel等人的情景模型包括信息对象方面(接触的文档、相关主题、领域、分类等)、运行情况(目前或曾经使用过的应用程序、使用过的服务、数据库等)、组织方面(用户现在的任务、项目、工作等)、环境方面(位置、使用的硬件)、历史方面(以前做过的工作或任务、现存的事件)、注意方面(获得文本范围、关注的应用)、行为方面(用户行为、自然操作)、原因方面(任务概念目标、任务和工作流)等也具有参考意义[12]。

1.3 CAM的描述标准及Schema

由于CAM需要将从不同系统获得的注意元数据进行合并、分析和处理,也需要和其他系统的CAM数据进行共享,因此CAM数据的描述必须采用统一的标准来实现。目前,应用于CAM描述的标准规范主要有两个:

(1)Attention.XML[13]。Attention.XML是微格式(Microformats)社区2004年推出的开放性规范,是采用XOXO(eXtensible Open XHTML Outlines)等级结构描述的XML文档,用于跟踪、优化、共享人们正在阅读、查看或者倾听的行为。最初通过跟踪用户对RSS提要的订阅、浏览时间、删除等行为,获取用户兴趣,解决RSS资源过载的问题。

(2)注意归档置标语言(Attention Profiling Markup Language,APML)[14]。APML由APML 工作组于2006年推出,目前的版本是0.6版。APML文档是包含了用户兴趣排序后描述信息的便携式文档格式,可以供用户导出他们自己已收集的个人注意数据文档以备他用,目前已经推出了开放源代码的APML解析器[15]提供下载。Attention.XML和APML在CAM数据合并、共享等过程中互相补充。

但是,由于Attention.XML只提供了描述项目注意元数据如“Title”、“Type”、“Etag”、“URL”、“Last update”、“Last read”、“Read times”等这样一些基本要素,遗漏了系统Log中的很多信息,Martin Wolpers等人根据数字学习对象注意描述的需要,对行为(如下载、插入、浏览等)、应用程序(查询、利用和集成)、线程(用户参与系统中的不同线程)3个方面进行了拓展[3]。2007年4月初CAM官方网站[16]推出了对Attention.XML规范进行了拓展的CAM Schema(CAMs)1.5版。作为推荐标准,网站还提供了相关描述的例子。Martin Wolpers等人在2007年CAM国际会议上以图的形式形象表示了CAMs所包含的对象,如图1所示:

图1 CAM Schema [8]

2 CAM数据的收集

目前,CAM数据收集的相关研究主要体现在数据来源、收集方法、收集工具、影响收集的因素等方面。

CAM数据基本上来自于各类系统日志。Martin Wolpers等人构建的CAM框架(见图2)提供了一个尽可能全面的工具和互操作列表。这些注意元数据可以来自于知识管理系统(KMS)、工作流系统(用户对于文献的操作,如存储信息等)、人力资源管理系统(HRMS)(提供用户知识、学习情况及诸如工作描述这类的雇佣环境信息)、学习对象保存系统(LOR)(包括搜索、下载和上传等主要行为)、学习管理系统(LMS)(学习对象的集成和管理以及课程管理等方面)、网络浏览器(用户的互联网浏览和下载行为)、制作工具(诸如MS-Word、OpenOffice、PowerPoint等用于制作新资源、修改新资源的行为)等[3]。Xavier等在介绍学习对象应用程序要存储CAM行为的同时,也对每一个行为数据的来源给予说明,比如创建行为从创建工具获取,标记行为在制作工具或元数据生成工具中获取,查询、浏览、推荐选择行为则在学习对象保存(LOR)系统中获取等[9]。Jehad Najjar等人的CAM试验则将来自于Ariadne数据库标引和查询工具(SILO)、Moddle学习管理系统和Firefox浏览器等的日志进行收集,利用XSLT转化为CAM注意数据流进行分析和处理[5]。视频会议工具FlashMeeting可以记录会议的整个过程,包括发布时间、参与者姓名、文本交流、投票等信息和行为,Elia Tomadaki等人利用此功能收集的注意数据反映视频会议资源全球参与和复用情况[17]。

对于CAM数据的获取方法,Claudia Roda等人将数字学习领域注意元数据的收集归纳为“物理观察(通过观察击键、鼠标移动、眼睛跟踪、声音检测等获得)、心理生理学观察(通过心电图、脑电图获得心跳等情况分析获得)、应用程序观察(利用Attention Recorder等收集并利用APML描述应用程序与环境的交互信息)、用户的输入(允许用户向系统提供其需要、爱好等)”4大类,并认为自动搜集注意信息由于“具有简化用户任务、保持检查统一性”的优势,建议多加利用[18]。

图2 CAM框架[3]

CAM数据除了从各类系统日志中获取以外,目前还有一些工具可以辅助实现获取的目的,但是大多数工具目前还停留在通过网络浏览器对用户网络行为的获取上,而且所借助的浏览器还主要是开放源代码的Firefox浏览器。针对Firefox的Slogger浏览日志插件可以用于收集诸如用户访问文件名、URL地址、利用时间等信息,而StumbleUpon插件则可以获取用户与浏览对象的相关性(如果认为相关可以点击其提供的“I Like it”按钮,否则点击“Not-for me”按钮)[19,20]。专门以推动用户控制自己个人注意信息为目的的非营利机构AttentionTrust,提供了PHP语言编写的开放源代码Firefox注意数据记录插件Attention Toolkit[21],也可以应用于其他服务。Dmitrii Zagorodnov等人为广域网信息过滤项目(Wide-Area Information Filter)创建的原型系统WAIF[,R]就通过JavaScript调用Attention Toolkit实现了对用户注意数据的获取[7]。另外,Jürgen Belizki等人利用Linux Kernel的核心部件Inotify通过Java编程实现的jNotify的事件监听器,跟踪桌面系统中文件的变化,利用JavaMail的应用程序接口来跟踪电子邮件客户端用户对电子邮件的处理动作[10]。

虽然CAM数据获取对系统和服务都很有好处,但用户由于各方面的原因很可能不愿意参加。鉴于此,Martin Memmel等人分析了吸引用户参与的几个因素(检索获得更好的性能(更多、更准、更快或者找到与个人兴趣相仿的伙伴等);有一定的乐趣,寓乐于用;有一定的奖励机制(精神或物质的);元数据自动生成;与用户现有工具(如浏览器等)集成等),并据此提出了4条建议:

(1)与系统交互的过程必须尽可能地简单和直观,遵循简单和寓乐于用的原则;

(2)具有一定的奖励机制,鼓励贡献者,提升贡献质量;

(3)必须在用户普通的情境和应用程序中为用户提供相关的功能,用户无需学习新的工具;

(4)切实保护用户的隐私,用户可以对数据收集过程以及收集的数据进行完全控制[11]。

3 CAM的应用

情景化注意元数据捕获了特定情景下,用户对哪些资源进行了利用,如何使用,使用了多长时间等方面的细节,这些被收集起来的CAM数据可以用于丰富数字对象描述的元数据,研究用户的行为,分析用户的兴趣和目标,进行资源的推荐,支持各类的管理决策。通过对多个用户相关的CAM数据分析,可以突破传统静态的用户行为模型,构建动态的更加真实反映用户行为的用户模型,通过CAM数据,虚拟社区还可以建立虚拟兴趣组,共享资源。从目前的研究来看,CAM的应用主要集中在如下5个方面:

(1)资源过滤、排序、推荐。通过对被收集的CAM数据的分析,可以得出用户兴趣,利用这些用户的兴趣,系统可以将各类查询结果中那些与用户兴趣不相关的内容过滤掉,保留与用户相关的部分,将用户兴趣相关性较强的资源排在前面,较弱的排在后面,这样可以节省用户查询相关资源的时间。对于那些和用户兴趣相关的资源,系统还可以通过向用户推送,提高服务质量。David Wiley,Justin Ball等人构建的OsmoseRSS聚合器系统借助于用户对RSS资源所作的标签实现了资源联合过滤的功能[22]。Dmitrii Zagorodnov等人的WAIF[,R]原型系统利用用户的注意行为数据实现了用户网络信息的过滤[7]。Xavier Ochoa和Erik Duval利用其收集的用户数字学习过程中的注意行为,在学习对象和与之相关的项目之间建立隐性链接(比如创建行为在对象和作者之间建立链接,选择行为可以转化为用户和对象之间的链接,发布行为可以看作是课程和对象,或者用户和相似对象之间的链接)。这样对象和链接就可以以K部图(K-Partite)的形式显示出来,然后再借助于图的算法来计算排序。文章提供了流行度排序(作者修正流行度排序、权重流行度排序、复用使用率排序、人工标注因素排序)的相应算法,还提供了相似性推荐、个性化排序和情境推荐的相应算法[9]。

(2)网站性能及资源应用测试。现有网站和系统可以通过对用户在使用该网站前后及整个网站的过程中注意行为的收集和分析,发现网站设计、性能等方面存在的问题,了解哪些资源是用户最为关心的内容和利用最多的内容,以便于改善网站结构,提高网站运行效率,决定对某些资源进行删除、更新、备份等操作。Joe Pagano利用商业软件Omniture获得用户使用国会图书馆网站某一段时间内的注意行为数据(包括涉及的域名、搜索关键词、每次访问的网页、持续的时间、用户退出的网页、用户由何网站而来、下载的文件、主题等),利用Hitwise等对搜索流量、站点用户的点击流等进行拓展分析和链接检测,实现了对整个网站的性能测量。通过与其他相似网站对比,他还获得了影响用户访问国会图书馆网站的因素[23]。Joe Pagano还利用对“编年美国”网站CAM数据的分析,得出博客和电子邮件在推广网站时比关键词查询的作用更为明显[24]。Elia Tomadaki等人利用视频会议软件FlashMeeting提供的学习用户相关的注意数据功能,可视化地显示全球范围内各个地区用户参与情况、用户重播某个视频会议的情况等[17]。

(3)用户行为研究。CAM是现有众多元数据规范所没有涵盖的,它动态收集的是在某个特定情景下用户处理信息的行为,因此,对于CAM数据的分析更能客观、准确地反映用户的信息处理行为。Elizeu Santos-Neto等人通过对CiteULike和Bibsonomy两个联合网络标签(Tag)系统相关注意数据的收集和分析,对用户的标签行为做了研究并对用户相似度进行了测评,发现瓮坛(Urn)模型适合标签行为研究而应用较多的Hoerl模型不太适合标签行为研究,在通过标签进行资源共享中,有将近一半的人具有的独特兴趣无法与人共享[25]。Jehad Najjar对学习型对象保存系统中学习对象和元数据用户实际使用行为统计和分析后认为,绝大多数检索者使用系统提供的默认设置,标引者提供的诸多项目中,有超过50%的项目检索者没有使用过,在检索式构成上,检索者更愿意使用包含了相对较少的项目检索式等[19]。Joona Laukkanen等人在构建的Atgentive原型系统中,通过观察用户的注意行为,生成支持用户注意选择介入(Interventions),帮助用户维持现有注意焦点(帮助用户找到完成任务最好的办法),也可能帮助用户转移注意力到另一个焦点(提供给用户已经可以获得的重要信息)[26]。

(4)决策支持。联合环境下的决策方案中一般都需要将非常缜密而又经常会有冲突的信息集成起来满足当前的需要,记录了信息集成注意行为的CAM数据可以对决策提供更加有针对性帮助。David Archer讨论了团体决策制定过程中人类注意行为的获取和复用,通过对不同资源和格式中用户数据收集行为、管理行为、信息冲突解决行为等进行记录分析,决定哪些信息和资源内容更适合决策使用,通过对包含了任务信息电子邮件、团体关系数据库和文本文件处理在决策方案中增加容易被人忽视的任务属性等,实现对决策的支持[27]。

(5)虚拟兴趣社区建立。自动收集起来的CAM数据由于可以分析出用户个人的兴趣,因此如果将这些兴趣放到一个较大的虚拟网络社区中,那么通过兴趣爱好相似度的分析,可以在兴趣爱好相似的用户之间建立联系,共享共同感兴趣的资源,组成虚拟社区。OsmoseRSS系统帮助用户发现与其兴趣相似的其他用户,并鼓励有相似想法的兴趣小组聚合在一起共享开放资源,系统的整体目标就是共享资源、社区支持、创建共享的大众分类法、资源的过滤和排序、浏览他人的作品、发现与其兴趣相关的新资源[22]。

4 CAM的隐私保护

由于获得的这些情景注意元数据包含了大量高度细节的个人配置信息,因此其对于诸如商业广告用户之类的所有感兴趣的团体是非常有意义的。为了保证用户数据不被乱用,应该采用各种技术来加强对用户数据的控制。用户需要对于哪些数据可以被收集、什么时候收集、提供给谁都应该进行强有力的控制。

目前情景注意元数据的隐私保护主要采取两种方式来解决:

(1)对于那些不需要特别涉及用户隐私的应用,比如网站性能测试、资源使用情况分析等不需要对用户个人独有兴趣进行分析的,就不收集反映用户隐私的数据。比如Joe Pagano对国会图书馆网站测试收集的数据,除了收集相关评论外,自始至终都不针对专门的用户,不收集个人信息[23]。

(2)用户可以完全控制自己的个人注意数据。这里所说的完全控制是指:用户可以决定个人注意数据收集的情景,决定哪些数据可以被收集,可以从收集该数据网站或系统导出自己的个人注意数据用于其他用途,可以决定这些收集的数据是保留还是被删除。AttentionTrust提供了注意数据记录插件Attention Toolkit,用户可以方便地选择何时开启、何时关闭个人注意数据的记录,对于那些不想被人知晓资源的利用可以选择关闭记录功能。对于已经收集的数据,用户可以从Firefox浏览器的相应目录下找到记录行为的所有数据备份,导出用于其他系统,也可以联系AttentionTrust以及遵循相似标准,让其他服务商永久性删除个人的注意数据[21]。Dmitrii Zagorodnov等人提供的WAIF[,R]原型系统,用户就可以利用它来控制他们的注意数据,开启该功能,就可选择哪些数据要被推送到注意保存库[7]。

5 结 语

情景化注意元数据作为描述用户信息行为的元数据,出现的时间还不长,虽然已经出现了一些研究成果,但是相对来说还比较薄弱,还有很多内容值得继续研究。2006年底参加CAMA第一次会议的与会人员认为,至少有两个问题需要继续深入研究:

(1)CAM应用研究还没有研究透彻;

(2)针对某单个用户、高级的应用统计、行为模式挖掘和高级个性化还属于正在涌现的研究领域[3]。

将两届会议的主题[1,2]与现有研究成果相比,有一些主题还少有人涉及,如基于实时流的CAM处理、CAM的长期保存、CAM利用和权限管理等,而对于CAM数据的挖掘、抽取、显示、合并、Log分析等问题虽然都已经有了不同程度的研究,但仍有继续研究的空间。另外,CAM在数字学习领域研究较多,而在数字图书馆领域研究则相对较少,比如2007年CAMA主题中的数字图书馆CAM管理、数字图书馆的个性化、数字图书馆推荐系统中应用的CAM等都还少有涉及,值得进行深入研究。

标签:;  ;  ;  ;  ;  

国外情景关注元数据的研究进展_元数据论文
下载Doc文档

猜你喜欢