远程可用性评估及其在数字图书馆评价中的应用综述_数字图书馆论文

远程可用性评价及其在数字图书馆评价中的应用综述，本文主要内容关键词为：评价论文,可用性论文,数字图书馆论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

收修改稿日期：2012-01-03

远程可用性评价在人机交互领域已有较为深入的研究，但在数字图书馆领域的研究不多。随着数字图书馆服务对象的延伸和服务范围的扩大，有必要加强远程可用性评价在数字图书馆评价中的应用研究，以促进数字图书馆评价研究的进一步发展。

1 远程可用性评价及其优缺点

1.1 远程可用性评价的概念

远程可用性评价(Remote Usability Evaluation，RUE)是一类可用性评价方法的总称，其特点是在评价交互系统可用性的过程中评价者与受试者在空间或时间上分离，运用自动化的技术手段收集或分析可用性数据，甚至可以自动生成可用性报告。按照Ivory等[1]的观点，可用性评价的几类方法如可用性检查法、可用性调查法、可用性测试法等，都可以和RUE结合起来使用。因此，RUE也可以看做是一类可用性评价方法的总称，其中应用广泛的远程可用性测试(Remote Usability Testing，RUT)是RUE的一部分。RUE具有两个明显的特点：评价者在空间上与受试者分离，在时间上同步或异步掌握受试者完成任务的情况[2]；采用自动化的技术手段收集、分析评价数据甚至生成可用性报告。

1.2 RUE的优缺点

与实验室的可用性评价相比，RUE具有如下优点：

(1)同样能发现可用性问题

RUE与实验室可用性评价一样能发现可用性问题，两者在发现可用性问题的数量上有一定的差别，但在发现主要问题上没有明显的不同[3]。

(2)真实的使用情境

RUE中受试者可以在自己熟悉的环境中使用软硬件设备完成评价任务，更真实地反映使用情境；而评价者也可以更可靠地发现可用性问题并做出合乎情境的解释。

(3)明显的时间优势

RUE利用自动化的技术手段可以快速地收集、分析可用性数据，甚至自动生成可用性报告；通过网上招聘受试者、在受试者当地进行评价，与实验室可用性评价相比具有较大的时间优势。

(4)良好的性价比

RUE不必支出建设实验室的经费，不必支付召集受试者的费用，采用自动化的技术手段还可以大量节省人力资源。有关研究表明RUE用于受试者的平均开支比实验室可用性评价要低得多[4]。

(5)多样化的评价样本

由于评价者与受试者在空间上分离，而且用于受试者的平均开支比较低，因此有条件在更广泛的区域里招聘受试者，增加样本的数量。

当然，RUE也存在一定的缺陷：评价者与受试者在空间上分离，不易于收集受试者的非语词信息，不利于掌握评价的进程；需要安装专门的软件或录音、录像等设备，往往会改变受试者的系统配置；对样本是否具有代表性、是否符合科学规范存有疑虑[5]。此外，RUE还涉及如何维护受试者隐私、保护知识产权和控制敏感信息传播等方面的问题。

2 远程可用性评价的类型

2.1 根据评价者与受试者能否进行实时交流对RUE分类

(1)同步RUE

评价者和受试者在空间上分离，两者通过技术手段实时交流，评价者能及时观察受试者的情况，随时解答受试者的问题。其缺陷是评价者与受试者间形成了接近于实验室的评价环境。比较典型的同步RUE软件有Adobe Connect(http://www.adobe.com/cn/products/adobeconnect.html)、Camtasia(http://www.snagit.com.cn/camtasia.htm)和Ethnio(http://www.ethnio.com)等。

(2)异步RUE

评价者和受试者不仅在空间上分离，在时间上也不同步，两者通过专门的软硬件指导受试者完成任务、记录评价的信息。与同步RUE相比，异步RUE形成一种更真实的使用情境。其不足之处是评价者与受试者间不能实时交流，不能控制评价的进程。比较有代表性的同步RUE软件有MindCanvas(http://www.themindcanvas.com)、Usabilla(http://usabilla.com)和UserZoom(http://www.userzoom.com)等。

2.2 根据采用的不同理论方法对RUE分类

(1)可获取性检查

为了保障网络信息资源的可获取性，相关国际组织和许多国家的政府部门都制定了专门的标准和规范，如W3C的Web内容可获取性原则、美国政府的《电子与信息技术无障碍标准》等。根据这些标准和规范开发的软件可以自动地检测网页中存在的可获取性问题，其中比较有代表性的有AccVerify(http://www.hisoftware.com/solutions/hisoftware-compliance-sheriff/accverify.aspx)、Cynthia Says(http://www.cynthiasays.com)和WAVE(http://wave.webaim.org)等。

(2)可用性原则检验

为了保证网页的可用性，许多学者和组织都提出了各种原则和标准，如Nielsen的用户界面设计10原则、美国卫生和公众服务部的网站设计209条指南等。根据这些原则和标准开发的软件可以自动地检测网页中存在的可用性问题，其中比较典型的有Lift Machine(http://lfd.usablenet.com/usablenet_liftmachine.html)、Rational Policy Tester(http://www-01.ibm.com/software/awdtools/tester/policy/quality)和WebSAT(http://zing.ncsl.nist.gov/WebTools/WebSAT/overview.html)等。

(3)可用性分析模型

人机交互领域中常用的分析模型有任务环境分析模型、用户认知分析模型、用户性能模型和用户界面模型等[6]。根据这些分析模型开发的可用性软件可以自动地发现可用性问题并生成可用性报告，其中比较有影响的有ActivityLens(http://hci.ece.upatras.gr/index.php?option=com_content&task=view&id=101&Itemid=103)、WebTango(http://webtango.berkeley.edu)和WebVIP(http://zing.ncsl.nist.gov/WebTools/WebVIP/overview.html)等。

(4)可用性日志分析

日志是记录系统和用户交互的工具，日志分析可以了解系统的使用状况和使用特点，掌握用户的兴趣爱好和行为方式[7]。这类软件中比较有代表性的如Userfly(http://www.userfly.com)、WebCAT(http://zing.ncsl.nist.gov/WebTools/WebCAT/overview.html)和WebTrends(http://www.webtrends.com)等。

(5)可用性网络调查

把可用性评价和网络调查结合起来，以调查问卷的形式收集反馈，能够节省评价的时间、获得更多用户的信息。有关网络调查方面的软件很多，适用于可用性评价的有4Q Online Survey(http://www.4qsurvey.com)、Kampyle(http://www.kampyle.com)和SurveyMonkey(http://www.surveymonkey.com)等。

(6)可用性测试

可用性测试(RUT)是通过执行特定的任务以测试交互系统的可用性，发现可用性问题。由于RUT软件的数量多，应用范围广，本文以RUT为例分析RUT的一般过程、RUT软件的特点及其在数字图书馆评价中的应用案例。

3 远程可用性测试的一般过程

现有不少论著[8,9]，探讨了RUT应注意的事项，有些论著[10,11]还专门总结了RUT的过程和方法。本文结合这些研究，在实践的基础上把RUT过程归纳为4个阶段，如图1所示。

图1 远程可用性测试的一般过程

(1)计划阶段

计划阶段需要制定可用性测试的目标、确定测试的方法、选择测试的工具并规定测试的程序。测试目标必须根据系统开发的阶段和使用情境而定，RUT既适用于对不同开发阶段的系统进行评价，也适用于对系统的不同版本或同类系统间的比较研究；使用情境是用户与系统交互的技术、任务、社会和文化等环境，系统在不同的使用情境下具有不同的评价内容和要求。常见的可用性评价方法如自言自语协定、提问协定、焦点人群法、性能测试法、功能检查法、观察法、一般调查法、问卷调查法等[12]都可以和RUT结合起来使用，测试方法的选择主要依据有效、易用、易学和满足需要的原则。

(2)准备阶段

正式测试前的准备阶段需要设计测试任务、招聘受试者、安装测试设备和进行预测试。测试任务必须与测试目标一致，要求简洁、具体、真实且易于理解；测试任务应有具体的测试结果，能在一定的时间范围内完成；任务的排列应由易到难，使受试者有信心执行下去。招聘受试者前应根据测试目标把测试对象分成若干组，每组设定若干测试样本，然后通过电话、E-mail或网络广告招募，也可以委托中介公司招聘。

(3)实施阶段

实施阶段包括引导测试、启动测试设备、执行测试任务、观察受试者、事后访谈等。引导测试是向受试者介绍测试的基本情况、过程和方法，指导受试者安装和运行测试设备，指引受试者填写调查问卷。远程观察受试者的行为方式和面部表情是发现可用性问题的重要手段[13]，Krug认为[14]，包括设计者、购买方决策者、系统管理者和终端用户在内的涉众都应该吸收到观察队伍中来，共同观察更有利于发现可用性问题。

(4)处理阶段

处理阶段的任务包括收集、整理、分析数据和编写可用性报告等。收集的数据来自上一阶段通过麦克风、摄像头、眼动仪、传感器、日志服务器或软件等设备记录下来的音频、视频、录像、日志等信息，其中包含了受试者的面部表情、访问的页面、鼠标点击的次数、页面驻留的时间、页面访问的次序以及受试者和测试者间交流的信息，这些信息需要制作标记、编制代码和同步处理。测试报告是测试的结果和建议，常以图、表或其他可视化的形式展示，大都能以PDF、TXT、XML等格式输出或者直接嵌入到Excel、Word文档中。

4 远程可用性测试软件

目前为RUT开发的软件数量较多，采用不同的开发技术，适用于不同的测试目标，能够处理不同的数据类型[15]，以下介绍4款较有代表性且适合在数字图书馆评价中使用的软件。

(1)ClickHeat

ClickHeat(http://www.labsmedia.com/clickheat/index.html)是一款用于评价网页的异步RUT软件，采用B/S架构，能把用户浏览网页时点击鼠标的记录保存在服务器中，支持动态创建图片，以热图的形式按浏览器的类型或按日期、周、月提供测试结果。ClickHeat是GPL(General Public License)许可下的开源软件，操作简单，使用方便，适用于测试页面中受关注的区域。其缺陷是功能较为简单，只能记录鼠标点击的操作；可用性报告的内容也较为简单。

(2)Loop

Loop[11](http://www.loop[11].com)是一款用于评价网页的异步RUT软件，能记录受试者执行测试任务的信息，收集受试者的评价，提供的可用性报告包括完成任务的比例、完成任务的时间、浏览页面的数量、经常导航的路径、经常开始/放弃的页面、经常链接成功/失败的页面等数据，能以PDF、CSV或XML等格式输出。Loop[11]设置方便，适用于测试网站的导航路径。其缺陷是功能简单，只能记录链接的信息；测试动态网页时存在兼容性问题；可用性报告的内容比较简单。

(3)WebEx

WebEx(http://www.webex.com.cn)是Cisco公司开发的网络会议软件，也可用于同步RUT。测试者可以远程观察受试者输入屏幕的信息和网站导航的情况，分享桌面、文件和各种应用，实时与受试者进行交流，所有的交互信息都可以录制下来进一步分析。WebEx在同步观察受试者、实时进行交流方面具有优势，适用于采用自言自语协定、一般调查法或焦点人群法的RUT。但WebEx毕竟不是专门的可用性测试软件，不能自动分析数据或自动生成可用性报告。

(4)Morae

Morae(http://www.snagit.com.cn/morae.htm)是TechSmith公司开发的可用性测试软件套装，由Recorder、Observer和Manager三个软件组成。Recorder安装在受试者的计算机上，用于记录受试者与系统、测试者的交互；Observer安装在测试方的计算机上，用于观察受试者执行任务的情况，指导受试者完成测试任务；Manager用于处理测试的记录，生成可用性报告。Morae能够记录受试者与系统间的所有交互，包括键盘输入的操作，屏幕信息的显示，鼠标的移动、点击，窗口的打开、关闭、缩放和切换，网页浏览的路径等，还可以记录受试者的音频、视频和调查问卷的数据以及测试方为重要事件添加的关键帧标记、为描述问题添加的文本备注，这些数据都保存在以时间轴为索引的文件中。Morae的可用性报告不仅能以多种图表的形式展示出调查问卷的统计数据，还能以可视化的形式揭示出完成任务的平均时间、成功/出错的比例等可用性指标，测试结果、视频和截图可以多种格式输出或者直接嵌入到PowerPoint、Word文档中。Morae把观察者与测试者分开，不干扰测试者与受试者的交流；能够定量或定性地处理多种数据，生成丰富的报告内容，特别适用于采用自言自语协定、一般调查法、焦点人群法或问卷调查法的RUT。其缺陷是使用比较复杂，在受试者的计算机上需要安装软件，价格也比较昂贵。

为了比较以上4款软件的性能特点，笔者模拟RUT任务分别对它们进行了测试。测试的硬件配置为神舟HP520计算机(Core2 Duo、2GB内存)，操作系统为Windows7旗舰版，浏览器分别为Chrome 8.0和IE9.0(ClickHeat安装在Apache 2.2.21+PHP5.3.6+MySQL Server 5.5.19上)。这4款软件结合RUT一般过程在测试的基础上得出的结果如表1所示。

5 远程可用性测试在数字图书馆评价中的应用案例

由于经费和设备的限制，RUT在数字图书馆可用性评价中的应用并不普及，下面介绍两个比较典型的数字图书馆RUT的案例：

(1)加州大学圣马科斯图书馆网站

2000年前后，加州大学圣马科斯图书馆采用同步RUT测试了改版后的网站导航性能[16]。测试的内容包括三部分：通过问卷调查法收集受试者的人口统计学数据；采用自言自语协议让6名受试者执行8个测试任务，远程观察测试情况；利用焦点人群法由测试者、观察者和受试者共同讨论网站的可用性问题。在测试过程中使用了三款RUT软件：Timbuktu Pro、Windows NetMeeting和Camtasia。Camtasia是TechSmith公司的一款具有录屏、播放和编辑功能的RUT软件，与Timbuktu Pro和Windows NetMeeting相比，除了可以同步观察受试者外，还可以通过录音、录屏或录像异步观察受试者。圣马科斯图书馆通过RUT检测出网站存在的可用性问题，从中也发现受试者与测试者分开后可以更真实地与网站交互，但对测试数据的理解存在因人而异的情况。

(2)路易斯维尔大学图书馆数字化馆藏网站

2010年，路易斯维尔大学图书馆采用异步RUT对新版的数字化馆藏网站的导航和搜索性能进行了评价[17]。由于经费的限制，原打算从免费试用的RUT软件Loop[11]或Usabilla中选择一款作为测试工具，但由于Usabilla免费试用版只能测试有限数量的页面；Loop[11]则存在与网站代码不兼容的问题，最后决定改用调查软件SurveyMonkey。这款软件设置简单，使用方便，且已有账号，因此无须增加费用。RUT的受试者来自网上招聘的27名师生和员工，每个受试者执行5个任务，每个任务执行完后回答2～3个问题。测试表明RUT能有效地发现网站导航和搜索方面存在的问题，同时也证明在预算有限的情况下SurveyMonkey不失为一款有效的软件。测试中还发现受试者如果一边执行任务一边回答问题会分散精力，影响测试的效果；受试者回答问题的质量取决于其对问题的理解和负责任的态度等。

6 远程可用性评价在数字图书馆评价中应用的相关建议

随着数字图书馆服务对象的延伸和服务范围的扩大，可用性评价一定会走出实验室，走向具体的应用中去。鉴于RUE自身的特点，必将在数字图书馆评价中发挥更大的作用。为促进数字图书馆RUE的发展，笔者认为应关注如下几个方面的问题：

6.1 研发适合的RUE软件

RUE在数字图书馆领域之所以未得到普及应用，除了经费的限制和隐私保护等方面的原因外，很重要的一点是缺少适合数字图书馆的RUE软件，专门为数字图书馆评价开发的软件更是少见。数字图书馆作为一种交互系统，不但具有交互系统的共性，而且在信息组织、使用方法、服务对象等方面还具有自身的特殊性。因此，很有必要在数字图书馆RUE研究的基础上，开发适合数字图书馆的RUE软件，适应数字图书馆可用性评价的需要。

6.2 选择适当的RUE软件

要从众多的RUE软件中选择适用于数字图书馆评价的软件需要考虑：

(1)评价的目标

不同的RUE软件适用于不同的评价目标，在选择时要深入了解软件的特点，如ClickHeat适于测试页面中用户关注的区域，Loop[11]适于测试网站的导航结构，WebEx则适于观察受试者与系统的交互。

(2)评价的类型

不同的软件适用于不同的评价类型，如需实时与受试者交流、随时为受试者提供帮助的情况宜采用同步RUE软件；无需与受试者实时交流、希望在更真实情境下评价受试者与系统交互的情况宜采用异步RUE软件。

(3)定量与定性分析

选择软件要考虑收集数据的类型和处理数据的方式，如需测试任务完成的时间、鼠标点击的次数、链接的顺序等数据的情况应选择适于定量分析的软件；如需观察用户的行为方式或收集用户的主观反馈等数据的情况应选择适于定性分析的软件。

(4)软件的有关特点

包括对不同平台的兼容性和对其他软硬件的要求等，如采用异步RUE软件需考虑受试者使用的平台，安装录音、录屏和录像设备的条件；如采用同步RUE软件还需考虑要有顺畅的网络和相关的交流工具。

(5)软件的费用

在经费有限的情况下，选购RUE软件需要考虑费用问题。目前商用RUE软件大都有免费试用版，可以先试用后再做决定，另外，也可以采用一些开放源代码的软件。

6.3 研究适宜的RUE方法

由于RUE在数字图书馆领域的应用还不普及，因此有必要研究各种RUE方法与数字图书馆评价相结合的问题，重点是研究各种RUE方法应用于数字图书馆评价的有效性和特殊性问题，在这方面虽然有了一些研究，但深度和广度仍很不够。为了提高数字图书馆RUE的效果，还需要研究多种可用性评价方法相结合的问题，包括RUE方法与实验室可用性评价方法的结合、多种RUE方法的结合、多种RUE软件的结合等，只有这样才能更有效地评价数字图书馆可用性，促进数字图书馆RUE的发展。

标签：数字图书馆论文; 可用性论文; 可用性测试论文; 用户研究论文;

远程可用性评估及其在数字图书馆评价中的应用综述_数字图书馆论文

猜你喜欢