自动可用性评估工具及其在数字图书馆中的应用_数字图书馆论文

自动可用性评价工具及其在数字图书馆的应用，本文主要内容关键词为：可用性论文,数字图书馆论文,评价论文,工具论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

自动可用性评价(Automating/Automated Usability Evaluation，简称AUE)是指在网站可用性评价过程中，采用技术手段自动地收集、整理或分析可用性数据，甚至自动地提出可用性建议或修改可用性问题的一类可用性评价方法的总称。与手工可用性评价相比，AUE不仅可以节省时间、降低成本、保证网站系统的一致性，还可以与网站开发过程紧密结合，在更大范围内评价更多的用户、在更真实的情境下评价用户与系统交互的情况。自上个世纪90年代以来，人们为了提高网站可用性评价的自动化程度开发了许多款AUE工具，本文主要研究AUE工具的功能和类型，并根据数字图书馆可用性评价的特点探讨了AUE工具的评价和选择问题。

1 AUE工具的功能和类型

1.1 网站AUE框架

在采用AUE方法评价网站可用性过程中，AUE工具、评价者、受试者和网站四个部分构成了网站AUE框架(见图1)。其中：

(1)评价者是AUE的组织者，在测评前负责制定评价目标，确定评价方法，选择评价工具，挑选测评用户；在测评中指引受试者按要求操作，观察和记录测试过程；在测评后利用评价工具收集、整理和分析可用性数据，发现可用性问题，提出可用性建议。Krug认为，让更多的涉众加入到评价中来更有利于发现可用性问题[1]，因此评价者的范围很广，可以是可用性工程师，也可以是设计者、购买方的决策者或使用方的管理者。

(2)受试者是由评价者挑选出来的执行测评任务的可用性专家或者用户，这里的用户是指处于不同年龄、性别、国别、语言、经验、学科、职业、身体状况和教育程度等特征下的用户。

(3)网站是AUE的对象，可以是整个网站，也可以是网站中的一部分；可以是处于不同开发阶段的网站，也可以是已经运行的网站。

(4)AUE工具是经选择用于评价网站可用性的软件及设备，围绕着AUE工具评价者、受试者对网站展开评价。

图1 网站AUE框架

1.2 AUE工具的功能

AUE工具在网站可用性评价过程中具有如下几个功能：

(1)辅助设计。在开发初期用于设计网站的菜单、控件、用户界面或信息架构原型，能快速反应用户的需求并迅速进行修改。如Naview(www.naviewapp.com)能快捷地构建和修改网站的信息架构，测试网站的导航效果。

(2)收集数据。通过摄像头、麦克风、传感器、眼球跟踪仪、日志服务器等设备和软件记录音频、视频、日志等信息，包括受试者访问的页面、鼠标点击的次数、驻留的时间、访问的次序、面部表情等信息。如WebEx(www.webex.com.cn)以文本、音频、视频形式记录受试者与系统交互、与评价者交流的信息，以便后续处理。

(3)数据可视化。把评价结果以可视化形式呈现出来，便于理解和发现可用性问题。如Usabilla(usabilla.com)以散点图和热图形式展示测试页面中受关注的区域和顺序，简洁直观。

(4)发现问题。通过代码检查、用户测试、启发式评价或日志分析等方法发现存在的可用性问题。如WebTrends(webtrends.ronghai.com)通过日志分析网页出错的比例及类型，推测网页设计中存在的问题。

(5)评定指标。通过评价网站的可用性指标或可用性中各属性指标，比较或预测网站的可用性。如SUMI(sumi.ucc.ie/en)通过调查用户的主观感受，评价网站的可用性指标及其效率、用户喜好和易学程度等属性值。

(6)提出建议。在分析数据的基础上指出可能存在的问题，提出相应的解决方案。如AChecker(atutor.ca/achecker)根据可获取性原则检查网页中存在的可获取性问题并提出相应的修改建议。

(7)修改设计。这类工具不仅能自动发现可用性问题而且能自动修改，但一般只能修改代码中存在的问题。如LIFT(www.nngroup.com/reports/accessibility/software)整合在网页制作软件Dreamweaver中，能自动发现并修改网页代码中的一些问题，修改结果一致性好且效率高。

1.3 AUE工具的类型

根据网站AUE框架(见图1)四个构成部分中每两个部分之间的不同关系，AUE工具可作如下分类：

(1)根据评价者评价的网站所处的不同开发阶段，可以分为形成性AUE工具和总结性AUE工具。

(2)根据受试者与网站交互的不同环境，可以分为实验室AUE工具和真实情境下的AUE工具。

(3)根据评价者和受试者间能否进行实时交流，可以分为同步AUE工具和异步AUE工具。

(4)根据评价工具为评价者收集、分析可用性数据或提供可用性建议的不同自动化程度，可以分为半自动的AUE工具和全自动的AUE工具。

(5)根据是否需要在受试者的计算机中安装测试软件或辅助设备，可以分为在客户端需安装辅助工具的AUE工具和无需安装辅助工具的AUE工具。

(6)根据评价工具在评价网站时收集的不同类型数据，可以分为基于规则的AUE工具、基于问卷的AUE工具、基于日志的AUE工具和基于任务的AUE工具。接下来的第2部分内容主要依据这一分类方法介绍4种AUE工具的特点及其应用实例。

2 AUE工具及其在数字图书馆中的应用实例

2.1 基于规则的AUE工具

为了确保网络信息资源的可获取性，有关国际组织和许多国家的政府部门都制定了专门的标准、原则和指南，即可获取性规则，根据这些规则开发的工具能够自动地发现或修改网页中存在的可获取性问题。这类工具中比较有代表性的如AccVerify、Bobby和Cynthia Says等。

美国SSB BART集团的AMP(amp.ssbbartgroup.com)是一款Web版的可获取性管理平台，支持包括WCAG、ADA和Section 508在内的可获取性规则，整合了著名的可获取性软件InFocus的功能，可以自动提供修改方案或生成可获取性报告。

AMP使用时可以选择测试的标准或原则，其最佳实践指南库现有800多条记录，每条记录包括可获取性问题描述、问题严重程度、不兼容代码的样例、兼容代码的样例、推荐的修改方案以及与该指南相关的标准和原则等项；使用时还可以设置测试范围，其范围可以是一个页面或网站，也可以是从一个URL出发的指定数量或深度的页面。安装在客户端的InFocus可以直接修改存在可获取性问题的代码，模拟需要辅助技术支持的浏览效果。

AMP能够自动发现可用性问题、提出修改方案甚至直接修改代码，具有快速、高效、操作简便和一致性好等优点。其缺点是误诊率和漏诊率较高，而且可获取性与可用性毕竟是两个有区别的概念，在有些情况下没有发现可获取性问题但并不一定不存在可用性问题，因此，在可用性评价方面没有任何一款AUE工具能取代人的判断[2]。

2.2 基于问卷的AUE工具

基于问卷的AUE工具可用于发放问卷，收集分析数据，发现网站存在的可用性问题，评价网站的可用性级别。问卷可以自行编制，也可以从被广泛认可的问卷中移植。这类工具中比较著名的如SUMI、WAMMI、PROKUS等。

Oviedo大学根据ME-USitE方法开发的原型工具由三个模块组成：管理模块规定用户的权限，构建三级指标体系，提供帮助文档；评价模块生成受试者文档，配置三级指标体系，设置评价的网站，制定评价的任务，接受各项指标的赋值，计算出评价结果；测试模块收集受试者的个人信息，为不同受试者生成三级指标体系和问卷，执行评价任务并回收数据。

ME-USitE工具可以自行定义三级指标体系和各个指标的权重，灵活性强；能分别计算出网站的可用性、可用性各属性的分值，适用于总结性评价[4、5]。其缺点是评价指标的划分和指标间权重的设置具有主观性，导致不同AUE工具评价的结果缺乏可比性；样本的选择和样本的数量直接影响评价结果。

2.3 基于日志的AUE工具

基于日志的AUE工具通过日志挖掘可以了解网站的使用状况，掌握用户的行为方式，为研究用户行为、改进网站设计、提高系统性能提供依据。常见的基于日志的AUE工具可分为服务器端、代理端或客户端三种。这类软件中比较有影响的如Userfly、WebCAT和WebTrends等。

WebQuilt[6,7]是由加州大学柏克莱分校开发的一款基于代理端日志的AUE开源软件，其日志记录包括时间、源页序号、目标页序号、访问方式、页面节点序号、当前页面URL等项，其中当前记录与下一条记录之间的时间差就是在当前页面驻留的时间。软件按访问的次序为每一个页面赋予一个固定的序号，一般情况下当前记录的目标页序号应该是下一条记录的源页序号，但由于受Cache的影响会出现跳号的现象，在这种情况下需要通过行为推理来补充中间曾经访问过的页号。

WebQuilt由日志记录、行为推理、图的融合、图的排列和可视化五个模块组成。其中的可视化模块以图的形式把网页和访问路径直观地呈现出来，图中网页快照代表节点，快照的颜色代表驻留时间的长短；带箭头的有向线段代表访问路径，线段的粗细代表访问的频率。

WebQuilt利用代理端的日志数据运用行为推理分析用户的交互方式，然后以可视化的形式把结果呈现出来，具有高效收集数据、真实记录交互情况、直观反映存在问题等优点[8]。其缺点是在客户端需要设置代理服务器，样本的选择和样本的数量直接影响评价的结果。

2.4 基于任务的AUE工具

基于任务的AUE 工具通过收集用户执行任务过程中的数据，然后根据任务模型分析和发现可用性问题。这类工具中比较有代表性的如Ethnio、Loop[11]、Morae等。

希腊Patras大学开发的ActivityLens工具[9]是一款合作分析软件，可以从网上下载免费使用。它把用户与系统交互的数据包括日志、音频、视频、图片和文本文件，通过时间戳同步整合为多种媒体的数据集，评价者可以从中观察用户的行为，分析和发现可用性问题[10]。

ActivityLens把每个用户的测试过程称为项目，项目的核心部分是日志记录。日志记录分为事件级、任务级和目标级三个级别。最底层的是事件级记录，可以来自于日志文件，也可以由评价者创建，每一条记录包括绝对时间、相对时间、行为人、工具、行为、属性、类型和评论等项，用于描述用户与系统的一个交互事件。任务级记录、目标级记录分别是在下一级别记录的基础上由评价者创建而成，一个任务级记录由若干条事件级记录组成，一个目标级记录由若干条任务级记录组成。

ActivityLens的优点是能够直观地同步处理多种媒体的信息，可以在不同级别上分析和发现可用性问题，可以按工具、类型、行为人输出结果，也可以以EXCEL文档的格式输出结果后用其他分析软件作进一步处理。其缺点是不支持中文界面，统计功能比较弱，需要在受试者端安装录音、录像设备。

2.5 AUE工具在数字图书馆中的应用实例

当前的数字图书馆可用性评价很少能从信息查询过程的角度考察可用性问题，为了弥补这一不足，笔者在最近进行的一项研究中，调查了不同专业的用户利用数字图书馆执行信息查询任务的情况，把Ellis信息查询模型的8个特征和Abowd-Beale人机交互模型的4个步骤结合起来，探讨用户在不同特征或不同交互步骤下执行信息查询任务所遇到的可用性问题，希望能为改进数字图书馆的设计提供依据。

测评时要求受试者使用指定的数据库，在查询过程中采用自言自语协议，用录音笔和录屏软件录制整个过程中的语音和屏幕信息，然后用ActivityLens软件对数据进行了整合分析。之所以选择ActivityLens作为AUE工具是因为：(1)这项研究考察用户在执行查询任务过程中出现的可用性问题，主要采用定性的研究方法，ActivityLens能符合这一需求；(2)利用Ellis模型和Abowd-Beale模型相结合考察用户与数字图书馆交互的情况，ActivityLens日志记录的设置能满足这一要求；(3)可以整合音频、视频和日志数据，考察用户与数字图书馆交互的情况；(4)可以统计出基本的数据，也可以输出后利用其他软件作进一步的处理；(5)系统免费且对配置的要求较低，适合经费有限的评价者使用。

测评过程中使用了两台计算机。一台是安装了录屏软件的测试机，用于录制受试者与数字图书馆交互的屏幕信息；另一台是安装了ActivityLens的管理机，型号为神舟HP520计算机，操作系统为Windows XP，数据库为Access 2007。从测试机上取得的视频文件和从录音笔上取得的音频文件复制到管理机后，启动ActivityLens并创建项目，同步整合屏幕信息和音频信息，通过手工的方法建立日志记录。事件级日志用于描述受试者和数字图书馆的交互；任务级日志反映Abowd-Beale模型的4个步骤；目标级日志反映Ellis模型的8个特征。

利用ActivityLens可以分析在Ellis模型的各个特征下或在Abowd-Beale模型的各个步骤下的几种情况：(1)受试者执行信息查询任务的时间分配，虽然时间受网络速度、受试者对任务的熟悉程度等多种因素的影响；(2)用户与数字图书馆交互的特点，如有多个受试者都是从搜索引擎开始查询任务的，搜索引擎已成为用户获取新领域信息的首选；(3)用户或数字图书馆存在的问题，如受试者在关键词检索中只要能得到一定数量的结果，很少会再用其他相关词进行检索，这一方面与用户的信息素养有关，另一方面也与系统缺少相关词推荐有关。

笔者使用ActivityLens后认为，该软件可以同步整合多种媒体的信息；可以由多个评价者观察和发现可用性问题；可以从三级日志记录出发统计和分析用户与数字图书馆交互的情况。但其数据统计功能相对较弱，如要处理复杂的数据必须与其他统计工具结合使用；编辑功能不够强大，如要得到定量的数据必须完成繁琐的编辑工作。

3 AUE工具的评价

在研究各类AUE工具和应用AUE工具进行数字图书馆可用性评价的基础上，有必要进一步探讨AUE工具的评价问题。常见的软件质量评价模型有Boehm模型、McCall模型、ISO 9126模型和ISO 25010模型[11]。在2011年通过的ISO 25010[12]模型中，描述了软件的8个质量特性及其36个质量子特性。本文采用ISO 25010模型并从数字图书馆可用性评价的角度出发，提出了评价AUE工具的质量体系，包括功能性、效率、兼容性、可用性、可靠性和安全性6个质量特性及其13个质量子特性。

3.1 功能性

AUE工具提供的功能在数字图书馆可用性评价中适合需求的程度。

(1)功能的全面性：AUE工具提供的功能对完成评价目标的完备程度。AUE工具可以实现的功能包括辅助设计、收集数据、数据可视化、发现问题、评定级别、提出建议和修改设计等，具体到某一AUE工具，其功能的全面性可与评价需求进行比较。

(2)功能的准确性：利用AUE工具的功能得到的结果与需求相比较的准确程度。AUE工具提供的功能有的是定性的，如辅助设计、数据可视化等，有的是定量的，如发现问题、修改设计等，其结果的准确性主要是与评价需求进行比较。这里列出评价AUE工具发现可用性问题的三个指标：准确率=确诊的问题/诊断出的问题*100%，误诊率=误诊的问题/诊断出的问题*100%，漏诊率=漏诊的问题/存在的问题*100%。

(3)功能的依从性：AUE工具提供的功能便于完成特定任务的程度。在基于规则的AUE工具中评价者可以选择可用性的标准或原则，定制最佳实践指南；在基于问卷的AUE工具中，评价者可以定制可用性的指标体系及指标间的关系；在基于日志和基于任务的AUE工具中，评价者可以设定不同行为的指标。在输出结果时能按不同的用户、任务、指标、时间等要求输出。

3.2 效率

AUE工具在数字图书馆可用性评价中的性能及使用的资源。

(1)使用的资源：AUE工具在完成评价任务时使用的资源。

AUE工具对软硬件及配套设备的要求；购买AUE工具及其配套设备、人员培训、可用性评价和工作程序变动的支出；使用AUE工具后网络延迟的时间。

(2)能力：AUE工具的性能在完成评价任务时所能达到的最大极限。

对于基于规则的AUE工具，能支持多少个标准或原则，能评价多少个页面；对于基于问卷的AUE工具，能定制多少个级别、多少个指标，能处理多少个用户的问卷数据；对于基于日志的AUE工具，能收集多少条日志；对于基于任务的AUE工具，能使多少个用户执行多少个任务。

3.3 兼容性

AUE工具与其他工具、组件或系统交换数据、共享软硬件设施的程度。

(1)共存性：AUE工具在完成任务过程中与其他工具、组件或系统共享软硬件设施的程度。包括对不同的操作系统、浏览器、辅助技术以及移动设备等的支持情况。

(2)数据兼容性：AUE工具与其他工具、组件或系统交换数据、使用数据的兼容程度。AUE工具收集的数据或处理的结果能否被其他工具进一步处理或展示，能否转化为常用的办公软件、数据处理软件或可视化软件能处理的数据格式。

3.4 可用性

AUE工具在数字图书馆评价中为了达到评价目标而具有的性能。

(1)易理解性：AUE工具的逻辑概念及其功能易于为用户所理解的程度。AUE工具的菜单、控件、组件或窗口等界面元素、功能组合和操作步骤应易于被用户理解；对发现的可用性问题应指出直接的原因；对定性或定量的评价结果应列出有关的依据；对提供的修改方案应由用户决定取舍。

(2)易学性：学习使用AUE工具达到评价目标的容易程度。AUE工具有详细的用户文档；有专门的使用教程；软件开发商应提供数据更新、远程升级服务。

(3)易操作性：操作、运行、控制AUE工具所需努力的程度。AUE工具应有安装向导，有缺省的配置；功能设置简单易理解；可以通过菜单、图标、快捷键激活命令。

3.5 可靠性

AUE工具在一定时间和条件下维持其性能稳定和运行安全的程度。

(1)成熟性：AUE工具在正常使用情况下达到可靠性需求的程度。AUE工具采用的技术方法的先进性；发生故障的时间间隔；市场化时间的长短等。

(2)防错/容错：AUE工具提供的防止用户出错的机制，以及因操作或软硬件出错时能正常运行的程度。出错时可以恢复到最后一次正确配置的状态，可求助于联机帮助文档或FAQ列表。

3.6 安全性

AUE工具保护信息和数据安全、防止非授权使用的严密程度。安全性在ISO 25010模型中包括保密性、完整性、抗抵赖性等子特性，在评价AUE工具时要特别强调保密性。

保密性：AUE工具防止非授权访问的严密程度。对评价者和受试者有不同的授权级别；受试者的个人信息与测评数据应分离。

4 AUE工具的选择

自上个世纪90年代以来，各类AUE工具不断涌现，但在数字图书馆领域由于受经费的限制和缺乏必要的设备条件，AUE工具的应用并不普遍。从前面的探讨来看，选择AUE工具进行数字图书馆可用性评价需考虑如下三点要求：

4.1 根据数字图书馆可用性评价的需求

数字图书馆可用性评价可能出现在网站开发或者改版过程中，用于发现可用性问题、提出可用性建议或者修改可用性问题；也可能发生在订购阶段或者日常维护过程中，用于比较同一数字图书馆的不同版本或者不同数字图书馆的可用性。从这些目标出发选择AUE工具时，可采用质量评价的GQM方法[13]将目标分解为可以度量的指标，再与AUE工具的性能进行比较，从中选择合适的AUE工具。

首先，要制定数字图书馆可用性评价的目标，一般包括度量的对象、目的、属性、角度及环境等要求。其次，要针对目标提出系列的问题，也即是目标的细化和具体化。例如，为了评价数字图书馆网站的信息结构，可以将其中的导航效率转化为问题“用户浏览得到感兴趣的信息需要点击多少次”。再次要制定衡量的指标，也即是收集数据解答问题的指标。例如，对上面导航效率的问题需要规定数据收集的方法，如通过日志还是用户测试收集数据；数据甄别的方法，如通过日志收集时如何确定用户是否已得到感兴趣的信息；数据分类处理的方法，如是否需要区分用户是通过页内链接还是页间链接得到感兴趣的信息的。

4.2 根据AUE工具的功能和特点

前文介绍的AUE工具的功能划分和分类方法为选择AUE工具提供了依据。例如，评价者与受试者在测评时是否需要进行交流，可以选择同步AUE工具或异步AUE工具，前者能实时交流、及时观察受试者的反应、随时为受试者提供帮助；后者不能实时交流，但可以在更真实的情境下评价受试者与系统的交互情况。除此之外，还要考虑AUE工具的特点。例如：(1)AUE工具提供的是定性还是定量的评价结果，前者测试任务完成的时间、鼠标点击的次数、链接的顺序等，常用于评价数字图书馆的效率；后者收集用户的主观反馈或观察用户的行为方式等，常用于评价数字图书馆的满意度。(2)AUE工具收集数据的方式，如采用基于任务的AUE工具不仅要考虑受试者使用的平台，还要考虑能否安装录音、录屏和录像设备以及网络是否顺畅等条件。

4.3 根据成本效益

标签：数字图书馆论文; 可用性论文; 用户行为分析论文; 可用性测试论文; 网站测试论文; 测试模型论文; 系统评价论文; 测试过程论文; 网站分析论文; 目标软件论文; 系统日志论文; 功能分析论文; 软件过程论文;

自动可用性评估工具及其在数字图书馆中的应用_数字图书馆论文

猜你喜欢