日志分析方法在数字图书馆可用性评价中的应用_数字图书馆论文

日志分析方法在数字图书馆可用性评价中的应用_数字图书馆论文

日志分析法在数字图书馆可用性评价中的应用,本文主要内容关键词为:可用性论文,分析法论文,数字图书馆论文,评价论文,日志论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

日志分析法作为数字图书馆可用性评价的一种重要方法,能够通过数据挖掘和分析技术有效地反映用户的行为模式,从中揭示出数字图书馆存在的可用性问题,为提高数字图书馆质量提供相关的依据。

1 日志与日志分析法

数字图书馆的日志包括服务器日志、代理日志、查询日志、浏览日志、用户会话或事务、Cookies等,主要功能是记录系统和用户之间的交互活动,为优化系统的性能和提高系统的安全提供管理手段。通过日志挖掘和分析还可以了解数字图书馆的使用状况和使用特点,掌握用户的兴趣爱好和行为模式,为研究用户行为、改进数字图书馆的设计、提高系统的性能提供依据。本文主要以服务器日志为例,探讨其在数字图书馆可用性评价中的应用问题。

服务器日志记录了服务器与用户之间的交互情况,不同服务器产品的日志记录格式不同,但每条记录一般包括访问者的IP地址、访问时间、访问协议、访问方法、访问路径和客户端代理等信息。由于日志记录的数量庞大,信息内容丰富,要从中抽取出有价值的、能用于可用性评价的数据,除了进行一般性的统计分析外,还必须进行数据挖掘,如对用户浏览页面的数据进行时间序列分析,从中发现用户访问路径模式和最常访问的路径,进而改进数字图书馆的信息组织及系统设计。

日志挖掘过程主要包括3个阶段[1]:①预处理。根据研究的目的对日志数据进行规范化处理,转化成适合数据挖掘的形式。这个阶段包括数据净化、用户识别、会话识别和路径补充等过程。其中,会话识别是预处理阶段最重要的环节,会话识别准确与否直接决定着挖掘结果的效度。②模式识别。运用统计、聚类、分类、关联规则、序列模式识别等算法对预处理后的数据进行挖掘,生成各种模式。如通过统计分析可以得到特定网页或文件的访问情况、不同领域或地区的使用情况;通过用户行为模式分析可以得到用户是否有共同的行为模式、不同用户群体在使用和行为上有什么差别、用户行为是否随时间变化、如何变化等数据。③模式分析。分析挖掘得到的模式,提取有价值的模式作为结果。该阶段的任务是过滤掉上一阶段得到的不感兴趣的、无关联的模式,经进一步验证分析后为实际应用提供依据。

2 日志分析法的作用与特点

2.1 日志分析法的作用

日志分析法可以发现数字图书馆存在的可用性问题,为系统设计提供参考;通过访问模式追踪可以了解用户的访问倾向,改进数字图书馆的组织结构;通过序列模式分析可以改善信息内容的组织,按照用户的浏览模式对网站进行组织;针对用户需求动态地调整内容结构,使用户更容易地访问有关页面;通过掌握用户的动机和习惯,合理构建和改进数字图书馆的性能。具体来说,日志分析法涉及一系列与数字图书馆可用性评价有关的数据,如用户位置、访问方式、访问内容、响应时间、交互次数、链接次序、会话时长、访问频率和出错信息等数据。这些数据的分析作用大致有如下几方面。

1)访问者。日志记录提供了访问者的IP地址,由于代理服务器和防火墙的存在,这个IP地址并不一定就是用户的地址,但在要求不是很严格的情况下,可以大概地推断用户所处的位置、机构或网络。当然,为了更准确地识别用户,可以通过用户注册登录或者要求用户使用Cookies等方法来实现。识别用户是日志挖掘的基础,由此才能进一步分析用户位置、访问方式、访问内容、访问频率和行为特征等数据。

2)进出页面。用户主要是通过搜索引擎、其他网站提供的链接、保存的书签或者直接在浏览器地址栏中输入地址来访问数字图书馆的。用户访问的第一个页面就是进入网站页面,一般而言,进入网站页面是整个网站中用户最关注的页面。通过对用户最常进入网站页面的统计分析,可以推断或者是这些页面的标题、元数据或内容编排是值得仿效的,或者是页面的内容是用户最需要的。退出网站页面是指用户离开网站前浏览的最后一个页面。用户选择退出网站可能是已经完成了任务,也可能是在浏览页面后中止访问或者在打开页面后出现了其他情况而放弃访问。通过对用户最常退出网站页面的统计分析,可以推断用户是否已经完成了任务,页面是否存在表述不清晰的问题,或者发生了用户使用错误。

3)访问行为。日志数据预处理阶段的路径补充可以把用户进入网站页面和退出网站页面之间的路径补充完整,这中间包括访问次序、链接方式、用户提交的数据和下载的文件等内容。通过路径分析可以在一定程度上反映出用户的行为特征,也可以反映出网站是否易于导航、易于帮助用户实现信息需求。通过统计页面元素的点击情况,能够反映出这些元素放置的位置是否合适,表述是否易于理解,还可以推断出用户的信息需求和行为方式,这些页面元素包括文本、图标、链接、按钮、表单以及信息查询中的检索式、字段限定和排序方式等。系统升级前后用户平均浏览页数、访问频率、会话时长的变化能反映一定的可用性问题,如用户平均浏览页数增加,有可能是改善了系统的导航功能或者是提高了网页的内容质量,也有可能是用户需要的信息在网站中所处的层次过深,必须通过多次链接才能到达目标页面。

4)响应时间。包括系统响应时间和用户响应时间,前者是指系统传输页面所需要的时间,后者指用户浏览页面所需要的时间。如果系统响应时间过长则表明网速过慢或者文件过大,而此时出现传输错误则有可能是用户失去耐心而强行中断传输;如果用户响应时间过长有可能是用户对内容较感兴趣,也有可能是用户对内容迷惑不解。

5)访问内容。用户利用数字图书馆的目的是获取信息资源,通过日志分析法可以掌握用户使用的资源、使用时间、使用频率和用户所处的位置等数据,了解用户查询信息时采用的是关键词检索、主题链接还是网页浏览的方式,判断关键词检索中字段的选择和检索式的构成情况,了解用户获取的内容是全文还是文摘的形式,这些信息能够在一定程度上反映出用户的信息需求和行为习惯。

6)其他。通过对客户端代理的分析可以掌握用户使用的主流操作系统和浏览器的名称及版本,为确定网站开发技术提供依据;通过对出错信息的分析,可以找出网页链接失效或者是脚本出错等原因,进而修改错误的链接,完善页面的设计,或者重定向出错帮助页面为用户提供解决方案;通过对孤立页面或者是很少被访问页面的分析可以了解这些页面的导航结构是否存在问题。日志分析还是评估系统的运行状况,检验系统安全策略的必要手段,能够帮助管理人员及时发现非法入侵,确保系统安全。

2.2 日志分析法的优点

评价数字图书馆可用性的方法有很多,日志分析法与其他评价方法相比具有如下优点。

1)客观记录交互情况。日志分析法是对日志记录的挖掘和分析,一般不对用户的信息需求和行为方式作任何规定,用户完全根据自己的意愿在自己控制的环境下与系统交互,因而能够客观地反映用户与系统之间的交互情况。而在其他评价方法的用户测试中,任务大都是假设的,环境往往也是人为的,这直接影响到评价的客观性。

2)直观反映存在的问题。日志分析法对网站设计中链接失效、脚本出错等问题可以非常直观地反映出来,特别是对孤立页面、最常进入网站页面、最常离开网站页面等的统计更是其他评价方法所难以做到的。

3)样本数量大。在可用性评价中最棘手的问题之一是样本数量很难达到要求,因为大多数评价方法都无法进行大规模的用户测试,导致小样本测试的效度一直被人们诟病。而日志分析法在确定样本数量上最具优势,甚至可以做到总体评价,这是其他评价方法所无法比拟的。

4)高效收集数据。日志分析法所需要的日志数据可以通过服务器、客户端或代理端来获取,数据量大,时间跨度长,还可以自动记录与分析。与其他评价方法相比,数据收集快捷方便,人力支出大为减少。

5)评价结果具有可比性。采用其他方法评价数字图书馆可用性时,由于任务是假设的,环境是人为的,样本数量又有限,很有可能使同一个数字图书馆的两次评价结果都缺乏可比性。而日志分析法在这方面同样具有优势,在采用相同的数据收集和挖掘方法的情况下取得的结果具有可比性。

6)可以经常进行评价。日志分析法由于收集数据快捷方便,人力支出少,而且数据挖掘的自动化程度高,所以对运行后的系统可以经常进行评价,及时发现可用性问题。

2.3 日志分析法的缺点

1)功能的局限性。日志的主要功能是记录系统和用户之间的交互活动,目的是要优化系统的性能提高系统的安全,用于评价系统的可用性是其功能的扩展。由于日志记录的是系统行为而不完全是用户行为,从系统行为推导出用户行为再用以评价系统可用性会引出诸多问题。

2)数据质量不一。数据挖掘是数据驱动,因而数据的质量就显得十分重要,但是日志数据的来源通常会有一定的局限性。一方面是由于用户端缓存、代理服务器和防火墙的存在,服务器日志并不能完整地反映用户与系统之间的交互情况;另一方面是由于不同日志数据格式不同,语义也不一致。此外,日志中还有大量的冗余、伪装的数据也加大了数据挖掘的难度。

3)发现的问题不够全面。日志分析法只能够发现数字图书馆存在的一部分可用性问题,除此之外大量影响到有效性、效率和满意度的数据还需要通过其他评价方法来收集。如用户会根据个人偏好、需求内容和环境状况等因素选择交互方式,而通过日志分析法得到的信息显然无法全面了解用户是否实现了自己的信息需求,更难以反映用户对数字图书馆服务的满意度,而满意度是评价系统可用性的一个十分重要的指标。

3 相关研究与实例

日志分析法在图书馆最早是应用于研究自动化管理系统,起初主要是用来评价公共查询目录的性能[2]。随着互联网的不断普及,日志分析法在研究网络用户的行为模式和查询方式上得到进一步的应用。当数字图书馆日益成为用户获取信息的重要渠道后,日志分析法也成为数字图书馆评价的一种重要方法,其中包括对可用性的评价。

数字图书馆可用性是指在特定环境下使特定用户能够有效、高效、满意地实现信息需求、完成特定任务的一种性能,根据ISO9241-11的观点,数字图书馆可用性主要包括有效性、效率和满意度三方面的评价指标[3]。

Jones等较早利用日志分析法研究数字图书馆的可用性,他们在分析新西兰数字图书馆计算机科技报告的利用日志后认为,日志分析法的重要之处不仅在于发现许多有趣的数据,更重要的是如何透过这些数据去提高数字图书馆的用户体验[4]。

日志分析法可用于评价某些资源的利用方式。在斯坦福大学电子期刊用户研究项目中,为了解用户利用电子期刊的导航模式,他们对其中一天的服务器日志进行分析,发现用户主要是从期刊的主页或PubMed出发查询文献,一般会按3种链接次序获取全文[5]。此外,他们发现网站的访问量有一个明显的周期,这个周期与工作日有关,周一和周二的访问量最大,到周五访问量会明显下降直到最低点。

日志分析法可用于评价网站页面内容和资源的使用情况。Asunka等把哥伦比亚大学Gottesman图书馆的主页页面大致分为8个区块,然后利用服务器日志着重分析了主页中通过点击链接打开其他页面的链接记录和通过提交关键词检索打开其他页面的检索记录[6]。研究发现主页左上方的区块最受用户关注。尽管无法全面掌握用户的行为方式和对图书馆服务的满意度,但日志分析表明网站能够满足校内外学生网络学习和远程教学的需要。

日志分析法在数据收集和挖掘上要求尽可能周全,但在条件有限的情况下,采用变通的方法也能有效地发现一些可用性问题。如Nicholas等采用所谓的深层日志分析法,利用统计软件对全文期刊服务器的日志数据进行挖掘,发现用户利用字顺表、主题列表和关键词检索等方法获取期刊论文的行为模式[7]。尽管这一方法在用户识别、会话重构上显得粗疏,但能发现一些用户行为的特点。

日志分析法可以和其他评价方法结合,对数字图书馆可用性问题进行研究。欧洲图书馆(EL)是由欧洲多个国家图书馆组成的数字图书馆门户网站,为了更好地了解其使用情况,Agosti等收集了从2006年10月到2007年4月共7个月的EL服务器日志及客户端发送回来的Cookies记录[8]。首先根据日志中客户端代理的不同识别出用户、爬虫、用户代理和其他代理的访问记录;然后把会话与Cookies结合起来,利用Cookies ID识别用户,并把用户与爬虫和用户代理的访问记录区分开来;规定每个会话的时长为15min,超过15min的记录分割为另一个会话,同时剔除掉部分没有价值的会话。经过统计发现,大多数会话是来自欧洲各国,其中新近加入成员馆的会话增长较为迅速;分析还发现,只有不超过1/10的用户在查询时会主动选择馆藏,大部分用户是采用馆藏缺省项,因此合理设置馆藏缺省项就显得十分重要。作为日志分析法的补充,Agosti等还通过用户测试收集用户的反馈意见,然后把有关结果与日志分析法结合起来,两种方法既可以相互对照,又可以更具体地了解用户的行为方式。

日志分析法得到的结果还可用以改进数字图书馆网站的设计。美国弗吉尼亚联合大学图书馆(VCUL)在2001年网站改版时,在网页模板的顶部设置了一个“快速链接”的下拉列表,引导用户快速链接到最常使用的页面或资源。通过对当时的服务器日志进行统计得到最常使用的链接项,分成3个组13个选项,后来增加到15个选项。为了记录下拉列表中各链接项的点击情况,VCUL信息技术组开发了一段服务器脚本,把下拉列表所在页面及链接访问页面的地址记录在事务日志中[9]。2003年信息技术组又对2002年9月至2003年4月的事务日志进行分析后发现,在下拉列表各链接项中,最常被点击的前5个链接项点击比例之和接近77%;其余大部分链接项的点击比例都很低,最不常被点击的后5个链接项点击比例之和仅为4%。为此,信息技术组剔除了下拉列表中最不常被点击的两个链接项,同时根据服务器日志的统计结果增补了两个较为常用的链接项;调整链接项的次序,把“网站地图”链接项从下拉列表下方调整到最显眼的顶端;为了更好地区分三组的不同链接项,在组与组之间用空行隔开。2004年秋信息技术组再次对事务日志进行了分析,发现各链接项的使用情况与2003年基本相同,但不选任一链接项而直接点击“GO”导致出错的比例显著上升,对此他们重新作了设计,把不选择任一链接项的用户导向出错帮助页面。进一步分析还发现,在不同页面的下拉列表点击量有很明显的区别,其中在主页的下拉列表点击量最多,占所有下拉列表点击量的76%;下拉列表点击量最多的5个页面约占所有下拉列表点击量的90%。这种差异表明,在不同页面的下拉列表链接项是否要保持一致值得探讨;对于某些不设下拉列表的页面,需要列出指向有关页面或资源的链接方式。

国内也有一些学者利用日志分析法进行评价数字图书馆的性能,为改进数字图书馆服务提供依据。例如,北京大学图书馆张学宏利用“WebTrends”分析该馆主页的日志,包括栏目访问情况、服务器活跃情况等,推断出系统维护的合理时间,为管理决策提出相关依据;根据网页出错比例及出错类型分析,为研究机器性能、服务性能及网页设计是否合适提供佐证;通过用户访问频率分析,进一步研究网页的相关性,适当增加或减少页面的级别,合并或删除不太重要的网页,优化网页的组织;实时监控服务器日志,提高服务器的安全指数[10]。程思祥以长江大学图书馆主页服务器日志为例,统计分析网站的响应状态、访问方式、具体页面访问流量等数据;认为可以通过时段分析,统计出一天中哪些时段、每周哪天的访问人数及具体停留时间,进而分析用户的习惯;统计用户到达目标网页所经过的路径,修改或缩短访问路径,提高访问效率;分析客户端代理,根据访问人群的浏览器和操作系统使用情况,有针对性地进行技术开发[11]。

林绮屏通过对华南师范大学图书馆公共查询目录的日志分析,了解读者需求与图书馆服务之间的差距,包括最受欢迎服务分析和差距分析。最受欢迎服务主要分析哪些服务是读者最需要的,通过选择资源维、返回字节数、IP地址等属性进行多维分析[12]。差距分析主要是预先定义好需要分析的服务期望值,再与统计结果进行比较来判断是否达到预期的目的。

4 几点建议

1)明确目标,周密计划。日志分析法虽然具有数据收集量大、自动化程度高、时间跨度长等特点,但由于其主要功能是记录系统和用户之间的交互情况,用于评价系统的可用性只是其功能的扩展,因此,要用日志分析来发现可用性问题需要在评价之初即要明确目标,周密计划,有的放矢地收集尽可能全面的数据,并且要在一定时间内不间断地进行跟踪收集。

2)提高日志挖掘的水平。日志分析法是可用性自动化评价方法中最具发展前景的一种,目前常采用的主要技术有统计分析、路径分析和分类发现,其他技术如序列模式和关联规则分析则用得不多,数据挖掘的功能还没有得到充分发挥。此外,已有不少日志挖掘软件如WebCAT,WebVIP,WebCriteria SiteProfile,CWW等用于网站分析和用户研究,而在数字图书馆可用性评价中却很少使用到这类日志挖掘软件。

3)增加评价效度分析。效度分析包括分析效度、内在效度、外在效度、结构效度等内容,能够揭示出可用性评价的真实性、全面性和准确性,是可用性评价报告中必不可少的一个重要组成部分。由于日志应用于评价系统的可用性是日志功能的扩展,而且从日志数据的收集到挖掘所采用的技术方法都可能影响到评价的效度,所以,很有必要在通过日志分析法得到的可用性评价报告中增加效度分析的内容。

4)与其他评价方法有机结合。日志分析法虽然能够比较直观地发现可用性问题,但发现的问题具有一定局限性,难以全面地反映用户与数字图书馆间的交互是否实现了信息需求,是否对相关的服务感到满意,这就要求日志分析法要与其他评价方法结合起来,才能更具体地了解用户的行为模式,发现更多的可用性问题。从发展趋势来看,数字图书馆可用性评价应综合运用多学科的理论方法,并注意定量研究方法与定性研究方法的结合。

5)注意保护用户的隐私。日志分析法从不同角度、不同层次分析用户使用记录,需要对多种数据源进行集成,其中会涉及某些部门和个人的利益或数据的私有性和安全性问题,比较敏感的是个人隐私问题。因此日志分析法的应用要遵守有关法律规定,注意保护用户的隐私。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

日志分析方法在数字图书馆可用性评价中的应用_数字图书馆论文
下载Doc文档

猜你喜欢