信息过滤研究_数字图书馆论文

信息过滤研究，本文主要内容关键词为：信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

【分类号】G354.2

1 引言

以因特网技术为基础的数字图书馆（Digital Library）集成了来自多个仓储的海量信息，由此使得分布在网络上的异构资源呈现为一个统一的联邦资源，据加州大学伯克利分校的研究估计“目前全球每年产生2EB（Exabyte）非重复的数据，而其中约93％是以数字形式存储的”，这个数字是人类有史以来所有印刷资料数据量（约200PB）的10倍，是当前万维网信息总量（约8PB）的250倍，是美国国会图书馆的所有印刷类藏品（约10个TB）的20万倍。但是面对如此庞大且瞬息万变的信息仓储，用户往往会“信息迷向”，难以找到与需求相关的信息。迅速发展的信息网络和数字信息资源正在造就一个全新的信息服务环境，数字图书馆的形态也正在由基于数字化资源（第一代）、基于集成信息服务（第二代）向基于用户信息活动的第三代数字图书馆转变。在新一代数字图书馆中，以支持用户灵活地处理信息、提炼知识和交流协作为核心，它围绕用户信息活动来组织、集成数字信息资源和信息服务，从而更直接、深入、有效地支持用户检索、处理、利用信息来解决问题的全过程。

用户的信息需求是一个长期的过程，其兴趣随着时间的推移不断发生变化；另外，数字图书馆内容的不断变化也将产生新的信息内容。如何能更有效地、更准确地找到用户感兴趣的信息，滤除与自己的需求无关的信息已成为数字图书馆研究的当务之急，采用信息过滤（Information Filtering）成为解决“信息过载”问题的重要手段之一。通过对用户检索和其它交互过程的分析，建立用户个性化的模型描述，利用此模型和多媒体信息空间的匹配，实现个性化的知识服务。

本文首先讨论信息过滤的基本方式和流程，然后说明了如何获取用户兴趣和建立用户模板，最后对基于本体的信息资源描述进行了探讨。

2 信息过滤的基本技术

在数字图书馆中，信息过滤系统主要面对的是半结构化和非结构化的数据，它为用户的长期的信息需求提供服务。通常，用户的信息需求是相对比较稳定的、长期的。用户的兴趣模型可以用模板文件Profile的形式来表示。过滤系统将信息和用户模板文件进行比较，根据比较结果选出用户需要的信息。

信息过滤技术基本分为两类：一种是基于内容的过滤（Content-based Filtering）；另一种是合作过滤（Collaborative Filtering）。在基于内容过滤模式中，每个用户假定是相互独立操作的。因此，过滤的结果只取决于用户信息需求模型（即用户模板Profiles）与信息源的匹配程度。在相关反馈的基础上，系统辅助维护用户模板。基于内容过滤的系统如Personal WebPersonalizer等，它们利用资源与用户兴趣的相似性来过滤信息。它的优点是简单、有效，缺点是难以区分资源内容的品质和风格，且不能为用户发现新的感兴趣的信息。

合作过滤的出发点在于任何人的兴趣不是孤立的，而是处于某个群体中。根据相同或相近兴趣的用户对相应信息做出的评价，向其它用户进行推荐。由于不依赖于内容，这种模式不仅适用于文本格式，也可以广泛应用于非文本介质的资源，如视频、音频等。协作过滤系统如：WebWatcher， GroupLens，Firefly，SELECT，LileMinds和Citeseer等，它们利用用户之间的相似性来过滤信息。基于合作过滤系统的优点是能为用户发现新的感兴趣的信息。但是，它也存在两个致命的缺点：其一是稀疏性问题，即在系统使用初期，由于系统资源还未获得足够多的评价，系统很难利用这些评价来发现相似的用户。另一缺点是系统可扩展性，即随着系统用户和信息资源的增多，系统的性能会下降。

为了综合基本内容和合作过滤两种方式的优点，本文拟在数字图书馆中采用基于混合模式的信息过滤（Hybrid Filtering）模型。它建立面向个人的用户模板和面向合作的公共模板，抽取信息特征，作为可能的特征项，便于用户动态地修改模板；利用其它用户对文档的评价以及用户模板与文档的相似度来预测用户的接受程度，另外还考虑到推荐者的权威性和与用户兴趣的一致性。结合这两种过滤技术可以克服各自的一些缺点，从而提高信息过滤的性能。其处理流程如图1所示。

图1 基于混合模式的信息过滤模式

3 用户兴趣的获取及用户模板的建立

数字图书馆中拥有大量并且不断增长的信息，而用户的信息需求又是各不相同的，极具个性化。此外，在信息过滤环境中，需要有效地解决两个具有不确定性的问题：用户兴趣的改变和动态信息流；同时，还要对用户兴趣及进入信息流进行匹配计算，以便将有用信息及时、准确地送到需要它们的用户。

在信息过滤系统中，为了跟踪用户的兴趣与行为，有必要为每个用户建立一个用户模板文件（User Profile），以刻画用户的特征与用户之间的关系。在制定用户文件之前，需考虑的问题有：

（1）有没有现成的标准？

（2）收集什么数据？收集的数据用于什么目的？

（3）如何收集数据？根据什么信息源来收集？

（4）收集的数据如何组织？

（5）用户的信息能否自适应地更新？

3.1 用户模板文件的表示

用户模板文件目前还没有一个统一的标准，如W3C有两个相关标准：PICS（Platform for Internet Content Selection）和APPEL1.0（A P3P Preference Exchange Language 1.0）。PICS是父母和老师用来控制孩子的浏览能力的，提供了过滤规则定义语言PICSRules。APPEL1.0可定义用户感兴趣的站点和过滤规则，这些规则大部是在PICSRules的基础上发展起来的。此外，还有Netscape，Firefly和VerSign向W3C提交的OPS（Open Profiling Standard）草案，它解决如何表示一个用户描述文件以及用户与Web站点交互的问题。

用户模板文件从内容上可以划分为基于兴趣的和基于行为的两种类型[4]。基于兴趣的用户模板文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户模板文件可以表示为用户浏览模式或访问模式。具体实现时可以综合基于兴趣和基于行为这两种表达方式。用户模板既能用文件形式来组织，也可以用关系数据库或其它数据库来组织。另外还有一些系统采用XML和RDF以及本体（Ontology）来表达用户描述文件[7]，并利用支持XML的数据库系统来存储用户模板文件，这样，在利用了XML的优点同时，也保持了系统的性能。表1从用户描述文件的表达、学习的信息源两方面比较了几个典型的个性化服务系统。

表1 几种信息过滤系统中用户模板文件的比较

用户兴趣模型是用户模型的一个部分，它是由表示用户兴趣的一些以关键字为主体的对象组成。用户模型的其它组成部分这里不作详细介绍。兴趣模型每个对象都有一个权值信息，权值越高，表明用户对这方面的信息兴趣越浓厚。

3.2 用户信息的收集与更新

信息过滤中会出现Cold Start问题[6]，它包括两个方面：新系统的Cold Start问题是指一开始没有用户对信息资源的评价；新用户的Cold Start问题是指系统已运行一段时间，并有用户模板和用户评价存在，但没有新用户的相关信息。合作过滤方式不能解决冷启动问题，基于内容和混合方式会稍微好一些，因为它们只需少量有关用户兴趣的示例。

在用户第一次使用系统的时候，系统可以要求用户注册自己的基本信息和感兴趣的内容，系统也可以间接地收集用户信息。在定制好一个用户模板文件之后，系统既可以让用户自主修改，也可以由计算机自适应地修改，这样，系统就可以随用户兴趣的变化而更新。系统根据学习的信息源分析当前用户的行为，从而调整用户兴趣的权重或调整用户兴趣层次结构。根据学习的信息源不同，用户跟踪的方法可分为两种：显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价，从而达到学习的目的。隐式跟踪不要求用户提供什么信息，所有的跟踪都由系统自动完成，隐式跟踪又可分为行为跟踪和日志挖掘。

显式跟踪是简单而直接的做法，系统要求用户直接反馈自己对推荐资源的喜好程度。另外一种有效的做法是行为跟踪，因为用户的很多动作都能暗示用户的喜好。用户行为可以表现为查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等等[5]，这些都可以有效地揭示用户的兴趣。

另外，还可以采用Web使用记录挖掘（Web Usage Mining）方法，利用Web日志可以获得页面的点击次数、页面停留时间和页面访问顺序等信息。通过分析Web日志可以获得相关页面、相似用户群体和用户访问模式等信息，系统可以利用这些信息创建或更新用户模板文件。

3.3 用户兴趣模型的优化

在用户的使用过程中，系统不断地记录用户的使用情况，并运用一定的算法来分析记录的使用情况，不断修正用户兴趣模型。采用的学习方法有以下几种：

（1）正面学习：直接记录用户的操作和选择，这是一种称之为“站在用户的肩膀上”的学习方法，例如在用户输入搜索请求时，将用户最终确定的关键字的分类领域信息和有关此次任务的信息配对记录下来；在用户对搜索结果的操作时，将用户的操作和相应结果的一些关键信息也配对记录下来。

（2）用户的反馈中学习：本系统提供给用户对查询结果的反馈功能，以便提高搜索的精度。用户在反馈的时候会给出其对搜索结果的满意程度，以及对结果文档主题的确认信息，可以把这些信息和当前的任务信息配对记录下来。另外还有一种反馈信息，如用户对系统提供的一些支持服务的取舍，在系统中将它转化为正面学习记录下来。

（3）被动学习：如果用户一时难以归纳自己的兴趣所在，但能找到一些自己认为很符合自己兴趣的文档，那么用户可将这些文档交给系统进行分析，提取出它的主题，再交给用户修改和确认，然后将这个主题作为用户兴趣模型的初始状态；当用户需要改变自己的兴趣或精化兴趣时，也可以找一些相关文档，让系统学习。

4 系统实现及结论

随着数字图书规模的扩展，“信息过载”现象日益严重，信息过滤将在数字图书馆的用户界面和个性化服务中起到非常重要的作用，以满足不同背景、不同目的和不同时期的用户信息需求。本文提出的OntoIF（Ontology based Information Filtering）是一种混合的过滤系统（如图2所示），它能解决许多向用户在线推荐文献的现实问题。用户浏览行为通过代理（Proxy）服务器获取，它记录了用户浏览的每一URL。一种近邻算法根据一组已标识示例文献训练集对已浏览的URL进行分类，并将每一篇新文献存储到中央数据库中。已知文献的数据库随着时间而增长，形成了一个共享的知识池。显式反馈和已浏览的URL形成了每一用户的兴趣基础。

图2 基于本体的信息过滤框架示意图

系统不断地根据用户兴趣模型和分类文献主题之间关联计算出一个推荐集。系统并记录用户对这些推荐的所有反馈，用户可以提出新的主题示例并更正错误的文献分类。由此系统训练集和分类精度可逐步提高。OntoIF系统是基于信息资源的主题来构建其用户兴趣的。它允许对本体的推导以辅助用户Profile的生成，例如采用主题继承来推导某一特定超类主题的兴趣度。同时，由于采用术语的显式表示，基于本体的兴趣模型也易于共享。文献的主题也采用本体方式来组织，以便进行兴趣推导。采用基于本体的IS-A层次关系的资源表示，能够推导范围更广的主题。当用户浏览某一主题时，可对推导出该主题超类（Supper Class）的其它兴趣。本文提出的基于本体的数字图书馆信息过滤OntoIF模型是个性化数字图书馆的一种全新模式。它集成本体和机器学习技术，帮助用户主动发现信息，通过分析用户的使用习惯和兴趣，向用户推荐语义级相关信息或信息载体。它不仅可以减少信息过载，通过处理不同用户的兴趣以实现个性化信息访问，而且可以通过本体实现领域无关性和访问高效性。同时，利用领域分类模型上的概率分布来表达用户的兴趣模型，与矢量空间模型相比，概率模型更好地表达了用户的兴趣和变化。今后需要在信息过滤模型的通用性、安全技术及本体映射（Ontology Mapping）方面做进一步的研究。

标签：数字图书馆论文; 用户研究论文; 主题模型论文;

信息过滤研究_数字图书馆论文

猜你喜欢