构建个性化档案数据服务引擎的研究_大数据论文

构建个性化档案数据服务引擎研究，本文主要内容关键词为：档案论文,引擎论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、档案数据服务个性化的必要性

人类社会的数据产生方式大体经历了三个阶段[1]，分别是运营式系统阶段、用户原创内容阶段和感知式系统阶段。其中，第二阶段和第三阶段的数据形态将构成大数据档案数据的主要来源，其特点是信息量不断增大，数据类型更加复杂。由此，“信息超载”问题也将在大数据档案领域内日益体现。另一方面，随着档案文化的发展，用户对档案信息的需求也日益多样化，用户碎片化的需求发展趋势要求档案信息系统能够为其提供个性化的服务。

在此，我们给出一个个性化档案数据服务引擎的定义，即：利用档案数据系统，收集与分析用户对档案数据的偏好与需求，向档案用户提供档案数据信息和建议，帮助用户决定档案利用行为，满足用户对档案数据个性化需求的技术系统和服务机制。

在大数据时代，如何让用户根据自身的个性化需求获得档案资源的个性化结果，这是档案服务引擎必需的功能，也是适应大数据时代档案服务由“供给导向”向“需求导向”发展的要求。例如，目前对档案数据资源获取普遍采用的是单一检索方式(如关键字检索)，而这种方式获得的信息局限性大、范围窄、关联性低。由此造成了档案数据检索利用工作中很多常见问题，这些问题的实质是档案信息难以智能化地到达目标用户。尤其是随着大数据时代的到来，这些问题将更加突出。对于档案利用来讲，从海量档案数据中抽取符合用户需求的有用信息才是关键。因此我们可以得出结论：建设档案数据个性化服务引擎是档案馆向个性化、智慧化服务迈进的重要战略手段。

二、对个性化档案数据服务引擎关键技术的分析

档案服务的个性化主要包括“服务时空的个性化(在用户希望的时间和地点得到服务)、服务方式的个性化(根据用户个人偏好提供服务)以及服务内容的个性化(用户备取所需，不再千篇一律)”[2]。以用户视角来看，其中最关键的是所获得信息内容的个性化，这是建设个性化档案数据服务引擎的重点。因此，为了实现对用户服务信息内容的个性化，当前很有必要引入个性化推荐(Personalized Recommendation)的方法与技术，建立档案数据的个性化推荐系统。

当前较成熟的推荐系统实现技术包括基于关联规则的推荐、基于协同过滤的推荐、基于内容的推荐等。以下对这些信息推荐技术进行简要分析，并剖析哪种技术适用于建设个性化档案数据服务引擎。

1.基于关联规则的推荐算法

关联规则[3]应用在推荐系统上的典型方式，就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y，得到的关联规则表示为：X=＞Y[s％，c％]。其中“s”表示关联规则的支持度，“c”表示关联规则的置信度。当发现用户采纳规则前件时，向用户推荐规则后件。

基于关联规则的推荐优点是：研究技术比较深入、技术比较成熟，其实现的软件产品、技术人员等也比较丰富。其缺点在于：(1)在模型建立阶段计算量往往很大，这个过程在大数据集上更难短时间完成，故难以实时反馈给用户推荐结果。(2)关联规则的挖掘是“数据集特定型”的。对于从某个数据集挖掘出的关联规则，往往是特定的、并非具有广泛意义的，应用到其他场合的话，这个规则就不成立，因而限制了已有的挖掘成果的应用。(3)在完成关联规则的模型建立、存储后，也一般不能做到经常修改模型、进行关联规则集的更新，所以推荐的准确性、应变度不好。(4)对于所产生的关联规则的解释，本身就是一个复杂的、在很大程度上具有超技术特征的哲学式任务。在实践中，事情根本没有想象的“数据库中80％买了A的人也会买B(所以推荐B给买了A的人)”那样简单，误导的关联规则和负相关问题需要额外的处理和关注。(5)从根本上来讲，基于关联规则是一种非个性化推荐算法，甚至是一种“反个性化”算法。原因在于：从关联规则挖掘的原理上来看，只有频繁发生的事务，才有可能成为关联规则的候选，那些少量出现(低于指定阈值)的记录，根本不会成为关联规则参与推荐。这就意味着，除非目标用户与大多数人的行为模式相似，否则难以得到满意的推荐。

2.基于内容的推荐算法

基于内容的推荐算法即基于项目特征匹配式推荐算法。这种方法为每个用户建立兴趣模型(Profile)，再为推荐对象建立一个特征模型，然后计算二者的匹配程度，将匹配程度最高的项目推荐给用户。该技术一般典型应用于文档推荐系统中，其主要思想是：将待推荐的文档提取出其特征向量，再根据用户以往的阅读习惯和范围等，提取用户的兴趣特征集合，随后计算用户特征向量与文档特征向量的匹配程度，将与用户匹配程度最高的N个文档推荐给用户。

这项推荐技术的个性化程度较高，但其难点在于对推荐项目(如文本)特征的提取，如文献[3]介绍了对于文本的特征提取公式等，而对于那些难以提取特征、准确表达成向量形式的推荐项目(如音像档案等)，这种方法的精度不高，因为并不是所有的推荐项目都可以像文本这样有成熟的提取特征算法。另外，对于用户的兴趣提取与建模也需要根据应用场景具体研究恰当方法。

3.基于协同过滤的推荐算法

协同过滤[4]的基本原理是基于最近邻居的评分数据对目标用户产生推荐。协同过滤技术的核心是用户——评分矩阵，用来表示用户对每个项目的评价。基本的推荐步骤是用户评价、最近邻查找、推荐结果生成。协同过滤总体上可分为两类：基于用户的协同过滤(User-Based CF)和基于项目的协同过滤(Item-Based CF)。对于UBCF和IBCF哪个性能更佳，目前没一个绝对的定论。但一般认为，对于UBCF，用户数越多，相对越准确。相关研究表明UBCF适应于语义相似项目的情况，越相似越准确。

协同过滤法有许多的优点：相对于其他推荐技术，协同过滤技术推荐结果个性化程度高、多样性好、新奇度高，并可以挖掘用户的兴趣点，从而得到潜在推荐。从计算的角度来讲，数据表示简单，算法易于实现，更便于实践中的推广使用。

但是，协同过滤技术也存在一些不足：典型的即是稀疏问题(Sparsity)、冷开始问题(Cold-Start)等等。因此，对协同过滤算法的研究主要集中于解决这些问题。一些相关研究表明，采用诸如奇异值分解、多兴趣矩阵划分、组合推荐策略等方法，可以较好地改进协同过滤自身存在的不足。

4.推荐算法的对比分析与档案个性化推荐技术的选择

在以上的几种推荐系统实现技术中，协同过滤是目前研究关注最多、应用较为成功的个性化推荐技术。特别是就推荐的个性化程度而言，在很多方面其优于关联规则等方法。这是由二者的实现机理决定的：关联规则实质上是“随大流”推荐算法，协同过滤是“寻找自我”的个性化算法。从总体来看，关联规则方法的目的，是在于从整体上了解数据库事务较为普遍的、宏观的发生规律。就是说，关联规则方法是在考察整体，而非“关照个体”，然而后者正是推荐系统(尤其是个性化推荐系统)的重要要求。所以，关联规则对于个性化推荐系统的建立并非理想的技术。相关研究[5]也指出基于关联规则的推荐方法缺点在于：如果其支持度和置信度选取不当，会造成计算时间过长或是较差的推荐性能。

基于内容的推荐算法，实际是要探究用户“为什么”对某些项目感兴趣，其通过建模计算将用户的兴趣度映射到一些项目属性，从而推定用户对另外项目的兴趣度。这种方法的推荐质量和个性化程度主要取决于对推荐对象与用户偏好的具体建模质量。

协同过滤算法实际上是把每一个用户或项目的评分向量都作为一个规则，即使这个评分向量状态只出现过一次，在为目标用户查找最近邻时也不会被忽略，从而可以充分照顾到个性化程度强、信息需求差异较大的应用需求。此外，该推荐机制原理简单、实现方便、需要的相关理论知识较少。这对于当前档案数据推荐系统所面临的用户特点、数据特点以及现实建设条件等是十分适用的。因此，对于当前档案数据个性化推荐系统的建设，可选择协同过滤技术作为系统实现的主要技术，并可辅以基于内容的推荐等技术提高档案信息推荐系统的性能。

三、档案数据个性化推荐系统方案设计

1.档案数据个性化推荐系统中构成元素的特点

基于以上分析，接下来主要围绕以协同过滤推荐技术方式实现的档案个性化推荐系统的特点进行探讨。

在此种技术的推荐系统中，档案用户一般具有以下特点：

(1)用户的概念既包括档案馆工作人员也包括档案利用者，因此推荐系统应面向两者服务，且两者间可加强信息互动；

(2)矩阵中用户相对于档案数据的数量是较少的，故使用UBCF比IBCF算法效率高；

(3)相对于其他应用场景，用户对档案数据反馈参与度更高，因此更易获得主动评分；

(4)档案利用中用户更乐于提供自身的属性信息，这为用户建模提供了较好条件；

(5)当前用户的利用目的的以事务办理为主，但文化研究目的应用正在增多，因此推荐系统应具备处理这两种应用场景的推荐策略；

(6)多数用户对档案工作情况了解不全面，档案利用中需要信息推荐。

推荐系统中的档案数据一般具有以下特点：

(1)相对于其他应用场景，档案数据更具规律性，具备较完善与权威的分类体系；

(2)档案数据往往具有较完善的说明信息(如元数据)，为对其建模提供了较好条件；

(3)相对于其他推荐项目，档案数据内容规整、价值度高；

(4)档案数据相互之间往往具有较高的联系度以及相似度，适于聚类和分类；

(5)档案数据作为推荐项目其粒度多样可变，如是以文件还是以案卷或类别为单位；

(6)大数据时代的到来使其数量急剧增长。

推荐系统中的评分数据一般具有以下特点：

(1)稀疏问题继续存在，需要奇异值分解等改进策略；

(2)可由档案馆专业人员根据档案利用数据及经验预设部分评分，缓解冷启动问题；

(3)可采用二值形式记录用户的利用行为；

(4)档案利用登记制度的存在，相对可更易收集获取用户对项目的评分；

(5)数字化档案馆的推广可使对评分的主动收集与被动收集并重；

(6)在其他应用场景中“使用非胜利”现象造成的评分误差，可由档案馆利用反馈机制进行一定程度的消除。

基于以上推荐系统元素的特点分析，下面我们提出档案推荐系统的建设方案。

2.档案数据个性化推荐系统模型

我们提出档案数据个性化推荐系统模型如图1所示。

图1 档案数据个性化推荐系统模型

其中，推荐系统以“三库两模块”为基本结构：用户数据库、推荐规则数据库和档案数据库，负责存储用于生成推荐的信息；用户数据库主要存储用户属性信息和对这些信息的隐私保护机制；推荐策略数据库负责存储个性化推荐算法以及所需相关的数据，并支持档案利用历史数据和档案馆先验知识的输入，且可根据推荐系统实际使用情况输入调整方案信息；档案数据库是推荐系统与档案系统的汇合点，用于存储档案数据及元数据，并存储档案开放规则和密级保护规则；推荐生成模块从这三个数据库中读取信息，根据一定的数据处理策略和推荐算法向用户生成推荐结果；效果评估模块根据用户对推荐结果的反馈和满意度调整系统的推荐策略。

该系统模型图从概念上描述了个性化推荐系统的基本框架，明确了各部分的划分与功能。其中，推荐系统的档案数据库所存储的档案数据可以是副本或映射形式，且数据流是单向的即不应允许推荐系统修改这些数据。同时如“图1”所示，我们提出的模型在一开始就明确了推荐系统的建设应考虑用户的隐私保护和档案的开放与保密规则。

3.档案数据个性化推荐系统实施策略

基于协同过滤推荐技术首先根据实际场景确定推荐项目的粒度(是将文件、案卷或是类别等作为一个推荐项目)，然后为建立矩阵而收集评分。主要可采用两种策略：(1)基于档案利用登记制度、网上问卷或以种子集策略[6]等方式，向用户主动收集其对利用过档案项目的评价，如“很有用、一般、无用”等，将其离散为数值化评分，未评分项目默认为0，形成用户——项目评分矩阵；(2)档案馆将以往用户对档案利用的历史记录，用户对某档案项目利用过则记为1，否则默认为0，形成用户——项目二值观测值评分矩阵。这两种策略都是用以收集档案用户的兴趣偏好和对档案文件的利用规律。

接下来对需推荐用户计算其最近邻用户。对于离散数值化评分矩阵，协同过滤有三种用户相似度计算方法：余弦相似度、修正的余弦相似度、相关相似度。如前文分析，在档案推荐应用场景中，用户相对于项目数量较少，而文研目的用户的兴趣分布较分散，造成用户间共同评分的项目极稀少，这决定了相关相似度往往实践不可行。此外，相关研究表明[7]：余弦相似度往往可表现出更好的预测精度以及适应性。因此，可对档案用户相似度计算采用余弦相似度的方法：

在实践中，若离散数值化评分矩阵的用户常出现对各项目评分相等的情况，则亦根据式“(4)”计算其待推荐对象预测评分。

以式“(3)”或“(4)”计算出用户对所有未评分的待推荐对象的评分，然后将预测评分最高的若干项目作为推荐结果推送给用户。

此种策略基本思想是根据他人以往对档案数据的评价或档案利用行为向目标用户推荐档案文件。此策略在实践中主要需要确定两个指标：目标用户的最近邻数目(n∈

)和推荐结果数量(Top-N)。这两项指标可根据推荐系统效果评估模块(图1)的结果进行方案调整，以达到推荐结果令用户满意的最终效果。

在实践中还可根据实际情况决定是将所有参与推荐的档案文件和用户都放在一个大的用户—项目评分矩阵中，还是根据用户多兴趣特征[8]或是档案文件的类别划分为若干小矩阵。而对于矩阵中项目粒度设定为文件还是定为档案类别，也可根据档案实际应用场景进行变化。此外，针对实践中用户对档案兴趣转移现象，可采取时间加权(线性/非线性遗忘)协同过滤[9]等推荐策略。

四、档案数据推荐系统的评价及优化

相关研究表明[10]，如何有效评价推荐系统目前仍然是一个未定论的问题，无法绝对断言以哪种指标评价推荐系统效果一定是科学合理的。实际上，相关研究所提出的推荐方法往往在某些指标上表现好，而在另一些指标上表现差，因此学术界尚未建立推荐算法评估公认指标群。

如何设计评价指标综合评价推荐系统的表现是一个巨大的挑战，但有一点原则是肯定的：一个好的推荐系统一定是以用户体验为中心的。用户满意度是对推荐系统最终极的评价指标，用户的反馈意见是推荐系统优化的根本依据。

基于这个原则，我们设计档案数据个性化推荐系统方案伊始，就在系统框架设置了效果评估模块(图1)，用以收集用户对档案数据推荐系统的反馈评价，并据此分析设计调整方案，使推荐系统可以面向实际业务用户满意度获得更加推荐效果。

对于档案数据的个性化推荐策略，效果评估模块对系统的优化工作主要是设定最近邻用户数目和推荐结果数量。相关研究表明这两个指标是系统调优的主要变量。此外，对于评分矩阵所面临的稀疏问题，可根据系统具体面对的具体档案业务环境，分别采用多兴趣划分矩阵[8]、奇异值分解[11]与基于内容推荐相结合等改进策略，并依据改进效果评估进一步调优系统。

以余弦相似度方法计算档案用户间相似度，只是考虑了用户向量的夹角，没有考虑用户向量的长度(向量的模)。在一些实际应用场景中，这可能会导致相似度数值与实际语义不一致的问题。此外，余弦相似度也无法探查到档案用户间的非线性关系。因此，在实际应用中，设定用户评价的分数等级不宜太多，如可以3级为宜，评分设定亦可以酌情采用负数。

建设档案数据推荐系统的根本理念，是设计以用户体验为中心的推荐系统。因此除了提高推荐结果精确度，还应注重推荐结果的多样性、新颖性以及覆盖率等，并在算法运行效率、系统界面友好程度等方面进行综合的评价衡量，以此促进对档案推荐系统的综合调优。

五、结语

本文对建设个性化档案数据服务引擎的核心问题——档案数据个性化推荐进行了探讨，提出了档案数据个性化推荐系统总体模型，针对用户的个性化偏好，进一步提出了系统实际的推荐策略。

档案数据个性化服务引擎是建立在数字化的档案应用环境基础上的，同时又是实现智慧档案馆建设的一个重要组成部分。对个性化服务引擎的建设是一个系统工程，因此我们应围绕着该服务引擎的建设问题，进一步研究个性化档案服务时空与服务实现方式，拓展档案个性化推荐系统的体系结构与运行样式，并研究建设个性化服务的档案人员队伍与制度体系，最终建成和实际部署个性化档案数据服务引擎，以促进档案馆应对大数据时代任务能力的提升。

标签：大数据论文; 矩阵论文; 关联规则论文; 个性化推荐系统论文; 协同过滤论文; 用户研究论文; 矩阵分解论文; 相似矩阵论文; 系统评价论文; 相关矩阵论文;

构建个性化档案数据服务引擎的研究_大数据论文

猜你喜欢