我国社区发现的研究进展_社会网络论文

我国社区发现的研究进展_社会网络论文

国内社区发现研究进展,本文主要内容关键词为:研究进展论文,发现论文,国内论文,社区论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

社区发现研究既是复杂网络(如科研合作网[1]、社会网络[2]、邮件网络[3]、博客网络[4]、微博网络[5]、电信网络[6]等)领域的研究热点和重要研究方向,也是数据挖掘应用于复杂网络最热的研究主题[7,8]。社区发现能发现复杂网络里潜在的、隐藏的子社区,从而更高效地为用户提供个性化服务、智能检索、舆情监控等。笔者对从《中国学术期刊网络出版总库》(CNKI)所检索到的相关文献资料的主题分析发现,到目前为止国内尚未有专家学者专门对国内社区发现研究成果进行梳理。鉴于此,本文运用文献计量法对国内社区发现相关研究文献进行统计与分析,以期为国内社区发现的下一步研究提供参考与借鉴,并希望本文的研究结论能进一步充实复杂网络领域的研究。笔者以《中国学术期刊网络出版总库》为文献统计源,以“主题”或“关键字”含有“社区发现”或“社区挖掘”为检索条件,采用“精确匹配”以提高检索准确率(检索时间是2013年7月23日),并对所检索到的相关文献按研究主题进行梳理,剔除非相关文献,从而构建出本文综述的文献集。笔者对梳理出的研究主题的分析发现,国内在社区发现领域已取得的研究成果主要表现在:社区概念、社区发现算法、社区发现策略、社区发现模型、社区发现应用领域五个主题。

1 国内社区发现研究分析

1.1 社区的概念

国内学者虽提出了许多关于社区的不同概念,但尚未达成统一的共识和建立有效的社区数学模型。封海岳等[9]认为:社区是指网络中带有相似属性的一组节点的集合,且具有社区内节点关系紧密、社区间节点关系松散的特点。康旭彬等[10]认为:社区是指那些联系比较紧密的节点组成的点集。龚尚福等[11]指出:社区是根据某种或某几种性质对网络进行的划分,由结点和边组成。张伟等[12]认为社区是指网络中的节点内聚子图,子图内部的节点间存在较多的连接,不同子图的节点间连接相对稀少的情况。

1.2 社区发现算法

国内学者针对社区发现而提出和应用于实践的算法主要集中在动态社区发现算法,如基于标签传播的算法、基于链接分析的算法、基于启发式的算法、基于相似度的算法、局部社区发现算法、聚类算法、基于模块度的算法、基于谱方法的算法、基于数据场的算法、基于图分割的算法、重叠社区发现算法、基于优化的算法。如林旺群等在对现有社区发现算法存在的弊端及层次静态社区并行分解算法的研究基础上,提出了一种用于动态社区发现的层次化社区发现算法,并通过理论和实验验证了该算法的正确性和有效性[13]。赵卓翔等针对现有基于标签传播社区发现算法的不足,提出了一种新的基于标签传播的LIB(Label-Influence-Based,基于标签影响值)社区发现算法,并验证了该算法在复杂度相近情况下能有效提升所发现社区的质量及稳定性[14]。张宪超等针对现有基于链接分析的Web社区发现算法忽略Web文本属性的问题,提出了一种结合网页内容与链接分析的改进算法,通过理论和实例验证了该算法能有效提高社区发现的精度和大小[15]。马瑞新等针对社会网络具有的动态特征,结合多模态函数优化和粒子群优化的思想,并引入社区种子和社区主题的概念,在矢量空间模型理论的基础上,提出了一种分层次的基于启发式的动态社区发现算法,实验证明该算法能有效提高社区发现的精度,降低运算复杂度[16]。施伟等针对GN算法在重叠社区发现时存在的不足和降低算法时间复杂度,提出了一种基于连边相似度的重叠社区发现算法[17]。方平等在对现有局部社区发现算法研究的基础上,提出了一种准确、快速找到复杂网络中局部社区的基于节点接近度的算法,实验证明该算法能有效挖掘出隐藏在网络中的局部社区[18]。张震等针对网络中顶点及边的动态特征,运用选择性聚类融合思想,提出了一种解决动态复杂网络社区挖掘相关问题的社区挖掘算法[19]。封海岳等为提高社区划分的精度,针对现有社区离群点检测算法因忽略社区间重叠现象而引起社区划分不准确的不足,通过引入属性贡献因子,提出了一种有效解决重叠社区中社区离群点检测的基于相似度和模块度的算法[9]。张恩德等在对在线社会网络特征的研究基础上,提出了一种基于谱方法的社区发现算法,该算法通过将在线社会网络映射成一个拉普拉斯矩阵,并通过利用该矩阵谱的性质来发现社区结构[20]。王莉军等通过将社区视为一种数据场而提出了一种基于数据场的社区发现算法(CDDF),实验证明该算法既能克服传统社区发现算法初始条件选择的困难,又能有效消除噪声对社区发现的影响[21]。林旺群等为避免传统基于模块度的社区发现算法倾向于发现相似规模社区的弊端,提出了一种基于带权图的并行分解层次化社区发现算法,实验证明该算法具有很好的精确度和高效性[22]。潘磊等在研究边社区思想的基础上,针对重叠社区发现问题提出了一种基于局部边社区的重叠网络社区发现算法(LLCM)[23]。黄发良等针对社区质量评价指标具有数据依赖性和耦合关联性及单一评判指标优化的局限性问题,通过将社区发现问题转化为多目标优化问题,提出了一种基于多目标粒子群优化的社区发现算法(MOCD-PSO),实验证明该算法能在无先验信息的条件下挖掘出更高质量的社区[24]。

1.3 社区发现策略

社区发现策略,也称为社区发现方法,是指为实现社区发现目标而制定的计划或方案,是对整个社区发现过程的谋划和指导。目前国内社区发现策略的研究主要表现在:社区发现的自适应,网络压缩,社区发现相关技术(如派系过滤、局部信息、链接分析、链接关系、内容相似度、主题相似性、网络拓扑、向量化分、粒子群优化、动量粒子群优化、用户标签),从社区发现的主体角度优化社区发现。如马瑞新等针对社会网络分析中的社区发现问题,通过对粒子群优化算法的研究,提出了一种基于动量粒子群优化的自适应社区发现方法[25]。李泓波等提出了一种基于社区节点重要性的社会网络压缩方法来解决图压缩存在的问题:时间复杂度高、先验信息设定参数的依赖、调节参数过多、压缩有损、忽略社区结构等问题[26]。吴龙庭等针对互联网论坛中划分用户社区的问题,提出了一种基于局部最优的社区发现方法[27]。阎春霖等为充分挖掘标签系统中各标签隐含的用户信息和提供更优的个性化服务,通过对用户标签使用情况的研究,提出了一种面向用户的基于用户标签的社区发现方法[28]。王卫平等在综合考虑网络结构和节点内容的基础上,提出了一种基于用户主题相似性和网络拓扑的微博社区发现方法[29]。阎艳等针对传统派系过滤方法运用于社区进化发现中存在的问题,提出了一种基于改进型派系过滤的社区进化发现方法[30]。刘旭等通过修正交叉协方矩阵的对角线以满足正定性条件,从而将基于模块度的社区发现问题重构成一个向量划分问题,并提出了一种基于向量划分的社区发现方法[31]。杨楠提出了基于链接分析的镜面页面比较策略以剔除Web社区中存在的大量镜面和重复页面[32]。云颖等提出了一种基于网页内容相似度和链接关系的社区发现方法,以避免传统社区发现方法忽略网页内容的局限性[33]。

1.4 社区发现模型

社区发现模型是指描述社区发现中的网络、挖掘策略、子社区和它们之间的关系匹配函数的数学模型。目前国内社区发现模型主要有:启发式模型,多准则约束模型,马尔可夫随机场模型,语义模型,边稳定系数模型,完全信息图模型,Latent Dirichlet Allocation模型,社区—作者—主题模型,谱优化模型,统计推理模型,随机模型,层状模型,概率模型,用户主题模型,协同模型,向量空间模型,并行计算模型,标签传播模型,最大流模型,超图模型,线程模型,社会关系模型,随机网络集成模型。吴良等针对基于全局优化社区发现方法的不足,在研究OSNs(Online Social Networks,在线社交网络)的基础上,提出了一种基于启发式的社区发现模型[34]。韩毅等针对现有社区发现方法无法识别满足多特征约束的社区以及因网络社区形式的任意性而导致不同发现方法的结果难以合并的问题,提出了一种能同时满足社区结构约束、规模要求和紧密度要求的基于多准则约束的社区发现模型[35]。刘栋等针对社区结构发现问题,通过将网络中的顶点度数映射为顶点信息值,提出了一种基于隐马尔可夫随机场的社区发现模型[36]。班磊等通过对语义网的研究,以及对Blog网页链接的潜在语义探索,提出了一种基于语义模型的社区发现模型[37]。林友芳等针对现有社区发现存在如复杂度过高,划分质量不佳等问题,提出了一种基于边稳定系数和完全信息图的社区发现模型[38]。苗蕊等对科学家合作网中隐含信息的研究,提出了一种基于社区—作者—主题的社区发现模型[1]。张烁等为改善社区发现的时间复杂度,提出了一种基于谱优化的社区发现模型[39]。

1.5 社区发现应用领域

目前国内针对不同应用的特点提出了具有较强针对性的社区发现方案主要集中于:BLOG网络、P2P网络、标准化工作、电力系统、SOC领域、个性化服务、论文评价、区域交通信号控制系统、社会网络安全研究、推荐服务、社会网络仿真、网络可视化、网页排序、物流领域、协同学习、信任评估、学科主题聚类、查询推荐、专家系统。如吴海华等研究了BLOG网络的社区发现及话题跟踪问题[40]。李瑾等针对现有P2P系统存在如信息冗余、检索效率低等缺陷,提出了一种基于用户行为和社区发现的P2P资源检索方法,实验表明该法能有效提高资源检索的查全率和查准率[4]。胡俊峰等提出了互联网产业社区,并研究了从产业社区中发现及提取隐含信息来实现对标准化工作的辅助[42]。白云等针对电力系统中的电压控制问题,运用社区发现的分区思想,提出了一种基于能量信息加权的电压控制分区方法[43]。潘伟丰等针对SOC领域的服务发现和服务组合提出了一种运用社区发现实现的服务自动分类和推荐方法[44]。马瑞新等通过将社区发现应用于SNS科研论文管理平台来提高平台中学术信息资源的利用率和个性化推荐质量,增加用户满意度[45]。罗江琴等提出了一种基于Web社区发现的科研论文自动评价方法以避免传统人工科研论文评价方法的不足[46]。王力等提出了一种基于社区发现的交通控制系统的控制子区优化方法以避免传统方法未考虑交通网络拓扑结构具有的复杂特性[47]。马瑞新等针对社会网络中存在的信息安全问题,提出了一种基于社会发现的多层次柔性抗攻击社会网络防护体系以增强社会网络的稳定性和鲁棒性[48]。贺超波等为了给科研用户提供更准确和可信的论文推荐服务,提出了一种以学术社区服务系统为基础的基于社区发现及协同过滤推荐技术的科技论文推荐方法[49]。张颖星等为了解决社会网络仿真中采用乐观时间管理策略时易导致系统内大量级联回滚的问题,提出了一种基于社区发现的混合时间管理机制[50]。余韬等设计并实现了一个基于社区发现的网络可视化系统,以提升用户从视觉上更好地观测网络,发现其隐含的知识信息[51]。田甜等对链接分析和社区发现的研究,提出了一种比PageRank具有更优排序效率和质量的基于社区发现的搜索引擎结果排序方法[52]。丁连红等针对物流中心的货位优化问题,引入社区网络和社区发现思想,提出了一种基于共拣网络的物流中心货位优化方法[53]。王志梅设计并实现了一种基于自组织社区发现的协作学习平台,以提高远程学习者协作学习的有效性、资源与经验的分享[54]。杨兴华等为解决多主体系统(MAS)主体间的信任问题,提出了一种基于社区发现的信任计算模型和基于社区发现的信任评估方法[55]。朱梦娴等将社区发现方法运用到学科主题聚类分析,并得出了图书情报领域的主题聚类结果[2]。李亚楠等通过综合运用社区发现和信息检索技术,提出了一种能有效辨识模糊查询的不同语义概念的基于词关系网络的智能查询推荐方案[56]。史玉珍等通过将文献资源的层次聚类划分与专家社区发现结合,实现了自动推荐学术领域专家系统[57]。

2 国内社区发现研究的特点和不足

通过对国内社区发现相关研究文献的梳理,笔者发现国内关于该主题的研究不仅具有一定的特点,也存在一些需要改善的地方。

2.1 国内社区发现研究的特点

2.1.1 核心作者和核心团队初步形成

笔者研究发现国内针对社区发现的研究起源于2003年,并呈逐年上升趋势,而且其研究成果涉及面广,数量增长快。同时出现了如黄发良、马瑞新、杨楠等核心团队对该主题的跟踪研究和应用实践,并初步形成了核心团体和核心作者群。这既表明国内对社区发现的研究已形成了完备的科研团队和人员体系,又表明国内对社区发现的研究具有了一定的系统性和全面性。可见,国内专家学者对该研究主题的研究已初步成熟,并被更多的关注。

2.1.2 研究已逐步从理论走向应用

从前面的分析可知,国内关于该主题的研究已逐步从理论研究走向社区发现在各领域的应用研究,并取得了一定的成效。研究初期经常出现诸如对社区发现现有算法的研究和对某个领域的影响,但随着专家学者对该主题的深入研究,从电力系统、电信网、物流领域、个性化服务、智能查询、专家系统等更细化的应用角度来对该主题的研究已成为主流。

2.2 国内社区发现研究的不足

笔者通过对国内关于社区发现相关主题的研究发现,虽然国内专家学者对社区发现的研究较为关注并取得了大量的成果,但还存在很多的问题:只关注网络结构,忽略了节点内容对社区发现的影响;大多针对静态网络,不能对网络结构的变化进行动态分析;对评价社区发现优劣度的研究较少;缺乏对异构网络社区发现的研究;虽提出了许多关于社区的定义,但并没有达成统一的共识和建立有效的社区的数学模型;大多数文献仅从理论角度提出了关于社区发现的一些算法、模型或策略,缺乏对社区发现实际应用的深入分析和理解;仅有极少数文献真正在实践应用中构建了社区发现,并设计和实现了基于该社区发现的系统,实际上只有这样的实践应用研究才能有效地推动国内社区发现的研究和实际应用。

3 国内社区发现的未来发展趋势

根据上述所分析的国内社区发现的研究内容和不足之处,加之对国外关于社区发现研究的分析,笔者认为,未来国内社区发现研究可能有以下趋势。

3.1 社区发现优劣度的评价指标

如何客观地衡量社区发现的优劣度已成为社区发现领域所面临的一个主要问题。国内学者对该主题研究甚少,沈华伟等针对重叠网络的社区发现优劣度提出了基于模块度[58]的重叠模块度[59]。王莉等针对模块度的缺陷,引入了分区数目的奖励值[60]。作为衡量社区发现优劣度的模块度本身就存在一些问题,如当将网络划归为一个社区时模块度为1等,同时随着国内专家学者对各种网络社区(如动态网络、异质网络等)的深入研究,如何对现有模块度进行优化或设计新的衡量社区发现优劣度的评价指标必将引领专家学者们进行新一轮的研讨。

3.2 社区发现的自适应方法

目前国内存在的绝大多数社区发现都是基于一定的先验信息(如网络大小、网络结构等),即基于这些先验信息的社区发现才能更好的把握精确度、有效性等,但却无法真正地投入到实际动态变化的网络。研究如何在不需要先验信息的情况下,进行高效、高精度的具有自适应的社区发现具有重要的意义。如何确立社区发现动态构建策略,如何进行社区发现的自动化适应,如何利用社区发现理论与链接分析、语义分析等技术设计更高效的社区发现算法将成为未来社区发现的研究趋势。

3.3 社区发现的实践应用

目前国内对社区发现应用领域方面做了大量的研究,并取得了一定的研究成果。但缺乏对基于社区发现的系统的设计与实现,只有这些才能真正地对社区发现的研究起到推进作用。如何将社区发现嵌入到系统,如何利用社区发现找到系统所需隐藏信息,如何结合实践需要找到适合的社区发现来应用实践需求将成为未来社区发现实际应用的研究趋势。

4 结语

国内外对社区发现的研究与实践促进了社区发现在各领域的深入应用,并在一定程度上拓宽了各领域的研究范围。笔者通过梳理分析发现,社区发现研究已是国内的研究热点,并正吸引着更多的专家学者的关注,目前国内关于社区发现的研究主要集中在社区的概念、社区发现算法、社区发现策略、社区发现模型、社区发现应用领域五个方面。未来,如何评价社区发现的优劣度、如何实现社区发现的自适应、如何更好地将社区发现应用于实践应用等将是从事此研究主题的专家学者们研讨的热点。

标签:;  ;  ;  ;  ;  ;  ;  

我国社区发现的研究进展_社会网络论文
下载Doc文档

猜你喜欢