基于行为信息的微博用户性格预测研究论文

基于行为信息的微博用户性格预测研究

刘 平1,崔宗艺2,周炜翔3,张仰森3

(1.国家计算机网络应急技术处理协调中心,北京 100029;2.中国航天科工集团第二研究院,北京 100039;3.北京信息科技大学 智能信息处理研究所,北京 100101)

摘 要 :在研究心理学中的“大五人格”模型的基础上,针对社交网络,提出了一种基于用户行为信息预测性格的方法。采用“大五人格量表”测试模型对用户性格进行不同维度的分析;选用微博用户的行为信息构建用户性格模型;通过对用户信息与用户性格之间的关系进行分析,从中提取5个相关度最强的特征维度,并基于线性回归的方法构建了用户性格预测模型。实验结果表明,构建的性格预测模型正确率达到了78.5%。

关 键 词 :性格预测;线性回归;用户行为信息;大五人格

0 引言

微博社交网络中具有丰富的用户信息,不仅包含基础的用户个人信息,还包括大量的用户行为信息。例如用户发表的微博、参与讨论的话题、用户发表的评论等。这些用户信息不仅能够刻画出微博用户的重要行为特征,还可以反映出用户当时的心理活动和性格特征。M. Back等[1]利用Facebook社交网络数据预测用户的性格,发现利用用户的行为信息能够预测出用户的性格特征,这一研究为基于微博用户行为信息的性格预测提供了较好的理论基础和重要帮助。

在社交网络用户性格倾向性预测方面,国外相关研究者主要基于Facebook或Twitter上的用户数据进行研究,通过用户在社交网络中产生的行为数据进行提取,采用机器学习算法对用户的性格进行挖掘[2]。Globeck等[3]为准确衡量用户的性格特征,通过采集Facebook上用户公开的个人信息进行分析和建模,采用机器学习方法预测用户的性格;Quercia等[4]利用Twitter用户的粉丝数、关注数、状态数3个特征进行分析,发现受欢迎的用户和有影响力的用户都是外向的,具有情绪稳定的性格特征。然而,目前国内的研究较少。Bai Shuotian等[5]通过对微博用户的行为信息进行分析,提出了一种基于网络行为的多任务回归和增量回归算法,可以很好地预测性格特征,但该方法考虑到的特征较少,不能更为全面地解释人物的性格特征。

当前对社交媒体中用户性格倾向的研究还处于初级阶段,相关研究并没有对用户行为信息与用户性格之间的关系进行多维度探索,不能权威地揭示出用户行为信息与用户性格之间的密切程度。此外,目前的研究大多局限于少量特征信息基础上的研究,未能从多角度、多特征进行挖掘分析,数据类型单一,不能很好刻画出用户的性格倾向。基于中文社交网络的用户性格倾向预测还处于起步阶段,预测模型的构建方法也需要更深入的研究[6]

1 微博用户性格预测模型的构建

1.1 大五性格分析模型

本文采用标准的大五人格量表(NEO-PI-R简版),作为评估目标用户性格倾向的标准[7]。NEO-PI-R简版大五人格量表包含了60道单项选择题,每个性格维度对应12道单选题目。测试者从非常不符合到非常符合共5种符合程度中进行选择,填写每个单选中的符合程度。每个题目是对一种行为的描述,测试者需要根据自己的实际情况与题目描述的契合程度,选择对应选项。大五模型中5个性格特征如表1所示。

表1 大五人格表

1.2 用户交互行为信息模型

统计分析发现,每位用户在微博中的交互行为与性格存在一定的联系。性格开放的人更加积极主动与他人进行交流互动;性格外倾的人善于主动发表原创的微博;性格神经质的人发表的内容较为悲观;性格谨慎的人发表的原创微博较少,更多的关注其他人发表的内容。因此,用户的交互行为信息与用户的性格倾向有着很大关联。

该层主要作用是物联网服务器,功能包括Web服务器、数据库服务器、应用服务器。应用服务器负责与各个室内中央核心处理单元网关定时通信,通过各室内中央核心处理单元获取各个传感器采集的数据,并及时按照一定格式保存至数据库服务器中。而Web服务器负责将这些数据进行处理分析并展现到互联网上,通过手机、计算机、平板等终端查看相关信息。未来经过功能拓展之后,Web服务器还可以将相关控制指令的发送写入数据库服务器,然后由应用服务器将其从数据库取出后发送给对应的室内中央核心处理单元网关,最后由室内中央核心处理单元负责将指令、命令转发给被控设备进行相关智能家居设施的控制。

2010年底以来,仔猪腹泻成为我国各地生猪生产中的主要疾病,有的地区60%以上的养猪场有暴发流行,仔猪发病率达50%~100%,死亡率达50%以上,呈现新的发病特点。

微博用户交互行为信息主要包括:用户的原创微博数、转发微博数、话题数、关注数、粉丝数、@数、参与讨论话题数等。本文通过对用户基本资料、行为习惯、交互频度进行相关分析,主要选用微博原创比率、微博活跃度、用户交互主动性、表情使用频数、用户赞同程度这5个特征,构建微博用户交互行为模型[8]

1)微博原创比率(OR&FW perce)。是指微博用户所有微博中原创微博与非原创微博的比率,如式(1)所示。

(N (u )≠C (u ))

首先,专业性组织和人员数量不足。司法部2014年发布《关于进一步加强行业性、专业性人民调解工作的意见》,提出加强行业性、专业性人民调解组织和队伍建设,针对行业、专业领域矛盾纠纷注重运用专业知识调解等要求。2014年,全国建立专业性、行业性人民调解组织3万多个,人民调解员近13万人,共化解行业、专业领域矛盾纠纷300多万件。至2018年最新统计显示,全国共有人民调解员366.9万人,其中专职人民调解员49.7万人。这一数字虽然继续大幅增长,但人民调解总体的专业性不足问题仍然没有得到根本改善。

(1)

式中:N (u )为用户u 发布的所有微博数;C (u )为用户u 的原创微博数。当微博用户的所有微博均为原创微博,此时该用户的微博原创比率为1,说明该用户性格为外倾型。

2)微博活跃度(activity degree)。在一段时间内,微博用户通过发布或者转发微博,进行信息分享的频率,频率越高表示用户使用微博越活跃。该特征由微博用户发布的微博总数与用户的平均转发量2个因素来确定。

(2)1990-2018年,知识服务领域每年新增的研究者数量逐步增长,而能够常年坚持并持续有研究成果呈现的人员数量较少,表明该领域的研究人员存在追逐热点,很少能够进行持续性研究,不利于这项研究工作的深入以及事业的可持续发展。

微博用户发表的微博总数和用户的平均转发量对微博活跃度的影响程度不同,所以本文通过赋予不同权重来调节2个因素对活跃度的贡献程度。其中,用户发布微博总数对用户活跃度的贡献程度为

(2)

式中:R (u )为用户u 的转发数;A (u )为用户u 的关注数;R (u )/A (u )表示用户u 的平均转发量。用户平均转发量对用户活跃度的贡献程度为

(3)

微博用户活跃度为

(4)

式中:常数T 为时间粒度量;d (u )为用户u 在T 时间内的活跃度。

3)用户交互主动性(communicate initiative)。由@符号使用量、评论数和关注与被关注数3部分构成[9]

@符号使用量、评论数、关注与被关注数对用户交互主动性的重要程度不同,本文采用对不同影响因子赋予不同的权重来表示对用户交互主动性的贡献大小。用户的@符号使用量对用户交互主动性的贡献程度为

(5)

经检验β 1、β 2、β 3、β 4、β 5全部显著不为0,由此验证了上一小节得到的回归参数满足线性回归的显著性。由此可以看出,本文中选取的用户特征与用户性格有着良好的相关性,所采用的线性回归算法也具有可靠性与显著性,进而确保了用户性格预测的准确性。

评论数对用户交互主动性的贡献程度为

(6)

关注数对用户交互主动性的贡献程度为

另外,在编写程序时使输出频率f2为0时,M值强制为0,输出电压U为0;输出频率f2为基频以上时,M值恒为0.95。

(7)

“学案教学”不是把“我”知道的告诉给学生,学生被动听,被动接受并确认,而是让学生主动发现知识、建构知识,学生在获得知识的过程中有了亲历、有了体验,形成了“生成”的能力。利用学案教学的课堂,要学会“放而不乱”,“放”不是放任自流、漫无目的,要把握准确的“度”,找到最佳结合点。教师要利用学案把学习的主要内容,学习目标,学习重难点攥在了自己手里。

(8)

用户交互主动性为

J (u )=

I (u )S (u )

(9)

式中J (u )为用户u 的交互主动性,交互主动性J (u )经过线性归一化得到。

4)表情使用度(expressional usage)。是指用户发表评论和参与话题讨论中使用表情符号的程度,计算公式为

(10)

式中:M (u )i 为用户u 发表评论和参与话题讨论中第i 条内容中的表情数量;D (u )为用户u 的话题讨论数量;N (u )=M (u )+D (u )。

5)用户赞同程度(endorse degree)。在一段时间内,微博用户点赞数、评论数、转发数等交互行为对总体赞同程度的影响[10]

本节是对上节得到的多元线性回归方程进行验证,验证其是否满足多元线性回归方程的取值特点。想要验证方程是否满足取值特点,就要验证方程对前提和结果的表述是否正确,这需要对线性回归方程的拟合效果进行分析。根据统计学原理,常用测定系数来表示所求方程与实际方程的符合程度。测定系数是指可解释的变异占总变异的百分比,即

(11)

式中:Z t (u )为用户u 在t 时刻的点赞次数;L t (u )为用户u 在t 时刻的评论数;R t (u )为用户u 在t 时刻的转发微博数;Q t (u )为用户u 在t 时刻的话题参与数。评论数对用户赞同度的贡献程度为

(12)

关注数对用户赞同度的贡献程度为

(13)

被关注数对用户赞同度的贡献程度为

被关注数对用户交互主动性的贡献程度为

(14)

用户赞同程度为

e (u )=

W (u )R t (u )+λ (u )Q t (u )]

(15)

通过式(15)对各个特征进行线性归一化得到微博用户赞同度e (u )。

2 微博用户性格预测模型的实现

基于以上构建的5个用户行为特征,本文采用多元线性回归算法对用户行为特征信息的有效性和特征参数的显著性进行验证,以实现根据用户行为信息对微博用户的性格预测。

2.1 多元线性回归模型及原理

本文利用线性回归算法[11]对用户的行为数据进行训练与预测模型构建。用户的性格倾向性y 和微博用户性格倾向性的i 个主要特征(x 1,x 2,x 3……x i )存在线性关系,其空间模型为

y (x )=β 01×x 12×x 23×x 3i ×x i

(16)

式中β i 为权重,由训练集数据训练确定。为了评价训练后的结果与数据的拟合情况,引入了代价函数的概念,针对本应用场景,代价函数定义为

C(β 0、β 1、β 2、β 3、β 4、β i )=

竹韵在宿舍区外的一家米粉店打了两份米粉,还在龙斌碗里加了只熟鸡蛋。回来到屋里时,龙斌已经醒来了。竹韵把米粉放到客厅的餐桌上,侍候龙斌洗漱完开始吃早餐。

(17)

参数β 0、β 1、β 2、β 3、β 4、β 5的确定过程釆用梯度下降法,利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小,梯度是方向导数下降最快的方向。以权重β 0为例,设定一个更新步长,每次更新的大小为

(18)

其中,

2.2 求解多元线性回归方程

上一小节介绍了本文中运用的算法原理,本小节将介绍线性回归方程的求解方法进一步验证1.2节中选取特征的有效性。运用1.2节中得到的特征值和结果的统计数据求其线性方程,使用最小二乘法作为求线性回归参数的方法。

根据统计理论,假设关联规则中的前提和结果符合一元线性的正态误差模型,前提为x ,结果为y ,则有

是“烟富3号”的早熟株变。2015年通过贵州省品种审定委员会审定。其主要的优良变异体现在成熟期上,在贵州长顺8月中下旬成熟。果实近圆形,果形指数0.87,平均单果重210~250克。果面平滑,稀有果粉,果皮底色淡黄,条红,着色面积85%以上。果肉淡黄,质地硬脆,肉质细,汁液多,风味酸甜,香气浓,品质上等。可溶性固形物14.7%~15.9%。

y i01x 12x 23x 34x 45x 5

(19)

将估计的回归参数记为β 0=b 0,β 1=b 2,β 3=b 3,β 4=b 4,β 5=b 5。则多元线性回归模型为

最终,车子停在一个一望无际的旷野里,远处是断裂和创痛的山峦。当地人说,这是地震之后改变的地形,如果想看到村庄的痕迹已绝无可能。哪怕是最微小的一块砖,都被覆没于地面之下。她在旷野呼啸风声中试图往前行走,越走越远。然后在旷野中心,看到一面异常静谧而碧蓝的湖水。

Y =b 0+b 1X 1+b 2X 2+b 3X 3+b 4X 4+b 5X 5

(20)

式中:X i 为前提,且相互不相关;Y 为结果;b i 为回归参数。

根据最小二乘法的规则使残差平方和为零。则有

(21)

为了得到最小值,分别对回归参数求偏导数为零,则有

(22)

检验统计量为

2.3 用户行为特征有效性验证

微博用户的点赞数、评论数、转发数、话题参与数对于用户赞同度的重要程度不同,本文采用对不同影响因子赋予不同的权重来表示对用户赞同度的贡献大小。@符号使用量对用户赞同度的贡献程度为

当发动机停止运转时,ATF泵也被停止,且ATF压力消失。作用在活塞上的压力也消失。活塞由钢珠保持在锁定位置(图9)。发动机启动过程中液压填充所需能量存储在涨紧的活塞弹簧上。电磁阀仍处于通电状态,以固定活塞上的锁止器且使球头离开锁销(凹槽),以锁定活塞。

(23)

首先给β 0、β 1、β 2、β 3、β 4、β i 设定一个随机值为初始值,然后按照式(18)迭代更新β 0、β 1、β 2、β 3、β 4、β i ,根据新的权重β 0、β 1、β 2、β 3、β 4、β i 计算代价函数的大小及变化,当代价函数在两次迭代间下降的大小小于某个给定值时,停止迭代。关于更新步长的设定,需要经过多次的试探来确定一个合适的大小。更新步长太大,容易形成在最低点附近的来回震荡,无法收敛;更新步长如果太小,则收敛速度就会很慢,计算时间长。梯度下降法的另一个缺点是,无法避免选择局部最优,这种情况,可以通过多次的计算来解决,在计算的多次结果中,选择代价函数最小的那一组权值。

(24)

式(24)为计算原始数据y i 的总变异平方和的方法。

(25)

式(25)为用拟合直线来计算可解释的变异平方和的方法。

(26)

式(26)为计算残差异平方和的方法。

由测定的系数运算过程可知0≤R 2≤1,当R 2=1时,有SSR=SST,该情况表示原始数据的总体变异与拟合值的变异完全吻合,可以完全由拟合值变异解释,并且残差值为0,也就是SSE=0,也就是说原始数据与拟合点完全吻合。当R 2=0时,回归方程与原始数据的总变异完全无关,完全不能对其进行解释,y 的变异与x 毫无关系,其产生的变异是由与x 无关的因素引起,也就是SSE=SST。由此可见,当R 2越趋向于1,回归方程拟合的越良好,原始数据中的变量y 与拟合变量y 的相关程度越大。所以我们只需用来表示y 与x 之间的相关度,表示y 与自变量x 的相关系数,其正、负符号与回归系数b 1、b 2、b 3、b 4、b 5一致,由此求出的R 2就能代表y 与自变量x 的相关程度。通过1.2节选取的特征进行数据提取,以外倾性为例,计算得到一组回归拟合曲线,如图1所示。

图1 多元线性回归拟合曲线

图1中每一个散点代表一个用户,通过拟合函数进行特征有效性验证,得到拟合曲线。图1中显示出本文选取的特征与用户性格值符合线性回归方程取值特点,并满足线性关系,所得R 2的值也满足拟合特点,最终证明本文中选取的5个特征对用户性格有良好的代表性,由此可以证明,本文构建的5个特征与用户性格有良好的相关性。

2.4 特征参数的显著性检验

本小节将对回归参数的显著性进行检验,采用回归分析中的F 检验对2.2中求取的线性关系方程进行检验,以确定回归模型的准确性。这里检验的是β 1、β 2、β 3、β 4、β 5是否显著不为0,以β 1为例。

假设H 0:β 1=0,H 1:β 1≠0。

WJ-III地图工作站虽然提供了制图综合的知识库模板,但是针对湖北省103个县市区不同的地形,不同的缩编比例尺,需要进行相应知识库的调整。经过不同参数的尝试,最终形成山区、丘陵、平原三种地貌类型的知识库,另外针对城市市区的道路综合,形成城市地区的综合知识库,以满足湖北省县市区地理国情普查图的编制要求。

根据上文确定的特征构建原始数据集,代入式(22)得到多元线性回归模型的回归参数b 0、b 1、b 2、b 3、b 4、b 5(上文中5个特征的权重值)。

(27)

其中,

MSR=SSR/df R =SSR/1

MSE=SSE/df E =SSE/(n -2)

对于检验水平α,按自由度为(n 1=1,n 2=n -2)查找其拒绝域F a (1,n -2)。

若F *≤F a (1,n -2),则接受H 0假设,认为β 1显著为0,x 与y 不存在线性关系,x 的线性关系无法解释y ;若F *>F a (1,n -2),则接受H 1假设,认为β 1显著不为0,x 与y 存在线性关系,x 的线性关系可以解释y 。

本文采用的检验方法,以假设其他条件都是符合要求为前提,检验只针对线性回归模型本身,验证上一小节所得的回归参数是否显著,进一步确定用户行为特征与用户性格之间的相关程度。

实验组产后出血量<500ml产妇29例(96.7%),参照组产后出血量<500ml产妇21例(70%)。经统计学计算,X2=7.6800,P=0.0055。

式中:B (u )为用户u 的@符号使用数量;L (u )为用户u 的评论数;F (u )为用户u 的关注数;S (u )为用户u 的粉丝数。

2.5 微博用户性格预测模型的实现

性格预测模型主要解决了通过用户产生信息抽取特征并且预测用户性格倾向的问题。综合在社交网络上的网页应用实现过程,微博上用户信息抽取、倾向挖掘、预测应用的整体流程如图2所示。

BIM技术发以来,参数化、模型化、可视化和协同工作是其实际应用的基本特征[1]。将其纳入建筑工程项目信息管理实践,建筑工程项目信息管理的效率和质量得以有效提升,并且,在信息重复、信息误差等内容的控制方面具有重大影响。当前环境下,BIM技术已深刻的贯穿于生命周期的各个环节,其对于工程质量提升,工程效益获得具有较为深刻的影响作用。因此在现代工程建设中,在建筑工程项目信息管理中进行深层次的BIM技术应用势在必行。

图2 性格预测流程

数据采集部分,首先通过新浪微博API提供的数据访问接口,针对目标用户通过其ID爬取该目标用户行为信息;同时通过心理学大五人格模型对目标用户进行性格倾向分值计算;结合以上两部分数据对目标用户进行标注构成训练语料。

为了得到性格预测模型需要的特征,对信息进行预处理。例如,用户基本信息中用户微博注册时间;文本信息中表情符号、点赞、评论等信息的统计;再根据1.2节中构建的5个特征指标,抽取当前用户的性格特征指标并计算出相应的特征值,最终采用线性回归算法实现性格预测模型的构建。

3 实验结果分析

3.1 实验语料

新浪微博提供了API数据访问接口,本文利用目标用户的ID从数据访问接口获取对应的用户信息。从2017年12月到2019年1月,共计收到893位用户的性格评测问卷,通过对评测问卷质量的挑选,得到432份真实有效的测评问卷。本文对问卷挑选的标准主要有以下几个方面:

1)用户的作答质量是否符合标准,作答时间不得小于2 min;

2)用户微博的使用活跃度是否满足要求,用户微博活跃度应大于0.01;

3)用户微博账号是否基本信息完善。

通过对有效问卷的结果进行统计分析,从大五性格维度进行评分,评分后的结果进行归一化处理,最后得到0~100分性格值。经统计分析,其432份有效数据中用户性格类别分布人数如图3所示。

图3 用户性格类别人数分布

3.2 实验结果及分析

通过对测试数据集上用户信息的预处理,分别统计用户各个性格特征属性值,对统计后的结果进行归一化处理,避免各个指标的波动性较大,其部分结果如表2所示。其中,微博原创比率、微博活跃度、交互主动性、赞同度、表情使用率分别根据式(1)、(4)、(9)、(10)、(15)所得,指标的范围在[0-1]之间。

表2 部分用户性格特征属性值

从表2可以看出,用户原创比率高低,反映着用户对于转发微博与原创微博的倾向性;微博活跃度的高低,表示了用户近期发布或转发微博等行为频率的大小,并且将微博活跃度特征值小于0.01的用户进行过滤,去除了冗余数据,这就避免了由于数据稀疏而引起的结果不准确的问题;而交互主动性、赞同度、表情使用数也有着明显的区别,分别代表着不同用户的性格倾向性;因此,用户的这五维特征符合预测模型的要求,并且符合不同用户的不同性格倾向性。

本文采用十折交叉验证(10-fold cross-validation)的方式对模型精度进行计算,得到实验结果如图4所示。

图4 实验预测结果

为了更加准确地体现出用户的性格倾向性,并且能够更加直观地定义性格维度的相关性,我们引入了特征倾向表现强度。通过对有效样本的5个维度值的统计,对用户性格倾向的分值进行计算,得到每个维度的分值取值[0,100],值越大表示用户的真实性格与该性格维度越相关;若得到了近似于0的分值则表示用户的真实性格在该性格维度上没有明显的倾向。我们将每个性格维度的分值区间分为表现中性和表现显著2种强度,区间分别为[0-50]、(50-100]以此描述某个样本在维度上的特征倾向强度。对于有效样本的5个维度值分别统计,结果如图5所示。

图5 性格表现强度比例图

对图5中给出的不同性格倾向的实验结果分析可以看出,5个性格维度中表现中性的相对占比较高,而各个性格维度中表现显著的比例较小,说明预测样本群体(主要是理工科学生群体)大多性格趋于“温和”或是稍有偏向。严谨性维度中正向明显的比例相对最高,而外倾型和开放型较少且表现相对中性,符合理工科学生的主流性格倾向。

4 结束语

本文利用社交网络信息对用户进行性格预测。基于心理学“大五人格”模型提出了一种基于用户行为信息的性格预测方法,采用“大五人格量表”测试模型对用户进行性格维度分析,分析目标用户的个人信息和行为信息,构建了用户性格模型。通过对用户产生的行为信息和性格之间的关联进行分析,提取了微博原创比率、微博活跃度、用户交互主动性、赞同度、表情使用频数5个特征构建预测模型。最终采用线性回归算法进行实验,验证了本文构建的性格预测模型的准确性。

在接下来的研究工作中,将探索其他因素对微博用户性格倾向性的影响。例如,对微博话题的关注数、关注微博话题的种类、微博用户情感的时间连续性等,进而对特征进一步综合分析。

参考文献 :

[1] Back M,Stopfer J,Vazire S,et al.Facebook profiles reflect actual personality,not self-idealization[J].Psychological Science,2010,21(3):372-374.

[2] 孙启翔.基于移动互联网社交行为的用户性格分析和预测[D].北京:北京理工大学,2016.

[3] Golbeck J,Robles C,Edmondson M,et al.Predicting personality from Twitter[C].2011 IEEE Third International Conference on Privacy,Security,Risk and Trust and 2011 IEEE Third International Conference on Sicial Computing,2011:149-156.

[4] Quercia D,Kosinski M,Stillwell D,et al.Our Twitter profiles,our selves:Predicting personality with Twitter[C].2011 IEEE Third International Conference on Privacy,Security,Risk and Trust and 2011 IEEE Third International Conference on Sicial Computing,2011:180-185.

[5] Bai Shuotian,Hao Bibo,Li Ang,et al.Predicting big five personality traits of Microblog users[C].2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI)and Intelligent Agent Technologies (IAT),Atlanta,Georgia,USA,2013:501-508.

[6] 刘玮,贺敏,王丽宏,等.基于用户行为特征的微博转发预测研究[J].计算机学报,2016(10):1992-2006.

[7] 娜迪热,胡俊.基于用户社交网络数据的人格倾向性分析及预测模型的建立[J].电脑知识与技术,2018,14(7):6-11.

[8] 毛佳昕,刘奕群,张敏,等.基于用户行为的微博用户社会影响力分析[J].计算机学报,2014(4):791-800.

[9] 饶元,吴连伟,王一鸣,等.基于语义分析的情感计算技术研究进展[J].软件学报,2018(8):2397-2426.

[10] 齐超,陈鸿昶,于洪涛.基于用户行为综合分析的微博用户影响力评价方法[J].计算机应用研究,2014(7):2004-2007.

[11] 张福旺,苑会娟.基于多元线性回归的空腹血糖影响因素分析方法[J].计算机科学,2018(S2):545-547.

Personality prediction of Microblog user based on behavior information

LIU Ping1,CUI Zongyi2,ZHOU Weixiang3,ZHANG Yangsen3

(1.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China; 2.The Second Academy of China Aerospace Science & Industry Corp,Beijing 100039,China;3.Institute of Intelligent Information Processing,Beijing Information Science &Technology University,Beijing 100101,China)

Abstract :After studying the “Big Five Personality Traits Model” in psychology, this paper proposes a method to predict users’ personality based on their behavior information of social networks. The “Big-Five Personality Scale” test model is used to analyze Microblog user’s personality from different dimensions and construct the user personality model. By analyzing the relationship between user information and user personality, five most relevant feature dimensions are extracted, and the user personality prediction model is constructed based on linear regression method. The experimental results show that the accuracy of the model reaches 78.5%.

Keywords :personality prediction;liner regression;user behavior information;Big-Five personality trait

中图分类号 : TP 391.1

文献标志码: A

文章编号 :1674-6864(2019)03-0032-07

DOI :10.16508/j.cnki.11-5866/n.2019.03.007

收稿日期 :2019-03-26

基金项目 :国家自然科学基金资助项目(61772081)

第一作者简介 :刘 平,男,助理工程师;

通讯作者: 张仰森,男,博士,教授。

标签:;  ;  ;  ;  ;  ;  ;  

基于行为信息的微博用户性格预测研究论文
下载Doc文档

猜你喜欢