基于在线客户评审的客户细分研究_聚类论文

基于在线客户评论的客户细分研究，本文主要内容关键词为：在线论文,客户论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图法分类号：C93；TP391 文献标志码：A 文章编号：1672-884X(2015)07-1059-05

DOI编码：10.3969/j.issn.1672-884x.2015.07.016

客户细分分析是产品设计、新产品研发、新产品市场定位过程中的重要步骤，传统客户细分方法基于问卷调查过程，数据采集难度大，数据客观性不足，而电子商务网站或点评网站中客观的在线客户评论(OCR)数据，作为客户对所购产品的真实意见表达，是一类有价值的信息，提示可以基于OCR数据进行客户细分分析。

现有研究中，赵珩君[1]基于包括购买量和购买频率等指标在内的客户价值指标体系，使用客观聚类分析法进行客户细分分析。赵铭等[2]基于基金理财客户的交易行为数据，使用K-means聚类方法进行客户细分分析。WU[3]使用机器学习中的专家混合模型，以评论评分和5个指定属性及其意见值作为输入，对同品味的客户进行聚类。上述研究为基于OCR的市场细分研究提供了条件，但直接应用于基于OCR的客户细分分析中，尚存在不足：①OCR价值体现在OCR中客户对产品属性及其意见的描述，现有方法中通过人工选定的属性不具有全面性，通过程序自动抽取的属性其粒度不统一。属性的粒度是属性的重要特征，一个属性归类于某个特定的粒度，客户评论中对属性的描述，如“屏幕好，但像素低”中的屏幕、像素两个属性，从笼统到具体，体现不同的粒度，统一属性粒度是基于在线客户评论数据执行客户细分的必要条件，也是本研究的难点之一。②OCR数据具有自身特点，如属性数量有限而评论数量庞大，数据极端稀疏等，选择适宜的聚类算法是分析难点之二。

本研究针对基于OCR数据执行客户细分分析的问题，以客户关系管理、意见挖掘、语义学相关研究为理论基础，提出一个新的二阶段客户细分方法，研究客户偏好建模方法和客户聚类方法，并对方法的有效性进行实证验证。

1 二阶段客户细分方法

根据客户细分分析及OCR数据特征，本研究设计基于OCR的客户细分分析方法(见图1)。以综合类产品介绍网站(如中关村在线，zol.com.cn)中特定产品的属性介绍页面为数据源，通过数据采集和属性树结构构建方法获得产品属性树结构；以电子商务网站(如京东商城，jd.com)中特定产品评论页面为数据源，通过数据采集方法获得产品评论集合，通过产品特征挖掘和情感倾向分析[4]方法挖掘客户在OCR中表达的属性-意见对；在客户偏好建模阶段，使用同义属性识别方法和属性偏好换算方法，基于产品属性树结构，构建粒度统一的客户偏好向量；在客户聚类阶段，使用包含最优聚类数识别的聚类流程，基于模糊C均值(FCM)算法，对客户进行聚类。

图1 基于OCR的客户细分分析方法

1.1 客户偏好建模

在撰写客户评论时，客户选择是否提及一个属性取决于客户是否关心该属性，当客户关心某属性时，即使该属性表现一般，客户也会在评论中提及；反之，当客户不关心某属性时，即使该属性表现极好或极差，也会被忽略。前者如客户会经常提及“电池容量符合主流配置”，后者如非商务客户往往忽略“手机数据加密功能极好”。

在客户对特定属性表达意见的差异上，该属性越(不)能满足客户需求，客户对属性的评价越高(低)；针对同一产品的同一属性，客户表达的满意度越高，对该属性的需求越低。由此，评论意见的差异可以表征客户对属性的偏好。例如，对同一产品存在“电池容量绝对够用”和“电池容量小的可怜”两条评论片段，分别表现出两客户对电池容量较小/较大的需求。

基于此，本研究提出以下假设：

假设客户在OCR中对产品属性及其意见的描述能够反映客户对产品属性的偏好。

基于以上假设，本研究对意见和偏好不加区分。利用OCR中属性及其意见值对客户偏好进行建模。

图2 属性树结构与评论r的属性树实例

综合类产品介绍网站(如zol.com.cn)的产品参数页面以树结构形式组织产品属性。使用数据采集工具对产品属性进行采集，使用属性树结构构建方法对属性树结构进行组织。为捕捉客户评论中对产品质量、货源和价格的意见，向产品属性树结构根节点增加质量、货源和价格3个子属性，每个子属性又各含有一个子属性，依次为质量、产地和价格。

客户偏好向量构建阶段获得M个客户偏好向量，代表M个客户对产品的偏好。

1.2 客户聚类

K-means、谱聚类、FCM均为客户细分中常用聚类方法[6]，其中在FCM与LCA方法的聚类结果中客户细分可重叠，具有更高的实用价值。本研究后续对比实验，在基于OCR的客户细分分析中，FCM算法在聚类稳定性和聚类效率上体现出较大优势。本研究选择使用FCM作为客户细分的聚类算法。

FCM算法把M个客户偏好向量

分为C个模糊组，并求每组的聚类中心，使得非相似性指标的价值函数达到最小。任意向量对C个组的隶属度之和等于1，即

式中，

为客户m的偏好向量隶属于i模糊组的隶属度。FCM的价值函数可描述为：

考虑最佳聚类数的确定过程，设计以客户偏好向量为输入，以轮廓系数[7]为聚类效果辨别指标，基于FCM的聚类过程如下：

①选定最大类别数C_MAX；

②For 2 to C_MAX

对客户偏好向量执行FCM算法；

对获得的聚类模型计算轮廓系数；

③取轮廓系数达最大时聚类数k为最佳聚类数C_OPT；

④输出聚类数为C_OPT的聚类结果。

2 实验过程与结果分析

2.1 数据准备

采集京东自营三星I8750智能手机自2012年1月1日-2012年12月31日的OCR共8 145条作为本研究的样本数据。每条评论数据包含“优点”、“不足”和“心得”3部分。

2.2 程序及软件说明

使用LocoySpider v2.0①软件包实现对中关村在线和京东数据的采集。此外，本研究基于java语言编制程序实现基于在线客户评论的客户细分方法。程序主要包括属性树构建模块、属性-意见对挖掘模块、同义属性识别模块、属性偏好换算模块和客户聚类模块5部分。其中，属性-意见对挖掘模块基于Apriori算法挖掘产品属性[4]，基于情感词典②识别意见及意见极性，并使用基于规则的方法实现属性-意见的关联。同义属性识别模块基于HowNet词典资源2、基于HowNet的单词语义相似度算法[5]、本研究提出的语义相似度计算公式以及K-NN算法③关联客户评论中属性与属性树结构中属性。客户聚类模块基于FCM算法和轮廓系数公式[7]实现对客户的聚类。为简化描述，本研究仅对最复杂的属性-意见挖掘模块的算法进行介绍(见图3)。

Input：情感词典(经融合和人工修正的HowNet情感词集和NTU情感词典)、OCR集合

Output：属性-意见对集合

Algorithm：

1.基于情感词典识别OCR中的情感词及相应情感极性，作为意见词和意见极性；

2.基于Apriori算法识别OCR中的产品属性；

3.对识别出的每个意见词，寻找最近的产品属性，作为一个＜属性，意见＞对；

4.对识别出的每个产品属性，寻找最近的情感词，作为一个＜属性，意见＞对；

5.对步骤4和步骤5识别出的＜属性，意见＞对做融合操作，获得最终的＜属性，意见＞对集合。

图3 属性-意见对挖掘模块算法

2.3 加工步骤

通过数据采集工具于中关村在线(zol.com.cn)的三星I8150产品参数主页获取包含3个粒度层次的属性树结构。不包括根节点在内，共有粗粒度属性14个，细粒度属性54个。

经过属性-意见对挖掘，共获得306个唯一的属性，13 388组属性-意见对。通过客户偏好建模方法构建客户偏好向量，其中属性-意见对中属性与属性树结构中属性的部分关联关系见表1。使用基于FCM的客户聚类方法执行客户细分分析。

2.4 客户细分的命名与分析

基于OCR的客户细分结果见表2。表2中数值为各类别中所有客户对特定属性偏好的均值，为简化说明，过滤了对所有类别偏好均值均小于0.1的属性。由表2可知，在“硬件参数”和“基本属性”上，类别1的平均偏好分别为0.9599和0.4900，类别中客户表现出在注重硬件参数的基础上，同时注重基本属性的特征，可命名为“硬件组”，占整个群体的37.4%；类别2客户注重包括品牌、外观、屏幕等内容的基本属性，可命名为“外观组”，占整个群体的30.9%；类别3客户注重价格，可命名为“价格组”，占整个群体的9.9%；类别4注重包括影音播放和游戏在内的娱乐功能，同时注重基本属性和硬件参数，可命名为“娱乐组”，占整个群体的8.8%；类别5注重手机货源，同时关注基本属性，可命名为“货源组”，占整个群体的7.6%；类别6注重质量，同时注重基本属性，可命名为“质量组”，占整个群体的5.4%。

2.5 聚类对比实验

本研究对比FCM、K-means和谱聚类(记作S-K10)3种算法在对由OCR生成的客户偏好向量进行聚类时的性能与效果。其中谱聚类算法邻接矩阵距离度量采用欧氏距离，近邻数采用经验值10。3种算法的聚类距离度量采用平方欧氏距离。

通过SD指数[8]对上述算法的聚类稳定性进行对比。在增加聚类数时，SD指数曲线越平滑，聚类稳定性越高。对比结果见图4。通过聚类稳定性可知，FCM算法与K-means算法均具有较好的稳定性。

图4 FCM、K-means、S-K10的聚类稳定性对比

通过平均执行时间、轮廓系数等对比各聚类算法的效率和效果差异(见表3)。以执行时间作为标准，则在设定聚类数为6时，FCM、K-means算法具有显著优势。以轮廓系数作为标准，则3种算法分别在各自最优聚类数下获得相近的聚类效果。以是否支持类重叠为标准，则FCM算法具有优势。综上，FCM算法在基于OCR数据的客户偏好向量聚类中具有稳定性和效率方面的优势。

3 总结与展望

本研究针对如何基于OCR数据执行客户细分分析的问题，以客户关系管理、意见挖掘、语义学相关研究为理论基础，提出客户偏好建模和客户聚类的二阶段客户细分方法，并对方法的有效性进行了实证验证。

本研究主要在两个方面做了工作：①以意见挖掘和语义学相关研究为理论基础，以网络信息资源为支持，设计产品属性树结构、同义属性识别方法和语义偏好换算方法，构建属性偏好向量，并建模客户偏好；②针对以OCR为数据源的客户偏好向量的取值连续、数据稀疏、属性维度有限、向量数目庞大的特征，验证FCM算法相对其他算法在聚类稳定性和聚类效率方面的优势，并设计自动决定聚类数的客户聚类过程。通过以上设计，本研究实现了基于OCR的客户细分分析方法，并以某一手机为例，基于电子商务网站与产品介绍网站的真实数据验证了本研究提出的基于OCR的客户细分方法的有效性。

①http://www.locoy.com/

②HowNet情感词集http://www.keenage.com/；NTU情感词典(NTUSD)http://nlg18.csie.ntu.edu.tw:8080/opin-ion/

③https://code.google.com/p/java-statistical-analysis-tool/

标签：聚类论文; 客户细分论文; ocr论文; 客户分析论文; 产品属性论文; 情感识别论文;

基于在线客户评审的客户细分研究_聚类论文

猜你喜欢