摘要:为了从海量手机数据中挖掘出有换机意向的用户,首先针对联通提供的海量数据的特征进行清洗、扩充,然后采用lasso方法与spilt-and-conquer方法对用户数据进行特征选择,最后利用现代数据挖掘手段对用户的换机行为进行预测,讨论并比较了各种方法对换机预测的准确性。通过对用户数据集进行测试实验,表明变量选择与补充能够有效地提高移动用户换机的预测结果,而且经过spilt-and-conquer方法进行特征选择的数据集进行预测的精度可以有效提高,并且Xgboost方法在各种分析工具中的表现更为优越。
关键词:spilt-and-conquer;Lasso;变量选择;Xgboost
0 引言
手机科技的迅速发展使人们交流和生活更加便捷,同时也增加了人们对手机的更换频率,由统计数据显示用户平均更换手机的周期在逐渐缩短,到目前为止已降至16个月。有效的发掘出有潜在购买意愿的移动用户并对其进行理性的营销[1],这会产生强大的竞争优势也会提高客户的满意度[2],提高公司利润。根据TrendForce旗下的研究所估计,2015年的4G智能手机的出货量将高达4.5亿台[3]。在手机广泛应用的同时各大电信运营商已然积累了大量的移动终端客户,并产生海量数据。如何运用这些海量数据来预测手机用户的行为以达到获取利润的效果就显得尤为重要[4]。如果要想解决这个问题,需要关注以下几个方面:一是手机用户数据量巨大,怎样提升预测效率是个很大的挑战。二是特征种类繁多,怎样减小变量之间的相关性,去除噪音变量也是很重要的问题。三是由于电信商统计上的数据比较单一,不能表现手机的功能特征。所以,如何对大量的手机用户数据进行特征挖掘、变量选择、统计分析等智能化信息处理,以提高营销商对用户的推送精度,为企业作出更好的决策支撑已刻不容缓。
Zou and Hastie (2005)[5]提出的弹性网方法是套索回归的一种推广,它更适合于高维及相互关联性强的数据进行回归分析,可以有效地进行变量选择,选择出有代表性的变量以降低维数,简化模型并且可以更好的解释变量与预测结果之间关系。spilt-and-conquer方法(Xue Chen,2004)[6],首先把高维数据集均分成K份,进行变量选择,把每份选择出来的特征集进行合并后再变量选择。更好的去除冗余变量,并节省了计算时间。所以本文先对数据进行变量选择,在此基础上再运用Xgboost、随机森林、支持向量机(SVM)[7]、决策树、神经网络、对数据进行预测,这种方法可以提高模型的解释性并减少模型标准误差。
作者:兰晓然
基于spilt-and-conquer方法对手机用户换机行为预测研究
日期:2018-05-16 09:26 点击:360