Page 190 - 数码世界6月整本
P. 190

技术交流






                                                                                             数据挖掘在通信行业精确营销中的应用


                                                                                                                         师江波


                                                                            摘要:针对传统通信行业数据业务营销模式中存在的普遍撒网的缺点,提出利用数据挖掘中的决策树算法对数据业务的潜在客户进行分类,
                                                                            预测什么类型的人可能开通数据业务、什么类型的人开通数据业务的可能性低,并且在实际的环境中进行追踪检验。实际的实验以数据
                                                                            业务中的彩铃业务为例,结果表明,数据挖掘中的决策树算法能将预测准确率保持在较高的自然准确率,反映出其在真实的环境中运行
                                                                            是可行的、有效的,提高了通信行业数据业务精确营销的客户响应率,在实际的营销环境中具有积极的意义。





                                                                               随着 4G 时代的来临,通信行业即将获得更广阔的                         息熵 H(U):信息量的数学期望,是信源发出信息前的平
                                                                            发展空间和潜力,在实际的生产运营过程中,数据业务                            均不确定性,也称先验熵。
                                                                            收入已经逐渐跃居收入第二,仅次于语音收入,因此数
                                                                                                                                2 彩铃客户预测
                                                                            据业务得到了运营商越来越多的关注,而数据业务的营
                                                                            销依然停留在传统的营销方式,如通过调查资料、客服                                利用决策树算法,将彩铃客户消费属性和客户背景
                                                                            外呼营销等方式,属于一种普遍撒网式的营销,这种营                            属性一起作为决策树的输入属性,将彩铃用户和非彩铃
                                                                            销方式成本高,周期长,客户真正的响应率低。                               用户按照某种比例组合作为预测的训练数据。决策树算
                                                                               用户对数据业务的使用都或多或少的与用户消费行                           法是一种“有指导”的归纳学习,通过大量数据的学习
                                                                            为以及用户背景信息有关联,而数据挖掘技术就可以找                            归纳出预测规则集,即我们要研究的问题是:什么样的
                                                                            到这种联系,发现其中的规律。由此本文以彩铃为例,                            人可能是潜在的彩铃客户,而什么样的人可能不是潜在
                                                                            利用决策树算法对该数据业务的精确营销进行指导,通                            的彩铃客户。
                                                                            过挖掘当前彩铃用户特征,即具有什么行为特点的人可                            2.1 输入属性
                                                                            能会开通彩铃,进而锁定彩铃营销的潜在客户群,再对                                决策树的输入属性由两部分组成,一部分是对彩铃
                                                                            预测名单内的用户进行主动营销,降低了营销成本,提                            消费产生较大影响的客户消费行为属性,如:区内时长、
                                                                            高了营销的响应率。                                           区间时长、国内普通长途时长、国内 IP 长途时长等;
                                                                            1 相关知识                                              另一部分是客户基本信息,包括年龄、性别、套餐、是
                                                                                                                                否市区等。将两部分信息整合在一起作为彩铃预测的输
                                                                               决策树很擅长处理非数值型数据,免去了很多数据
                                                                                                                                入属性,属性列表如表 1( 表中简列出部分属性 ) 所示,
                                                                            预处理工作。常用的算法有 CHAID、CA R T、Quest 和
                                                                                                                                其中“是否彩铃用户”,是输出属性,即预测的目标属
                                                                            C5.0,本文采用目前较成熟的 C5.0 算法。C5.0 是经典
                                                                                                                                性值。
                                                                            的决策树算法,相比 CA R T 树只能生成二叉树来说,
                                                                                                                                2.2 训练集
                                                                            C5.0 算法可生成多分支的决策树,目标变量即为分类
                                                                            变量,最后可以生成树状图或者规则集。C5.0 根据能够                             从彩铃目标客户中随机抽取其中 3545 名客户进行
                                                                            带来最大信息增益的字段拆分样本,第一次拆分确定的                            分析,再在非彩铃用户中随机抽取 9 倍的数据共同组成
                                                                            样本子集随后再次拆分,通常是根据另一个字段进行拆                            数据训练集,总共有 35450 个用户。
                                                                            分,其中数值型字段被划分成区间,字符型字段被组织                                数据预处理是指数据训练集通过汇总变换等方法处
                                                                            成集合,这一过程重复进行直到样本子集不能再被拆分                            理成满足属性列表的所需信息;预处理后,计算所有属
                                                                            为止。最后,重新检验最低层次的拆分,支持的事例数                            性的条件熵、信息熵、信息增益,根据这些数值进一步
                                                                            过少或者支持的概率较低的样本子集 ( 即决策树叶子 )                         计算出属性的信息增益率以便完成决策树的构造。决策
                                                                            将被剔除或者修剪。决策树用样本的属性作为节点,用                            树的各部分是:
                                                                            属性的取值作为分支的树结构,是利用信息论原理对大                                根:数据训练集;
                                                                            量样本的属性进行分析和归纳而产生的。信息论中的信                                枝:分类的判定条件;


 PB...                                                                                                                                                                    ...97
   185   186   187   188   189   190   191   192   193   194   195