Page 191 - 数码世界6月整本
P. 191

技术交流






 数据挖掘在通信行业精确营销中的应用


 师江波


 摘要:针对传统通信行业数据业务营销模式中存在的普遍撒网的缺点,提出利用数据挖掘中的决策树算法对数据业务的潜在客户进行分类,
 预测什么类型的人可能开通数据业务、什么类型的人开通数据业务的可能性低,并且在实际的环境中进行追踪检验。实际的实验以数据
 业务中的彩铃业务为例,结果表明,数据挖掘中的决策树算法能将预测准确率保持在较高的自然准确率,反映出其在真实的环境中运行
 是可行的、有效的,提高了通信行业数据业务精确营销的客户响应率,在实际的营销环境中具有积极的意义。





 随着 4G 时代的来临,通信行业即将获得更广阔的  息熵 H(U):信息量的数学期望,是信源发出信息前的平
 发展空间和潜力,在实际的生产运营过程中,数据业务  均不确定性,也称先验熵。
 收入已经逐渐跃居收入第二,仅次于语音收入,因此数
     2 彩铃客户预测
 据业务得到了运营商越来越多的关注,而数据业务的营
 销依然停留在传统的营销方式,如通过调查资料、客服  利用决策树算法,将彩铃客户消费属性和客户背景
 外呼营销等方式,属于一种普遍撒网式的营销,这种营  属性一起作为决策树的输入属性,将彩铃用户和非彩铃
 销方式成本高,周期长,客户真正的响应率低。  用户按照某种比例组合作为预测的训练数据。决策树算
 用户对数据业务的使用都或多或少的与用户消费行  法是一种“有指导”的归纳学习,通过大量数据的学习
 为以及用户背景信息有关联,而数据挖掘技术就可以找  归纳出预测规则集,即我们要研究的问题是:什么样的
 到这种联系,发现其中的规律。由此本文以彩铃为例,  人可能是潜在的彩铃客户,而什么样的人可能不是潜在
 利用决策树算法对该数据业务的精确营销进行指导,通  的彩铃客户。
 过挖掘当前彩铃用户特征,即具有什么行为特点的人可  2.1 输入属性
 能会开通彩铃,进而锁定彩铃营销的潜在客户群,再对  决策树的输入属性由两部分组成,一部分是对彩铃
 预测名单内的用户进行主动营销,降低了营销成本,提  消费产生较大影响的客户消费行为属性,如:区内时长、
 高了营销的响应率。  区间时长、国内普通长途时长、国内 IP 长途时长等;
 1 相关知识  另一部分是客户基本信息,包括年龄、性别、套餐、是
     否市区等。将两部分信息整合在一起作为彩铃预测的输
 决策树很擅长处理非数值型数据,免去了很多数据
     入属性,属性列表如表 1( 表中简列出部分属性 ) 所示,
 预处理工作。常用的算法有 CHAID、CA R T、Quest 和
     其中“是否彩铃用户”,是输出属性,即预测的目标属
 C5.0,本文采用目前较成熟的 C5.0 算法。C5.0 是经典
     性值。
 的决策树算法,相比 CA R T 树只能生成二叉树来说,
     2.2 训练集
 C5.0 算法可生成多分支的决策树,目标变量即为分类
 变量,最后可以生成树状图或者规则集。C5.0 根据能够  从彩铃目标客户中随机抽取其中 3545 名客户进行
 带来最大信息增益的字段拆分样本,第一次拆分确定的  分析,再在非彩铃用户中随机抽取 9 倍的数据共同组成
 样本子集随后再次拆分,通常是根据另一个字段进行拆  数据训练集,总共有 35450 个用户。
 分,其中数值型字段被划分成区间,字符型字段被组织  数据预处理是指数据训练集通过汇总变换等方法处
 成集合,这一过程重复进行直到样本子集不能再被拆分  理成满足属性列表的所需信息;预处理后,计算所有属
 为止。最后,重新检验最低层次的拆分,支持的事例数  性的条件熵、信息熵、信息增益,根据这些数值进一步
 过少或者支持的概率较低的样本子集 ( 即决策树叶子 )  计算出属性的信息增益率以便完成决策树的构造。决策
 将被剔除或者修剪。决策树用样本的属性作为节点,用  树的各部分是:
 属性的取值作为分支的树结构,是利用信息论原理对大  根:数据训练集;
 量样本的属性进行分析和归纳而产生的。信息论中的信  枝:分类的判定条件;


 PB...                                         ...97
   186   187   188   189   190   191   192   193   194   195   196