Page 190 - 数码世界6月整本
P. 190
技术交流
数据挖掘在通信行业精确营销中的应用
师江波
摘要:针对传统通信行业数据业务营销模式中存在的普遍撒网的缺点,提出利用数据挖掘中的决策树算法对数据业务的潜在客户进行分类,
预测什么类型的人可能开通数据业务、什么类型的人开通数据业务的可能性低,并且在实际的环境中进行追踪检验。实际的实验以数据
业务中的彩铃业务为例,结果表明,数据挖掘中的决策树算法能将预测准确率保持在较高的自然准确率,反映出其在真实的环境中运行
是可行的、有效的,提高了通信行业数据业务精确营销的客户响应率,在实际的营销环境中具有积极的意义。
随着 4G 时代的来临,通信行业即将获得更广阔的 息熵 H(U):信息量的数学期望,是信源发出信息前的平
发展空间和潜力,在实际的生产运营过程中,数据业务 均不确定性,也称先验熵。
收入已经逐渐跃居收入第二,仅次于语音收入,因此数
2 彩铃客户预测
据业务得到了运营商越来越多的关注,而数据业务的营
销依然停留在传统的营销方式,如通过调查资料、客服 利用决策树算法,将彩铃客户消费属性和客户背景
外呼营销等方式,属于一种普遍撒网式的营销,这种营 属性一起作为决策树的输入属性,将彩铃用户和非彩铃
销方式成本高,周期长,客户真正的响应率低。 用户按照某种比例组合作为预测的训练数据。决策树算
用户对数据业务的使用都或多或少的与用户消费行 法是一种“有指导”的归纳学习,通过大量数据的学习
为以及用户背景信息有关联,而数据挖掘技术就可以找 归纳出预测规则集,即我们要研究的问题是:什么样的
到这种联系,发现其中的规律。由此本文以彩铃为例, 人可能是潜在的彩铃客户,而什么样的人可能不是潜在
利用决策树算法对该数据业务的精确营销进行指导,通 的彩铃客户。
过挖掘当前彩铃用户特征,即具有什么行为特点的人可 2.1 输入属性
能会开通彩铃,进而锁定彩铃营销的潜在客户群,再对 决策树的输入属性由两部分组成,一部分是对彩铃
预测名单内的用户进行主动营销,降低了营销成本,提 消费产生较大影响的客户消费行为属性,如:区内时长、
高了营销的响应率。 区间时长、国内普通长途时长、国内 IP 长途时长等;
1 相关知识 另一部分是客户基本信息,包括年龄、性别、套餐、是
否市区等。将两部分信息整合在一起作为彩铃预测的输
决策树很擅长处理非数值型数据,免去了很多数据
入属性,属性列表如表 1( 表中简列出部分属性 ) 所示,
预处理工作。常用的算法有 CHAID、CA R T、Quest 和
其中“是否彩铃用户”,是输出属性,即预测的目标属
C5.0,本文采用目前较成熟的 C5.0 算法。C5.0 是经典
性值。
的决策树算法,相比 CA R T 树只能生成二叉树来说,
2.2 训练集
C5.0 算法可生成多分支的决策树,目标变量即为分类
变量,最后可以生成树状图或者规则集。C5.0 根据能够 从彩铃目标客户中随机抽取其中 3545 名客户进行
带来最大信息增益的字段拆分样本,第一次拆分确定的 分析,再在非彩铃用户中随机抽取 9 倍的数据共同组成
样本子集随后再次拆分,通常是根据另一个字段进行拆 数据训练集,总共有 35450 个用户。
分,其中数值型字段被划分成区间,字符型字段被组织 数据预处理是指数据训练集通过汇总变换等方法处
成集合,这一过程重复进行直到样本子集不能再被拆分 理成满足属性列表的所需信息;预处理后,计算所有属
为止。最后,重新检验最低层次的拆分,支持的事例数 性的条件熵、信息熵、信息增益,根据这些数值进一步
过少或者支持的概率较低的样本子集 ( 即决策树叶子 ) 计算出属性的信息增益率以便完成决策树的构造。决策
将被剔除或者修剪。决策树用样本的属性作为节点,用 树的各部分是:
属性的取值作为分支的树结构,是利用信息论原理对大 根:数据训练集;
量样本的属性进行分析和归纳而产生的。信息论中的信 枝:分类的判定条件;
PB... ...97