本书以客户生命周期管理为主线,结合翔实的案例介绍具含金量的数据挖掘与建模方法,每个案例既自成体系又前后呼应。第1章介绍数据挖掘在客户生命周期管理中的应用,对如何构建客户标签体系和客户画像做了详细介绍。第2章结合一个市场研究案例,介绍完整的客户洞察分析过程,对对应分析、偏好分析、联合分析等简单好用的客户研究方法做了完美阐释。第3章结合信用卡客户细分介绍完整的聚类过程,除快速、系统、两步聚类算法外,详细介绍实际分析过程中必不可少的数据预处理过程。第4章结合信用卡客户精准营销案例,介绍营销响应模型的构建、评估与应用,完整阐述模型的整个生命周期。第5章结合信用卡客户流失预警与挽留案例,介绍客户价值(数值)预测与流失倾向(事件)预测两类问题的建模过程及组合应用。第6章结合信用卡客户反欺诈案例,介绍目前常用的反欺诈方法,以及机器学习中集成算法的典范——随机森林。
大数据的浪潮正渐渐平静,整个行业已逐渐趋于成熟和理性。喧嚣与嘈杂渐远之时,才能更清晰地透过表象,看清事情的本质。大数据需要精挖掘,好客户需要勤耕耘,再好的故事,再炫的包装,再酷的产品,分析基础还是以CRISP方法为主流,做好数据采集、清洗、整合、建模、分析、部署与调优;经营基础还是“客户为中心”的市场营销,通过信息对称与否的博弈来驾驭经营风险,再给予风险成本加权计算基础上的损益评价。大数据的世界有时确实没表面上那么“性感”,而是非常“感性”。对于从事大数据相关工作的大多数专业人士,尤其是年轻朋友而言,诗与远方虽可筑梦,但要真正走得长远,还是需要真本领,需要耐着寂寞,翻开书本,撸起袖子,在实践中学习,在学习中实践。
书如其人。陈春宝博士的这本书和他本人一样,不太容易评价。多样、丰富、立体,因此复杂,需要多花些时间去深入细品,才能发现如同一篇好的散文,贵在“形散而神不散”。全书围绕两条主线,一条是金融客户生命周期管理,另外一条是数据挖掘项目和模型的生命周期管理,这两条主线串接起了一个一个独立、完整的实战场景。这样的组织方法使读者学习各篇完整成章时,能按图索骥,实践参考;两条主线也使得知识点跳跃较大,给人点到即止的感觉。因此建议结合其他书籍同步研读,效果会更好。比如,客户关系管理方面的,V.库马尔的《赢得盈利客户》;数据挖掘领域的,本书作者的另一部著作《大数据与机器学习:实践方法与行业案例》。
金融数据的价值密度之高,堪称数据中的黄金。以银行为代表的金融机构对数据的深入挖掘分析与应用,起步不可谓不早,投入不可谓不大,成果不可谓不多,但是在这波风口中,由于内因、外因和低调(网红经济时代,低调可真是“致命”的优点),却常常被怼到了市场边缘,连市面上关于大数据与数据挖掘方面的实战类专业书籍,也大多出自互联网同仁之手。其实银行及各家金融机构藏龙卧虎,不乏像三位作者这样能够洞察业务,兼具丰富实操经验和扎实理论功底的高手。衷心期待陈春宝博士能继续坚持下去,并带动更多金融机构的同仁们积极行动进来,出版更多的,特别是实战类的书籍,共同为大数据时代增添一抹属于金融数据科学家们的别样风采。
Contents?目 录
赞誉
序
前言
第1章 金融数据挖掘与建模应用场景 1
1.1 客户数据挖掘的价值 1
1.2 金融客户生命周期及数据应用场景 3
1.3 最具代表性的数据应用场景 7
第2章 客户获取:信用卡客户欺诈评分案例 8
2.1 案例背景 9
2.2 数据准备与预处理 10
2.2.1 数据源 10
2.2.2 变量设计 11
2.3 构建评分模型 13
2.3.1 算法选择 13
2.3.2 模型训练 14
2.3.3 模型评估 16
2.4 评分模型的应用 19
2.5 小结 20
第3章 客户提升:信用卡客户精准营销案例 21
3.1 案例背景 21
3.2 建模准备 21
3.2.1 准备数据 22
3.2.2 数据预处理 26
3.2.3 过度抽样 27
3.2.4 构造训练集及测试集 30
3.3 数据清洗及变量粗筛 32
3.3.1 连续变量与连续变量之间 33
3.3.2 分类变量和分类变量之间 39
3.3.3 分类变量和连续变量之间 43
3.3.4 数据的错误及缺失值 47
3.3.5 数据离群值 53
3.3.6 重编码 59
3.4 变量压缩与转换变量 61
3.4.1 分类变量的水平数压缩 61
3.4.2 连续变量聚类 65
3.4.3 连续变量的分箱 77
3.4.4 变量的转换 79
3.5 模型训练 80
3.5.1 关于Logistic回归 80
3.5.2 变量筛选方法 81
3.6 模型评估 88
3.6.1 模型估计 88
3.6.2 模型评估 89
3.6.3 调整过度抽样 98
3.6.4 收益矩阵 98
3.6.5 模型转换为打分卡 100
3.7 模型的部署及更新 100
3.7.1 模型的部署 100
3.7.2 模型的监测及更新 101
3.8 本章小结 103
第4章 客户成熟:银行零售客户渠道偏好细分案例 104
4.1 案例背景 104
4.2 聚类分析流程 105
4.3 数据标准化 107
4.3.1 标准化介绍 107
4.3.2 标准化实现 110
4.4 变量聚类 111
4.4.1 变量聚类介绍 111
4.4.2 变量聚类基本步骤 112
4.4.3 SAS实现变量聚类 113
4.5 变量降维与可视化 118
4.5.1 图形化探索 118
4.5.2 主成分分析法降维 120
4.6 ACECLUS预处理过程 123
4.6.1 ACECLUS介绍 123
4.6.2 ACECLUS过程 123
4.6.3 ACECLUS示例 123
4.7 系统聚类分析 128
4.7.1 系统聚类法 128
4.7.2 样本与样本之间的度量 129
4.7.3 距离定义与测量 129
4.7.4 相关系数 131
4.7.5 类与类之间的度量 131
4.7.6 系统聚类法 139
4.7.7 不同系统聚类法之间的比较 140
4.7.8 类个数的确定 158
4.8 快速聚类 159
4.8.1 快速聚类法 159
4.8.2 快速聚类法实现 160
4.8.3 快速聚类法优缺点 161
4.9 两步聚类法 161
4.9.1 两步聚类法 161
4.9.2 两步聚类法实现 161
4.10 本章小结 167
第5章 客户衰退:银行贷款违约预测案例 168
5.1 案例背景 169
5.2 维度分析 170
5.3 建模分析 177
5.4 业务应用 179
5.5 小结 179
第6章 客户挽留:信用卡客户流失管理案例 180
6.1 案例背景 181
6.2 数据准备 182
6.2.1 设定目标变量 182
6.2.2 设定时间窗 183
6.2.3 设计预测变量 184
6.2.4 准备数据宽表 185
6.3 流失倾向预警:用Logistic回归构建响应率模型 186
6.3.1 粗分类 187
6.3.2 计算分组变量的WOE值和IV值 191
6.3.3 共线性检验 194
6.3.4 模型训练:显著性检验 195
6.3.5 模型评估 196
6.4 潜在客户价值预测:两阶段建模法 201
6.4.1 阶段1概率预测 201
6.4.2 阶段2 数值预测 201
6.4.3 模型评估 203
6.5 细分:差异化营销服务的基础 204
6.6 小结 208