内 容 简 介本书是一本面向商业数据挖掘建模分析人员的教材,从具体的商业数据分析案例入手,帮助读者掌握数据挖掘的目的、方法、工具与分析步骤。本书所采用的分析工具为目前颇受好评的IBM SPSS Modeler及开源软件Weka。IBM SPSS Modeler有很好的用户接口,也有不错的分析功能,但缺乏比较前沿的分析模块,以及很难与现有的信息系统结合,而Weka恰能弥补其缺憾。同时,这两个软件都不需要编程,适合初学者。本书具体内容由四位活跃在数据挖掘教学和项目开发一线的人员完成,内容侧重软件的实际操作。力图将复杂的技术以浅显的方式进行解释,尽量避免涉及过多的数学内容。
铭传大学资讯工程学系教授兼系主任暨研究所所长铭传大学大数据研究中心主任中华资料采矿协会理事浙江大学城市学院客座教授云南财经大学信息学院客座教授厦门大学数据挖掘中心顾问中国人民大学数据挖掘中心顾问
第1 篇 理论篇
第1 章 数据挖掘简介 ................................................................................... 1
1.1 数据挖掘的起源、定义及目标 ....................................................................................... 2
1.2 数据挖掘的发展历程 ....................................................................................................... 2
1.3 SPSS Modeler 和Weka 基础操作 .................................................................................... 4
1.3.1 SPSS Modeler 软件简介 ....................................................................................... 4
1.3.2 建立一个SPSS Modeler 项目 .............................................................................. 5
1.3.3 Weka 软件环境简介 ............................................................................................. 8
1.3.4 Weka 简单操作实例 ............................................................................................. 9
第2 章 数据挖掘方法论 .............................................................................. 15
2.1 数据挖掘方法论 ............................................................................................................. 16
2.1.1 CRISP-DM .......................................................................................................... 16
2.1.2 SEMMA .............................................................................................................. 16
2.2 数据库中的知识挖掘步骤 ............................................................................................. 17
2.2.1 字段选择 ............................................................................................................. 17
2.2.2 数据清洗 ............................................................................................................. 18
2.2.3 字段扩充 ............................................................................................................. 18
2.2.4 数据编码 ............................................................................................................. 19
2.2.5 数据挖掘 ............................................................................................................. 20
2.2.6 结果呈现 ............................................................................................................. 21
2.3 案例:运用SPSS Modeler 和Weka 做客户的信用风险评分模型 ............................. 22
2.3.1 案例说明 ............................................................................................................. 22
2.3.2 案例实操 ............................................................................................................. 23
2.3.3 运用SPSS Modeler 进行初步的数据挖掘 ........................................................ 28
2.3.4 运用Weka 进行数据汇入 .................................................................................. 34
2.3.5 Weka 自有数据存储格式arff 简介 ................................................................... 36
第3 章 基本的数据挖掘技术 ...................................................................... 38
3.1 描述性统计 ..................................................................................................................... 39
3.1.1 案例:通过数据判断客户是否需要新增电话线路 ......................................... 39
3.1.2 案例:运用描述性统计分析杂志社的客户特征 ............................................. 40
3.2 可视化技术 ..................................................................................................................... 42
3.3 KNN 原理及实例 ........................................................................................................... 44
3.3.1 KNN(K 最近邻)算法 ..................................................................................... 44
3.3.2 使用KNN 算法计算距离 .................................................................................. 45
3.3.3 案例:使用KNN 算法向用户推荐电影 ........................................................... 49
3.4 案例:运用Weka 的KNN 算法对诊断结果进行预测 ..................................................... 52
3.4.1 案例说明 ............................................................................................................. 52
3.4.2 运用Weka 中的IBk 模型进行预测 .................................................................. 53
3.5 案例:运用SPSS Modeler 的KNN 算法预测客户是否接受人寿保险推销 ............. 58
3.5.1 案例说明 ............................................................................................................. 58
3.5.2 案例实操 ............................................................................................................. 59
第4 章 数据挖掘进阶技术 .......................................................................... 68
4.1 数据挖掘的功能分类 ..................................................................................................... 69
4.1.1 描述型数据挖掘(无监督数据挖掘) ............................................................. 69
4.1.2 预测型数据挖掘(有监督数据挖掘) ............................................................. 70
4.2 数据挖掘的绩效增益 ..................................................................................................... 72
4.2.1 数据挖掘模型评估指标:正确率、响应率、查全率、F 值 .......................... 72
4.2.2 数据挖掘模型评估指标:Gain Chart ................................................................ 74
4.2.3 数据挖掘模型评估指标:Lift Chart ................................................................. 75
4.2.4 数据挖掘模型评估指标:Profit Chart .............................................................. 76
4.3 数据挖掘网站 ................................................................................................................. 77
4.3.1 KDnuggets ........................................................................................................... 77
4.3.2 Kaggle ................................................................................................................. 80
4.4 案例:评估新产品的促销活动效果 ............................................................................. 82
4.4.1 案例说明 ............................................................................................................. 83
4.4.2 数据及字段描述 ................................................................................................. 83
4.4.3 效能评估方式 ..................................................................................................... 85
4.4.4 比赛结果排名 ..................................................................................................... 85
第2 篇 准备篇
第5 章 数据预处理 ..................................................................................... 87
5.1 字段选择 ......................................................................................................................... 88
5.1.1 数据整合 ............................................................................................................. 88
5.1.2 数据过滤 ............................................................................................................. 88
5.1.3 案例:运用SPSS Modeler 过滤数据 ................................................................ 89
5.2 数据清洗 ......................................................................................................................... 92
5.2.1 错误值的检测及处理 ......................................................................................... 92
5.2.2 案例:运用SPSS Modeler 进行错误值的检测及处理 .................................... 92
5.2.3 离群值的检测及处理 ......................................................................................... 96
5.2.4 案例:运用SPSS Modeler 进行离群值的检测及处理 .................................... 96
5.2.5 缺失值的检测及处理 ....................................................................................... 100
5.2.6 案例:运用SPSS Modeler 进行缺失值的检测及处理 .................................. 101
5.3 字段扩充 ........................................................................................................................110
5.3.1 案例说明 ............................................................................................................110
5.3.2 案例:运用SPSS Modeler 进行字段扩充及评估对效能的提升 ................... 111
5.4 数据编码 ........................................................................................................................118
5.4.1 数据转换 ............................................................................................................118
5.4.2 数据精简 ........................................................................................................... 128
5.4.3 数据集的切割 ................................................................................................... 129
第6 章 关键变量挖掘技术 ........................................................................ 137
6.1 无效变量 ....................................................................................................................... 138
6.2 统计方式的变量选择 ................................................................................................... 138
6.2.1 卡方检验 ........................................................................................................... 138
6.2.2 方差分析(ANOVA 检验)及t 检验 ............................................................. 138
6.2.3 案例:运用SPSS Modeler 进行关键变量挖掘 .............................................. 139
6.3 模型方式的变量选择 ................................................................................................... 141
6.3.1 决策树 ............................................................................................................... 141
6.3.2 Logistic 回归 ..................................................................................................... 141
第7 章 贝叶斯网络 ................................................................................... 143
7.1 朴素贝叶斯 ................................................................................................................... 144
7.1.1 独立性假设 ....................................................................................................... 145
7.1.2 概率的离散化 ................................................................................................... 147
7.2 什么是贝叶斯网络 ....................................................................................................... 147
第8 章 线性回归 ...................................................................................... 150
8.1 简单线性回归 ............................................................................................................... 151
8.2 多元回归 ....................................................................................................................... 152
8.3 相关系数 ....................................................................................................................... 152
8.4 回归分析案例 ............................................................................................................... 153
8.5 线性回归模型评估 ....................................................................................................... 156
8.5.1 线性回归模型评估指标:MAE、MSE 和RMSE ......................................... 156
8.5.2 线性回归模型评估指标:R2 ........................................................................... 156
8.6 案例:运用SPSS Modeler 建立线性回归模型 .......................................................... 157
8.6.1 案例说明 ........................................................................................................... 157
8.6.2 案例实操 ........................................................................................................... 157
第9 章 决策树 .......................................................................................... 161
9.1 ID3 决策树模型 ............................................................................................................ 162
9.2 ID3 算法........................................................................................................................ 165
9.2.1 ID3 算法的字段选择方式 ................................................................................ 165
9.2.2 使用决策树进行分类 ....................................................................................... 168
9.2.3 决策树与决策规则之间的关系 ....................................................................... 168
9.2.4 ID3 算法的缺点 ................................................................................................ 169
9.3 C5.0 算法 ...................................................................................................................... 170
9.3.1 C5.0 算法的字段选择方式 .............................................................................. 170
9.3.2 C5.0 算法的数值型字段处理方式 .................................................................. 170
9.3.3 C5.0 算法的剪枝方法 ...................................................................................... 172
9.4 CART 算法 ................................................................................................................... 173
9.4.1 分类树与回归树 ............................................................................................... 174
9.4.2 CART 分类树的字段选择方式 ........................................................................ 174
9.4.3 CART 分类树的剪枝作法 ................................................................................ 177
9.5 CHAID 算法 ................................................................................................................. 177
9.6 案例:运用SPSS Modeler 和Weka 建立决策树模型 .................................................. 177
9.6.1 案例说明 ........................................................................................................... 177
9.6.2 案例实操 ........................................................................................................... 178
9.6.3 运用SPSS Modeler 建立交互式分类树模型 .................................................. 179
9.6.4 运用Weka 建立交互式分类树模型 ................................................................ 180
9.7 CART 回归树算法 ....................................................................................................... 186
9.7.1 CART 回归树的字段选择方式 ........................................................................ 186
9.7.2 利用模型树提升CART 回归树的效率 ........................................................... 187
9.8 案例:运用SPSS Modeler 和Weka 建立回归树模型 .................................................. 188
9.8.1 案例说明 ........................................................................................................... 188
9.8.2 案例实操 ........................................................................................................... 188
9.8.3 使用Weka 对比“剪枝”前后的模型 ............................................................ 189
第10 章 神经网络 .................................................................................... 194
10.1 BP 神经网络模型 ....................................................................................................... 195
10.1.1 BP 神经网络模型的概念 ............................................................................. 195
10.1.2 BP 神经网络模型的架构方式 ..................................................................... 195
10.2 神经元的组成 ............................................................................................................. 198
10.3 神经网络模型如何传递信息 ..................................................................................... 199
10.4 修正神经网络模型的权重值及常数项 ..................................................................... 200
10.5 BP 神经网络模型与Logistic 回归、线性回归及非线性回归之间的关系 ............. 201
10.6 案例:运用SPSS Modeler 建立类神经网络模型 .................................................... 202
第11 章 Logistic 回归 ............................................................................... 208
11.1 Logistic 回归与BP 神经网络的关系 ........................................................................ 210
11.2 Logistic 回归的字段选择方式 ....................................................................................211
11.2.1 前向法 ............................................................................................................211
11.2.2 后向法 ........................................................................................................... 212
11.2.3 逐步法 ........................................................................................................... 212
11.3 案例:运用SPSS Modeler 建立Logistic 回归模型 ...................................................... 213
11.3.1 案例说明 ....................................................................................................... 213
11.3.2 案例实操 ....................................................................................................... 213
第12 章 支持向量机 ................................................................................. 215
12.1 数据是线性可分的支持向量机 ................................................................................. 217
12.2 数据是线性不可分的支持向量机 ............................................................................. 219
12.3 案例:运用SPSS Modeler 建立SVM 模型 ............................................................. 221
第3 篇 关系篇
第13 章 聚类分析 .................................................................................... 230
13.1 相似性度量 ................................................................................................................. 232
13.1.1 二元变量的相似性度量 ............................................................................... 232
13.1.2 类别型变量的相似性度量 ........................................................................ 234
13.1.3 数值型变量的相似性度量 ........................................................................... 234
13.2 聚类算法 ..................................................................................................................... 234
13.2.1 互斥聚类与非互斥聚类算法 ....................................................................... 234
13.2.2 分层聚类算法 ............................................................................................... 235
13.2.3 分割式聚类算法 ........................................................................................... 236
13.3 分层聚类算法 ............................................................................................................. 236
13.3.1 单一连接法 ................................................................................................... 236
13.3.2 完全连接法 ................................................................................................... 237
13.3.3 平均连接法 ................................................................................................... 238
13.3.4 中心法 ........................................................................................................... 238
13.3.5 Ward's 法(华德法).................................................................................. 239
13.4 分割式聚类算法 ......................................................................................................... 240
13.4.1 K-Means 算法 ............................................................................................... 240
13.4.2 K-Medoids 算法 ............................................................................................ 243
13.4.3 SOM 算法 ..................................................................................................... 243
13.4.4 两步法 ........................................................................................................... 243
13.5 集群判断 ..................................................................................................................... 244
13.5.1 集群判断方法:R2 ....................................................................................... 244
13.5.2 集群判断方法:半径R2 .............................................................................. 245
13.5.3 集群判断方法:均方根标准差(RMSSTD) ........................................... 245
13.6 案例:运用SPSS Modeler 建立聚类模型 ................................................................ 246
13.6.1 案例说明 ....................................................................................................... 246
13.6.2 案例实操 ....................................................................................................... 246
第14 章 关联规则 .................................................................................... 252
14.1 关联规则的概念 ......................................................................................................... 253
14.2 关联规则的评估指标 ................................................................................................. 253
14.2.1 支持度 ........................................................................................................... 253
14.2.2 置信度 ........................................................................................................... 254
14.3 Apriori 算法 ................................................................................................................ 254
14.3.1 暴力法的问题 ............................................................................................... 254
14.3.2 Apriori 算法的理论基础 .............................................................................. 255
14.4 Apriori 算法实例说明 ................................................................................................ 255
14.4.1 候选项目组合的产生 ................................................................................... 255
14.4.2 候选项目组合的删除 ................................................................................... 256
14.5 再谈评估指标 ............................................................................................................. 256
14.5.1 支持度与置信度的问题 ............................................................................... 256
14.5.2 提升度指标 ................................................................................................... 257
14.6 关联规则的延伸 ......................................................................................................... 257
14.6.1 虚拟商品的加入 ........................................................................................... 257
14.6.2 负向关联规则 ............................................................................................... 257
14.7 案例:运用SPSS Modeler 建立关联规则模型 ........................................................ 258
14.7.1 案例说明 ....................................................................................................... 258
14.7.2 案例实操 ....................................................................................................... 258
第15 章 序列模型 .................................................................................... 263
15.1 序列模型的概念 ......................................................................................................... 264
15.2 案例:运用SPSS Modeler 建立序列模型 ................................................................ 266
15.2.1 案例说明 ....................................................................................................... 266
15.2.2 案例实操 ....................................................................................................... 266