《数据挖掘中的集成方法:通过集成预测来提升精度》讨论基于决策树的集成,分析被视为当前现代集成算法高级性能的主要原因之一的正则化问题,描述集成方法领域近年来的两个发展——重要性采样(IS)和规则集成(RE),论述新数据信息集成在复杂性和更高精度方面的悖论等重要命题。《数据挖掘中的集成方法:通过集成预测来提升精度》面向前沿、文字简练、论述充分、可读性好。
Giovanni Seni,Seni是Elder Research公司的资深科学家,负责该公司的西部办公室。作为硅谷活跃的数据挖掘领域的践行者,他在统计模式识别、数据挖掘及人机交互应用领域具有逾1 5年的研发经历。他既是大企业的技术人员,又是一些小规模企业的贡献者。他拥有五项美国专利,发表了20余篇学术论文。
Seni是圣塔克拉拉大学计算机工程系兼职教师,教授“模式识别与数据挖掘导论”课程。
他于1989年在洛斯安第斯大学(波哥大,哥伦比亚)获得计算机工程学士学位,1995年在纽约州立大学布法罗分校获得计算机博士学位,是该校富布莱特学者。他还在斯坦福大学统计系获得数据挖掘及应用证书。
John Elder,Elder博士就职于Charlottesville,Virginia,Washington DC和Mountain View,California的数据挖掘咨询组。艾德研究公司成立于1995年,聚焦于联邦、商业、投资、安全领域的高级分析,包括文本挖掘、股票选择、图像识别、生物信息学、过程优化、交叉销售、药物功效、信用评分、风险管理和赝伪检测。ERI公司已成为最大、最有经验的数据挖掘咨询企业。
Elder于莱斯大学获得电气工程学士学位和电子电气硕士学位,在弗吉尼亚大学获得系统工程专业博士学位,他是该校数据挖掘课程的兼职教授。在赴ERI的前15年,他在航空国防咨询界工作了5年,在一家投资管理公司任职4年,在莱斯大学计算与应用数学系任职2年。
Elder博士开发了创新性的数据挖掘工具,他本人是一位著名的特约报告人,也是在巴黎召开的“2009 Knowledge Discovery and Data Mining”会议的共同主席。他在许多大学、公司和政府实验室教授的分析技术课程以明晰性和有效性著称。Elder在一个由总统任命的委员会服务了5年——为国家安全作技术指导。他与Bob Nisbet、Gary Miner合著的面向实际工作者的获奖书籍——《统计分析与数据控据应用手册》于2009年5月出版。
译者序
原书序一
原书序二
摘要
第1章 集成发现
1.1 建立集成
1.2 正则化
1.3 现实世界中的实例:信用评分+网飞挑战
1.4 本书的组织架构
第2章 预测学习和决策树
2.1 决策树归纳纵览
2.2 决策树的性能
2.3 决策树的缺陷
第3章 模型复杂度?模型选择和正则化
3.1 什么是树的“合适”规模
3.2 偏差-方差分解
3.3 正则化
3.3.1 正则化与成本-复杂度树修剪
3.3.2 交叉验证
3.3.3 运用收缩的正则化
3.3.4 通过构建增量模型的正则化
3.3.5 实例
3.3.6 正则化综述
第4章 重要性采样和经典集成方法
4.1 重要性采样
4.1.1 参数重要性测度
4.1.2 扰动采样
4.2 泛化集成生成
4.3 Bagging
4.3.1 实例
4.3.2 为什么Bagging有用
4.4 随机森林
4.5 AdaBoost
4.5.1 实例
4.5.2 为什么使用指数损失
4.5.3 AdaBoost的总体最小值
4.6 梯度Boosting
4.7 MART
4.8 并行集成与顺序集成的比较
第5章 规则集成和解释统计
5.1 规则集成
5.2 解释
5.2.1 仿真数据实例
5.2.2 变量重要性
5.2.3 偏相关
5.2.4 交互统计
5.3 制造业数据实例
5.4 总结
第6章 集成复杂性
6.1 复杂性
6.2 广义自由度
6.3 实例:带有噪声的决策树表面
6.4 广义自由度的R代码和实例
6.5 总结与讨论
参考文献
附录A AdaBoost与FSF程序的等价性
附录B 梯度Boosting和鲁棒损失函数
《数据挖掘中的集成方法:通过集成预测来提升精度》:
第1章 集成发现
And in a multitude of counselors there is safety Proverbs24:6b
从数据中归纳模型,可找到大量经典方法,而且其处理能力各具特色,流行算法的精度依赖所处理问题的细节,如图1.1所示(Elder和Lee(1997)),该图揭示了五种算法用于六个公共领域问题的样本外相对误差,总体来说,神经网络模型对这些问题表现最优,但需指出,每种算法都在六个数据集中的至少两个上表现最优或次优。图1.1五种算法用于六个公共领域问题的非样本外相对误差(基于Elder和Lee(1997))
对于给定问题哪种算法表现优异?Michie等(1994)对该问题展开了研究,他们开展了与前述问题相似但更多的工作——23种算法用于22个数据集,并且基于给定的数据集性能构建决策树来预测最优算法,虽然该研究侧重于树——在23个算法中占9个,而且几个数据集对树易产生不可控阈值但仍然为算法选择提供了有益指导。然而,还有一种提高模型精度的方式比选择单一模型更容易且效果更显著:将诸模型集成,图1.2展示了图1.1中模型以四种不同方式集成的非样本精度,这些集成方式包括平均法,投票法和顾问感知器(Elder和Lee,1997),对于每个问题,顾问感知器集成技术都优于简单的平均法,而与集成和单一模型相比,其差别很小,这里每种集成方法都比单一算法更有效。图1.2四种集成方法在图1.1问题上的非样本相对误差(基于Elder和Lee(1997))