《复杂数据分析方法及其应用研究》主要从数据挖掘与商务智能的角度,系统地介绍了如何利用复杂数据分析的相关理论和方法来提升复杂事件的识别和预测的效果,同时还结合实际应用问题说明了复杂数据分析的应用过程。主要内容包括复杂数据分析方法综述、基于局部支持向量数据描述的复杂数据分析算法研究、类重叠问题及其处理方法研究、一致性分类方法研究和复杂概念分析应用研究等。
《复杂数据分析方法及其应用研究》可供从事数据挖掘与商务智能研究和应用的科研人员及高等院校信息管理与信息系统专业、管理科学与工程等相关专业师生参考使用。
复杂事件如金融欺诈、网络入侵、设备故障等是各类组织长期关注的管理难题,其突发性和破坏性可能给组织带来难以估量的损失。在实践需求的推动下,复杂数据分析研究迅速成为数据挖掘领域的热点问题,并广泛应用于网络入侵检测、C2C电子商务共谋欺诈识别等实践问题。现有的复杂数据分析方法往往将问题局限在数据表面特征问题上,忽略了数据的固有结构特点,只能在一定程度上解决复杂数据分析问题,当将其应用于复杂结构数据,或者称为数据中的复杂概念时,往往效果欠佳。
本书的目的是期望对复杂数据分析的方法及其应用等进行系统研究。全书共分6章,内容安排如下:
第1章对复杂数据分析的背景知识和相关研究分析方法进行了介绍,分别从类不均衡问题、类重叠问题和集成学习问题三个角度进行了阐述。同时还对本书采用的研究方法、研究内容和结构进行了说明。第2章对相关方法进行了综述,主要包括复杂数据分析的理论研究、算法研究和评价指标研究。第3章介绍了基于局部支持向量数据描述的复杂数据分析方法,针对每个类别的样本进行单类学习获得单类模型,然后利用单类模型确定类重叠区域,并针对类重叠区域进行局部单类学习,最后优化综合分类模型,从而获得对数据边界描述更加精确的模型,提高复杂数据分析精度。第4章系统地研究了分类中的类重叠问题,讨论类重叠问题及其处理方法研究,提出了四种类重叠学习算法,分别是舍弃法、合并法、层次法和分隔法。第5章主要介绍了一致性分类方法,在AdaBoost的基础上提出一种基于局部聚类的组合复杂数据分析方法,通过局部聚类将数据转换成较为均衡的形式,然后通过改进权重更新机制的Ada-Boost算法进行学习。讨论了知识地图的相关概念和知识地图在知识检索中的应用等内容。第6章则以实际应用为背景,对复杂数据分析方法的应用进行了研究,利用实际的网络入侵检测和C2C电子商务共谋欺诈数据集对复杂数据分析方法的应用过程进行了介绍。最后对本书介绍的复杂数据分析方法及其应用研究进行了系统的归纳总结。
第一章 绪论
1.1 背景介绍
1.1.1 类不均衡问题
1.1.2 类重叠问题
1.1.3 集成学习问题
1.2 相关研究分析
1.2.1 复杂数据研究分析
1.2.2 类重叠问题研究分析
1.2.3 集成学习研究分析
1.3 研究意义与目的
1.4 研究方法与研究内容
1.4.1 研究方法
1.4.2 研究内容与本书结构
第二章 相关研究综述
2.1 复杂数据分析的理论研究
2.2 复杂数据分析的算法研究
2.2.1 重抽样
2.2.2 成本敏感学习
2.2.3 集成学习方法
2.2.4 划分方法
2.2.5 调整归纳偏置
2.2.6 单类学习
2.2.7 特征选择方法
2.2.8 其他方法
2.3 复杂数据分析的评价指标研究
2.3.1 点指标
2.3.2 图指标
2.4 本章小结
第三章 基于局部支持向量数据描述的复杂数据分析算法研究
3.1 引言
3.2 数据固有结构对复杂数据分析算法的影响
3.3 支持向量数据描述的原理及算法
3.4 基于局部支持向量数据描述的复杂数据分析算法
3.5 本章小结
第四章 类重叠问题及其处理方法研究
4.1 引言
4.2 基本分类算法介绍
4.2.1 朴素贝叶斯(NB)
4.2.2 K最近邻法(k-NN)
4.2.3 支持向量机(SVMs)
4.2.4 决策树C4.5
4.2.5 规则分类器(RIPPER)
4.3 类重叠问题对分类的影响
4.4 类重叠学习框架
4.4.1 SVDD:重叠区域识别方法
4.4.2 NB:重叠区域识别方法
4.4.3 类重叠问题的处理算法
4.5 基于SVMs的分析
……
第五章 一致性分类方法研究
第六章 复杂数据分析应用研究
结论
参考文献