本书介绍数据挖掘的基本技术和相应的算法,突出案例的示范作用,并用R语言实现.旨在紧扣重大科技突破和新兴市场对大数据分析的需求,从高维海量数据中挖掘有用的信息,形成可运行的智能算法,解决实际问题,给业界带来实际的丰厚回报,不断拓展新的产业领域,延伸产业链条,形成集群发展、多点支撑的战略性新兴产业发展格局.
全书共9章,分别介绍了R语言基础、关联规则的挖掘、感知机、朴素贝叶斯算法、K近邻法、决策树、支持向量机、提升算法和隐马尔可夫模型.本书为专业学位研究生所编写,也可以作为统计、金融数学、计算机科学和计算机软件专业的本科生教材,还可以作为零基础读者的自学教材.各章自成体系,读者可以从头逐章学习,也可随意挑选自己所需要的章节学习.
前言
随着信息技术的革命性发展,人类社会已经进入了大数据时代,未来各行业
的核心竞争力在很大程度上依赖于将数据转化为信息和知识的速度和能力,
这取决于数据挖掘的应用水平.数据挖掘可以解决众多国家重大需求问题,提
供了社会科学的方法论;
实现基于数据的决策,支持管理科学与实践的革命
;
提供科学研究的新范式,支持基于数据的科学发现;
形成高新科技的新
领域,推动行业深化发展并形成大数据产业;
形成社会进步的新引擎,深刻
改变人们的思维、生产、生活方式,推动社会的进步.任何地区或国家要想获
得竞争优势,数据挖掘技术是一个极具战略价值的领域.
数据挖掘的核心是从高维、海量的大数据中提取有用的信息,解决实际问题
,给业界带来实际的丰厚回报.这一事实使得数据挖掘非常适合于今天的大数
据时代.如果没有数据挖掘,要跟上海量信息数据流的步伐几乎是不可能的.
对数据的探索、分析、预测成为数据挖掘领域的热门技能之一.也许你阅读电
子邮件时,垃圾邮件可能已被某个数据挖掘算法(很可能是贝叶斯算法)过
滤掉了;
在网页上浏览时,可能会看到一些由数据挖掘算法预测出吸引你的
广告;
在申请贷款或信用卡时,申请的批准与否取决于数据挖掘算法的输出
结果;
有人盗取了你的信用卡,发卡银行希望当此卡被用于欺诈消费时他们
部署的数据挖掘算法能够识别出该类偷盗消费.
鉴于R语言本身是一款十分优秀的数据挖掘和数据可视化共享软件,提供了一
套功能强大且易于学习的工具,是一个跨平台、零成本的数据挖掘编程环境
,还包括大量用于数据挖掘的添加包.这些工具可以帮助你发现数据背后隐藏
的信息,应用到自己的研究项目中.
本书以数据挖掘算法为主线,突出案例教学,算法采用R语言来实现,重在培
养读者解决实际问题的能力,提升其职业能力.脉络清晰,各章自成体系,读
者可以从头逐章学习,也可随意挑选自己所需要的章节内容学习.
本书的撰写是易正俊教授在援疆期间联合伊犁师范学院(辛巧)、石河子大
学(阳红英)和新疆农业大学(黄华)共同完成的.另外,参加本书编写工作
的还有易校石、曾杰和谢恒悦三位研究生,没有他们的支持和讨论,写作本
书是根本不可能的,是他们与我们一起努力,最终为读者带来了具有丰富案
例的这本数据挖掘教材.
由于编者水平有限,书中难免有错,敬请读者批评指正.
作者2017年12月