大数据挖掘与应用_王振武编著_9787302460435

大数据挖掘与应用

定价：¥49.5

中教价：¥38.12 (7.70折）

库存数： 0

作者：王振武编著
出版时间：2017/6/1
ISBN：9787302460435
出版社：清华大学出版社

中图法分类：TP274
页码：368
纸张：胶版纸
版次：1
开本：16K
商品库位：

购买数量：

内容简介
编辑推荐
序言
目录
文摘

     本教材对大数据挖掘的基本技术进行了介绍, 内容涵盖大数据简介、数据预处理技术、关联规则挖掘、KNN分类算法、逻辑回归分类方法、随机森林分类算法、朴素贝叶斯分类算法、支持向量机分类算法、K均值聚类算法、K-modes聚类算法、DBSCAN聚类算法等基本理论的介绍, 在介绍基本理论的同时通过举例说明算法的原理, 并以阿里云大数据平台为依托进行应用介绍, 教材最后以综合应用的形式介绍数据挖掘的热点应用。

　　（1）教育部-阿里云产学合作专业综合改革项目规划教材

　　（2）对大数据挖掘与应用的基本算法进行了系统的介绍。

　　（3）每种算法不仅包括对算法基本原理的介绍，而且配有大量例题以及基于阿里云数加平台的演示。

　　（4）理论与实践相结合的方式极大地方便了读者对抽象的数据挖掘算法的理解和掌握。

　　（5）内容覆盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法以及常见的数据挖掘应用。

　　大数据泛指大规模、超大规模数据集，因可从中挖掘出有价值的信息而备受关注。数据挖掘是一个涉及数据库技术、人工智能、统计学、机器学习等多个学科的领域，并且已经在各行各业有着非常广泛的应用。为适应我国数据挖掘的教学工作，笔者在数据挖掘教学实践的基础上，参阅了多种国内外*新版本的教材，编写了本书。本书可以作为高等院校研究

　　生的教材，也可以为相关行业的工程技术人员提供有益的参考。

　　本书是教育部阿里云产学合作项目，在内容安排上循序渐进，对大数据挖掘的基本算法进行详细的讲解。本书的*大特点是理论与实践相结合，算法理论与产业一线实践相结合，全书几乎所有的算法都配有实例和基于阿里云数加平台的演示。这种理论与实践相结合的方法克服了重理论、轻实践的内容组织方式，极大地方便了读者的理解。具体而言，本书17章内容之间的关系如下图所示。

　　本书提供教学课件，读者可从www.tup.com.cn网站自行下载。由于编者水平有限，本书必定存在不妥和不足之处，恳请专家和读者批评指正。

　　编者

　　2017年3月

*篇基础篇

第1章大数据简介

1.1大数据

1.1.1大数据的定义

1.1.2大数据的特点

1.1.3大数据处理的挑战

1.2大数据挖掘

1.2.1大数据挖掘的定义

1.2.2大数据挖掘的特点

1.3大数据挖掘的相关方法

1.3.1数据预处理技术

1.3.2关联规则挖掘

1.3.3分类

1.3.4聚类

1.3.5孤立点挖掘

1.3.6演变分析

1.3.7特异群组分析

1.4大数据挖掘类型

1.4.1Web数据挖掘

1.4.2空间数据挖掘

1.4.3流数据挖掘

1.5大数据挖掘的常见应用

1.5.1社交网络分析

1.5.2文本分析

1.5.3推荐系统

1.6常用的大数据统计分析方法

1.6.1百分位

1.6.2皮尔森相关系数

1.6.3直方图

1.6.4T检验

1.6.5卡方检验

1.7常用的大数据挖掘评估方法

1.8大数据平台相关技术

1.8.1分布式存储技术

1.8.2分布式任务调度技术

1.8.3并行计算技术

1.8.4其他技术

1.9大数据平台实例——阿里云数加平台

1.9.1数加平台简介

1.9.2数加平台产品简介

1.9.3数加平台优势特色

1.9.4机器学习平台简介

1.9.5机器学习平台功能

1.9.6机器学习平台操作流程

1.10小结

思考题

第二篇技术篇

第2章数据预处理技术

2.1数据预处理的目的

2.2数据采样

2.2.1加权采样

2.2.2随机采样

2.2.3分层采样

2.3数据清理

2.3.1填充缺失值

2.3.2光滑噪声数据

2.3.3数据清理过程

2.4数据集成

2.4.1数据集成简介

2.4.2常用数据集成方法

2.5数据变换

2.5.1数据变换简介

2.5.2数据规范化

2.6数据归约

2.6.1数据立方体聚集

2.6.2维归约

2.6.3数据压缩

2.6.4数值归约

2.6.5数据离散化与概念分层

2.7特征选择

2.7.1特征选择简介

2.7.2Relief算法

2.7.3Fisher判别法

2.7.4基于GBDT的过滤式特征选择

2.8特征提取

　　第3章

　　关联规则挖掘

　　3.1基本概念

　　关联规则挖掘是用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属性之间存在关联，那么其中一项的属性就可以依据其他属性值进行预测，关联规则挖掘是数据挖掘中的一个重要课题，*近几年已被业界深入研究和广泛应用。

　　关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

　　关联规则挖掘问题可以分为两个子问题：*步是找出事务数据库中所有大于等于用户指定的*小支持度的数据项集；第二步是利用频繁项集生成所需要的关联规则，根据用户设定的*小置信度进行取舍，*后得到强关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心，关联规则的基本描述如下。

　　1.项与项集

　　数据库中不可分割的*小单位信息称为项（或项目），用符号i表示，项的集合称为项集。设集合I={i1,i2,…,ik}是项集，I中项目的个数为k，则集合I称为k项集。例如，集合{啤酒，尿布，奶粉}是一个3项集。

　　2.事务

　　设I={i1,i2,…,ik}是由数据库中所有项目构成的集合，事务数据库T={t1,t2,…,tn}是由一系列具有唯一标识的事务组成。每一个事务ti(i=1,2,…,n）包含的项集都是I的子集。例如，如果顾客在商场里同一次购买多种商品，这些购物信息在数据库中有一个唯一的标识，用以标识这些商品是同一顾客同一次购买的，则称该用户的本次购物活动对应一个数据库事务。

　　3.项集的频数（支持度计数）

　　包括项集的事务数称为项集的频数（支持度计数）。

　　4.关联规则

　　关联规则是形如XY的蕴含式，其中X、Y分别是I的真子集，并且X∩Y=。X称为规则的前提，Y称为规则的结果。关联规则反映X中的项目出现时，Y中的项目也跟着出现的规律。

　　5.关联规则的支持度（support）

　　关联规则的支持度是交易集中同时包含X和Y的交易数与所有交易数之比，它反映了X和Y中所含的项在事务集中同时出现的频率，记为support（XY），即

　　support(XY)=support(X∪Y)=P(XY)(31)

　　6.关联规则的置信度（confidence）

　　关联规则的置信度是交易集中同时包含X和Y的交易数与包含X的交易数之比，记为confidence（XY），置信度反映了包含X的事务中出现Y的条件概率。

　　confidence（XY）=support(X∪Y)support(X)=P(Y|X)(32)

　　7.*小支持度与*小置信度

　　通常用户为了达到一定的要求，需要指定规则必须满足的支持度和置信度阈限值，此两个值称为*小支持度阈值(min_sup)和*小置信度阈值(min_conf)。其中，min_sup描述了关联规则的*低重要程度，min_conf规定了关联规则必须满足的*低可靠性。

　　8.强关联规则

　　如果support（XY）≥min_sup且confidence(XY)≥min_conf，则称关联规则

　　XY为强关联规则；否则，称XY为弱关联规则。通常所说的关联规则一般是指强关联规则。

　　9.频繁项集

　　设UI，项目集U在数据集T上的支持度是包含U的事务在T中所占比例，即

　　support(U）=‖{t∈T|Ut}‖‖T‖（33）

　　式中，‖·‖表示集合中元素数目。对项目集I，在事务数据库T中所有满足用户指定的*小支持度的项目集，即不小于min_sup的I的非空子集，称为频繁项目集或大项目集。

　　10.项目集空间理论

　　Agrawal等建立了用于事务数据库挖掘的项目集空间理论，理论的核心为：频繁项目集的子集仍是频繁项目集，非频繁项目集的超集是非频繁项目集。

　　3.2关联规则挖掘算法——Apriori算法原理

　　3.2.1Apriori算法原理解析

　　*著名的关联规则发现方法是R.Agrawal提出的Apriori算法。

　　1.Apriori算法基本思想

　　Apriori算法基本思想是通过对数据库的多次扫描计算项集的支持度，发现所有的频繁项集，从而生成关联规则。Apriori算法对数据集进行多次扫描。*次扫描得到频繁1项集的集合L1，第k（k>1）次扫描首先利用第k-l次扫描的结果Lk-1产生候选k项集的集合Ck，然后在扫描的过程中确定Ck中元素的支持度，*后在每一次扫描结束时计算频繁k项集的集合Lk，算法当候选k项集的集合Ck为空时结束。

　　2.Apriori算法产生频繁项集的过程

　　产生频繁项集的过程主要分为连接和剪枝两步，如下所示。

　　（1）连接步。为了找Lk(k≥2），通过Lk-1与自身作连接产生候选k项集的集合Ck，设l1和l2是Lk-1中的项集，记li［j］表示li的第j个项。Apriori算法假定事务或项集中的项按字典次序排序，对于（k-1）项集li，对应的项排序为：li1

　　3.Apriori算法的主要步骤

　　（1）扫描全部数据，产生候选1项集的集合C1。

　　（2）根据*小支持度，由候选1项集的集合C1产生频繁1项集的集合L1。

　　（3）对k>1，重复执行步骤（4）、（5）和（6）。

　　（4）由Lk执行连接和剪枝操作，产生候选（k+l）项集的集合Ck+1。

　　（5）根据*小支持度，由候选（k+l）项集的集合Ck+1，产生频繁（k+1）项集的集合Lk+1。

　　（6）若L≠，则k=k+1，跳往步骤（4）；否则，跳往步骤（7）。

　　（7）根据*小置信度，由频繁项集产生强关联规则，结束。

　　4.Apriori算法描述

　　输入：数据库D，*小支持度阀值min_sup。

　　输出：D中的频繁集L。

　　伪代码描述：

　　//找出频繁1项集

　　L1=find_frequent_1-itemsets(D);

　　For(k=2;Lk-1!=null;k++){

　　//产生候选，并剪枝

　　Ck=apriori_gen(Lk-1);

　　//扫描D进行候选计数

　　Foreach事务tinD{

　　Ct=subset(Ck,t);//得到t的子集

　　Foreach候选c属于Ct

　　c.count++;

　　}

……

你还可能感兴趣

数据安全：护航数字经济，筑牢信息安全防线
数据要素估值(新时代数字经济系列教材)
数据驱动的个性化需求预测理论与方法
Hadoop大数据开发技术
数据资产

我要评论

您的姓名	验证码：
留言内容