Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。全书共分8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核上的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读,还适合于所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。
本书适合:
大数据技术初学者阅读;
作为高等院校计算机相关专业的研究生学习参考资料;
所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。
随着电子信息、物联网等产业的高速发展,智能手机、平板电脑、可穿戴设备与物联网设备已经渗入到现代化生产与生活的各个方面,每时每刻产生着大量的数据,当今社会已经进入数据爆炸的时代。各领域中的相关数据不仅量大,而且种类繁多、变化速度快、价值密度低。这些日益凸显的大数据特征在全球范围内掀起了一场全新的思维、技术与商业变革,无论是产业界还是学术界都在持续加大在大数据技术和相关领域中的投入。中国制造2025战略规划和互联网 概念的提出再次为国内大数据技术的发展注入了强劲的动力,大数据技术已被提升到了前所未有的高度,预示了其未来广阔的发展空间与应用前景。
在大数据背景下,各领域对数据相关服务的需求不断提升,迫切需要一种高效通用的大数据处理引擎。相对于第一代大数据生态系统Hadoop中的MapReduce,Spark是一种基于内存的、分布式的大数据处理引擎,其计算速度更快,更加适合处理具有较多迭代次数的问题;Spark中还提供了丰富的API,使其具有极强的易用性;与此同时,Spark实现了一栈式的大数据解决方案,即在Spark内核基础上提出了Spark GraphX、Spark Streaming、Spark MLlib、Spark SQL等组件,使其不仅能够对海量数据进行批处理,同时还具备流式计算、海量数据交互式查询等功能,可以满足包括教育、电信、医疗、金融、电商、政府、智慧城市和安全等诸多领域中的大数据应用需求。
Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。
本书主要针对大数据技术初学者,着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析,以便读者能够尽快了解Spark。
全书共分为8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。
? 第1章:Spark导论。概述Spark的发展背景与起源,对比MapReduce介绍了Spark的特征、原理与应用场景等。
? 第2章:Spark集群部署。该章详细介绍了Ubuntu下Spark集群的部署过程与注意事项,首先利用VMware Workstation搭建Hadoop分布式集群;然后在集群中安装Scala;最后搭建Standalone模式的Spark集群。
? 第3章:RDD编程。该章对Spark中的弹性分布式数据集(Resilient Distributed Dataset RDD)这一核心概念进行了详细介绍,重点讲解了与之相关的定义、特征及其操作,并附以相应的示例与解析。
? 第4章:Spark调度管理与应用程序开发。该章阐述了Spark底层的工作机制,介绍了Spark应用程序从产生作业到最终计算任务的整个流程;基于IntelliJ IDEA讲解了Spark应用程序的开发过程,并介绍了如何在本地与集群模式下提交运行Spark应用程序。
? 第5章:GraphX。该章介绍了GraphX的基本原理,着重讲解了GraphX中弹性分布式属性图的定义、表示模型、存储方式以及其上的丰富操作;以经典的PageRank与三角形计数等图计算算法为例,讲解了GraphX中相关接口的使用方法。
? 第6章:Spark SQL。该章包含了Spark
SQL概述、SQL语句的处理流程、DataFrame数据模型的概念与相关操作等;并将Spark SQL与Hive相结合,给出了一个学生信息管理系统的设计与实现。
? 第7章:Spark Streaming。该章介绍了Spark Streaming的发展与应用场景以及批处理时间间隔、窗口间隔、滑动间隔等核心概念;着重讲解了DStream数据模型的概念与相关操作;针对不同应用场景下的流式计算需求,给出了有状态与无状态模式下的Spark Streaming应用案例与解析。
? 第8章:Spark MLlib。该章介绍了Spark
MLlib中向量、LabeledPoint、矩阵等核心数据类型的定义与使用;详细介绍了机器学习中分类、回归、聚类、协同过滤等经典算法的Spark实现与应用,并附以相应的案例与解析。
由于时间短,加之笔者水平有限,书中难免有疏漏之处,敬请读者朋友批评指正。
编 者
2017年5月
经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新CDA数据分析师品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。CDA数据分析师队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。