Spark GraphX实战_（美）Michael S. Malak（迈克尔 S. 马拉克）， Robin East（罗宾伊斯特）　著，时金魁　黄光远　译_9787121310430

Spark GraphX实战

定价：¥79

中教价：¥63.20 (8.00折）

库存数： 0

购买数量：

本书是一本Spark GraphX入门书籍。前5章为基础内容，即使读者对Spark、GraphX、Scala不熟悉，也能快速上手；后5章为图计算进阶，主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少，本书在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章，主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控，主要面向生产环境，有不少可以借鉴的技巧。本书面向对图计算感兴趣的读者，旨在帮助读者掌握Spark GraphX的相关知识及其应用。

序言

图（Graph）是什么？图是由边和顶点组成的，不是由坐标轴和刻度构成的。在 Spark中是如何使用图的？这就是本书将要回答的问题。
常常说，图可以做任何事情，或者有很多不同的事情可以用图来实现。当然了，这两种说法等于什么也没说。所以在本书中我们展示了一些具体的、实际的图应用，以及探讨如何用 Spark GraphX实现这些图应用。
本书中有许多专业术语：大数据、 Hadoop、Spark、图、机器学习、 Scala和函数式编程，这些内容本书都会一一讲解。本书会涉及技术的高级部分，但不会涉及编程能力的每个方面，如 Java编程。
下图是 Google在趋势上的统计，展示了这些专业术语在 2016年之前的受欢迎程度。
Big Data
Hadoop
Machine learning
Apache Spark Edges and vertices

2005 2007 2009 2011 2013 2015
注意，通常用 Spark和图作为规范的通用术语，而不是 Apache Spark和 Edges and vertices，趋势上后者已明显被取代。机器学习和图，在计算机科学中有悠久的历史，现在作为主流的大数据技术，在商业领域又引起了新的潮流。如果你在学校学习过这些技术的理论知识，那么现在准备实践一下这些技术吧。
许多我们正在或曾经工作过的公司，已经把 Spark用在生产环境中了，尽管不一定用了 GraphX。当尝试用 GraphX做一些图解决方案的原型时，会很方便。如果你已经有了一个 Spark集群或者决定用云平台上的 Spark集群（例如 Databricks或 Amazon），那么无须重新搭建一个新的特定于图计算的集群，并且你可以在 GraphX API中使用已有的 Spark技能。现在越来越多的图应用为大家所熟知，从根据 Twitter数据发掘出恐怖分子网络到根据信用卡交易数据发现欺诈行为， GraphX已成为一个快速尝试这些图算法场景的易于使用的平台。
本书有两个明确目标：一是全面覆盖 Spark GraphX的方方面面；二是以读者在前面提到的大数据和图计算方面没有任何专业知识为假定前提。写这本书最大的挑战是要有许多技术储备，特别是 Spark、Scala和图；了解大量的 GraphX API以及图的不同用法也是不小的挑战。面对这种情形，本书就需要与其他技术书籍略有不同：首先要花点时间入门，前 5章主要讲解的就是基础内容；本书还有大量有趣的实例，可以跟着一步步练习。本书中涉及的其他技术，读者需要另做学习，本书将努力做到让读者并不需要有过多背景知识和经验，就可以浅显易懂地了解图所能解决的问题。

致谢

感谢 Manning出版社许多工作人员对本书出版所做的努力，特别需要感谢三个人，他们的诸多指导使本书可以较好地完成。 Marina Michaels，我们的开发编辑，从一开始就指出有些章节有很大的技术问题，这些问题大都是 Spark和图计算的新问题。Michael Roberts，我们的技术开发编辑，在本书的制作过程中，与 Marina一样，他给出了大量的建议。 Antonio Magnaghi，我们的技术校对，不但对本书的示例代码进行了严谨的核对，还编辑校对了本书的文本内容。
同时也感谢本书草稿时期给出诸多有价值建议的读者，他们是 Andy Petrella， Brent Foust，Charles Feduke，Gaurav Bhardwaj，Jason Kolter，Justin Fister，Michael Bright，Paul-Michael Sorhaindo，Rodrigo Abreu，Romi Kuntsman，Sumit Pal， Vincent Liard。
作者 Michael Malak感谢妻子和孩子在这几个月写作期间给予的耐心支持。
作者 Robin East感谢妻子和两个儿子，他们容忍和支持了作者长时间的写作以及在楼上偶尔消失。

关于本书

通过学习本书，希望能降低难懂的图学习门槛，了解如何在市场份额最大的分布式计算框架 Apache Spark中开发图应用。
本书的读者对象
我们假定本书的读者并不熟悉 Spark、Scala和图相关的知识，本书会快速学习前面提到的这些知识，会特别侧重于 Scala。在第 3章有 Scala的简要介绍，全书中只要出现新的 Scala知识点都会有 Scala小贴士做详细介绍（完整的列表见附录 D）。实际上，本书通过第 3章、Scala小贴士和附录对 Scala做了较全面的介绍。
另外，虽然在大学的图论课程中数学证明很常见，但本书完全不做数学证明。本书的目标是图算法和图应用，有时会应需介绍图相关的术语。
本书使用的是 Spark/GraphX 1.6版本。
我们假定读者在 Java语言编程方面有一些经验，而在图方面要求不多，但通过书中插图能自然地知道这些图应用。
本书的内容组织
本书分为 3个部分。第 1部分有 3章，主要介绍使用 Spark GraphX的准备知识。第 2部分有 4章，主要介绍如何使用 GraphX。第 3部分有 3章，主要介绍 GraphX的进阶知识。也可以将本书分为两部分，前 5章为准备知识和 GraphX的基本 API，后 5章为 GraphX应用。
下面是各章的内容提要。
.第 1章介绍了什么是大数据、 Spark和图， Spark GraphX如何处理数据流。第 1章是一本迷你书，篇幅不长但内容涉及面较广。

.第 2章简单示范了如何使用 GraphX，无须具有 GraphX经验。

.第 3章介绍了 Spark、Scala和图的基础知识。

.第 4章介绍了 Spark GraphX的基础操作，以及如何使用 GraphX的两个主要算法： Map/Reduce和 Pregel。

.第 5章演示了如何使用 GraphX的诸多内置算法。

.第 6章介绍了 GraphX API之外的内容，即 20世纪中期经典的图算法，并用 GraphX实现了这些算法。

.第 7章重点讲机器学习。机器学习的内容本身就够讲一本书的，这里没有讲解太多机器学习的基础知识和经验，而是直接介绍监督学习、无监督学习和半监督学习的高级实例。

.第 8章展示了 GraphX如何完成一些自定义操作，有可能会构建一个图处理库：读 RDF文件、图的合并、图查找和计算全局聚类系数。

.第 9章介绍了如何监控性能以及查看正在执行的 GraphX应用程序，如何利用缓存、checkpointing和序列化调优做性能调优。

.第 10章介绍了在 GraphX中如何使用 Scala之外的语言（强烈建议不要这么做），以及如何使用一些工具来补充 GraphX的不足。展示了用 GraphX在 Apache Zeppelin的交互式命令行 notebook上对图进行可视化。第三方的工具 Spark JobServer可以让 GraphX从单纯的批处理系统转变成一个在线图数据库。最后，介绍了 Github上的一个项目GraphFrames（GraphX的开发者开发的），它用 Spark SQL DataFrames而非 RDD提供了一种方便和高性能的图查询方式。

另外，本书包含 4个附录。附录 A介绍了 Spark的安装方法，附录 B简要介绍了 Gephi可视化软件，附录 C包含关于 GraphX的在线资料以及如何跟上社区最新进展，附录 D中列出了本书中的 Scala小贴士。如果你在 Spark、Scala或图方面是新手，通过前 5章的阅读，能力可以得到提升。然后，就可以选择性地阅读后面 5章的内容了。如果你对 Spark、Scala和图的知识已经比较精通，但对 GraphX还不熟悉，那么可以跳过前 3章甚至前 5章的内容直接阅读后面的内容。

关于本书中的代码
本书中的源代码可以在博文视点官方网站上下载，地址为 https:// www. broadview.com.cn。这本书中的大部分代码是可以在交互式的 Spark Shell中执行的。从技术上来讲， Scala扩展是一个误称，因为这些文件不能用 scalac编译器进行编译。要想让这些实例代码方便地编译和执行，可以用 Maven的 pom.xml或 SBT的 .sbt文件完成。本书中的源代码实例，有带编号的列表，也有普通的文本，这两类源代码都用了等宽字体以便与普通的正文区分开来。
一般情况下，源码都会被格式化，我们添加了换行符，也修改了缩进以便适应本书的页面大小，甚至在代码清单中添加了续行符（ .）。另外，如果正文中对代码有解释，源码中的注释会被删掉。代码注释会附带许多列表，以突出重要的概念。
本书的示例代码也可以从如上的出版社网站上下载。

关于作者
Michael Malak一直从事软件开发工作，自 2013年年初以来他一直用 Spark为财富 200强的公司做开发工作，经常进行演示和分享，特别是在科罗拉多州他住的丹佛 /博尔德地区。他的个人技术博客的地址是 http://technicaltidbit.com。

Robin East在一些大型企业曾担任过 15年以上的顾问，在金融、政府、医疗保健和公共事业领域提供大数据和智能解决方案。他是 Worldpay的数据科学家，帮助公司实现把数据用于核心业务上。可以在这里看到他在 Spark、GraphX和机器学习方面的作品： https://mlspeed.wordpress.com。

配套服务
轻松注册成为博文视点社区用户（www.broadview.com.cn），即可享受以下服务：下载资源：本书所提供的示例代码及资源文件均可在下载资源处下载。提交勘误：您对书中内容的修改意见可在提交勘误处提交，若被采

你还可能感兴趣

我要评论

您的姓名	验证码：
留言内容