本书描述了减少数据基础设施成本和开发时间的技巧,适用于软件工程师、数据工程师、开发者和系统管理员。你不仅可以从中获得关于Spark的全面理解,也将学会如何让它运转自如。 n
n
在本书中你将发现: n
* Spark SQL的新接口如何在SQL的RDD数据结构上改善性能 n
* Core Spark和Spark SQL之间的数据拼接选择 n
* 充分发挥标准RDD转换功能的技巧 n
* 如何处理Spark的键/值对范式的相关性能问题 n
* 编写高性能Spark代码,不使用Scala或JVM n
* 如何在应用建议的改进措施时测试功能和性能 n
* 使用Spark MLlib和Spark ML机器学习库 n
* Spark的流组件和外部社区软件包
Holden Karau是一位跨性别加拿大人,在IBM Spark技术中心担任软件开发工程师。她是Spark代码贡献者,并且经常提交贡献代码,特别是PySpark和机器学习部分。Holden在多个国际活动中演讲Spark相关话题。 n
Rachel Warren是Alpine Data的软件工程师和数据科学家。在日常工作中,她使用Spark来处理真实世界的数据和机器学习问题。她也曾在工业界和学术界担任分析师和导师。 n
n