大规模并行处理器程序设计_[美]胡文美 [美]大卫·B. 柯克 [黎巴嫩]伊扎特·埃尔·哈吉_9787111772767

大规模并行处理器程序设计

定价：¥119

中教价：¥65.45 (5.50折）

库存数： 3

丛书名：计算机科学丛书

购买数量：

本书内容简洁、直观、实用，强调计算思维能力和并行编程技巧。本书主要分为四个部分：第一部分介绍异构并行计算编程的基础概念，包括数据并行化、GPU架构、CUDA编程及程序性能优化方法等内容；第二部分介绍并行模式，包括卷积、模板、并行直方图、归约、前缀和、归并等内容；第三部分介绍高级模式及应用，包括排序、稀疏矩阵计算、图遍历、深度学习、迭代式磁共振成像重建、静电势能图和计算思维等内容；第四部分介绍高级编程实践，包括异构计算集群编程、CUDA动态并行化等内容。本书不仅适合高等院校计算机相关专业的学生学习，也适合并行计算领域的技术人员参考。

前　　言
Programming Massively Parallel Processors: A Hands-on Approach, Fourth Edition

我们非常自豪地向你介绍本书。
融合多核CPU和多线程GPU的大众市场计算系统已经将万亿级别的计算能力引入笔记本电脑中，将亿亿级别的计算能力引入计算集群中。在如此强大的计算动能下，我们正处于科学、工程、医学以及商业领域广泛应用计算实验的黎明。我们也亲历了GPU计算在金融、电子商务、石油与天然气、制造等关键产业垂直市场的广泛渗透。通过具有前所未有的规模、精确度、安全性、可控性与可视性的计算实验，这些领域的突破将得以实现。本书为这一愿景提供了关键要素，即将并行编程教授给数百万研究生和本科生，使得计算思维和并行编程技能能够与微积分技能一样广泛普及。
本书的主要读者是所有需要通过计算思维和并行编程技能来取得科学与工程学科上的突破的研究生和本科生。此外，本书还被业内专业开发人员广泛使用，目标是在并行计算领域学习新的技能，与技术的飞速进步保持同步。这些专业开发人员涵盖机器学习、网络安全、自动驾驶、计算金融、数据分析、认知计算、机械工程、土木工程、电气工程、生物工程、物理学、化学、天文学以及地理学等领域，他们运用计算推动着各自领域前沿技术的发展。因此，这些开发人员既需要是领域专家，同时也必须是编程专家。本书通过逐步建立对技术的直观理解这一方式讲授并行编程。我们假设读者至少具备基本的C编程经验。我们选用了CUDA C这一并行编程环境，该环境需要NVIDIA GPU的支持。在大众消费者和专业人员手中已有超过10亿台这样的处理器，而超过40万名程序员在积极地运用CUDA进行开发。你在学习过程中开发出的应用程序，将有可能被非常庞大的用户社群所使用。
自2016年第3版上市以来，我们收到了许多来自读者和教师的宝贵意见。其中，很多人肯定了本书现有的非常重要的特点，其他人则提供了关于如何扩展本书内容以使其更具价值的建议。与此同时，自2016年以来，用于异构并行计算的硬件和软件技术已经取得了巨大的进步。在硬件领域，GPU计算架构已经推出了三代新版本，分别是Volta、Turing和Ampere。在软件领域，从CUDA 9到CUDA 11的发展使程序员得以访问新的硬件和系统功能。同时，新的算法也得到了开发。为适应这些变化，我们新增了四章，并对大部分现有章节进行了重写。

新增的四章包括一个基础性章节（第4章），以及三个关于并行模式和应用的章节（第8章、第10章和第13章）。我们增加这些章节的初衷如下：

第4章：在之前的版本中，关于架构和调度方面的讨论分布在多个章节中。在这一版中，我们将这些讨论集中在一起，以便感兴趣的读者学习。
第8章：在之前的版本中，模板模式在关于卷积的章节中略有提及，因为这两种模式有相似之处。在这一版中，第8章对模板模式进行了更为全面的介绍，强调其背后的数学原理，突出其与卷积不同的方面，从而为进一步的优化提供了可能。这一章还提供了处理三维网格和数据的示例。
第10章：在之前的版本中，归约模式在关于性能的章节中略有提及。在这一版中，第10章更为全面地呈现了归约模式，采用渐进的方式应用优化方法，并更深入地分析了相关的性能权衡。
第13章：在之前的版本中，归并排序在关于归并模式的章节中略有提及。在这一版中，第13章将基数排序作为一种极其适用于GPU并行化的非比较排序算法进行介绍。第13章采用渐进的方式进行优化，并分析了性能权衡。此外，这一章还对归并排序进行了探讨。
除了新增的章节外，所有章节都经过了修订，部分章节经过了大幅修改。这些章节包括：
第6章：之前在本章中的关于架构的内容已经移到第4章，归约示例部分则移至第10章。对于删改的部分，我们进行了重写以更全面地处理线程粒度问题，更为重要的是，提供一份常见的性能优化策略清单，并讨论了每种策略所解决的性能瓶颈。这份清单在本书的其余部分中被用来优化各种并行模式和应用程序的代码。我们的目标是强调一种用于优化并行程序性能的系统且渐进的方法。
第7章：在之前的版本中，关于卷积模式的章节以一维卷积作为示例，对二维卷积仅进行了简要处理。在这一版中，我们对本章进行了重写，从一开始就更加注重讨论二维卷积。这一变化使我们能够更全面地探讨更高维度平铺的复杂性和细节，并为读者学习卷积神经网络（第16章）提供更好的背景。
第9章：在之前的版本中，关于直方图模式的章节从一开始就应用了线程粗化优化，并将私有化优化与共享内存的使用相结合。在这一版中，我们对本章进行了重写，采用更渐进的方式进行性能优化。现在介绍的初始实现不再应用线程粗化，并将私有化和在私有bin中使用共享内存区分为两种独立的优化方式，前者旨在减少原子操作的争用，后者旨在减少访问延迟。线程粗化在私有化后应用，因为粗化的一个主要优点是减少提交到公共副本的私有副本数量。这种新的章节组织方式更加贴合本书始终遵循的系统化和渐进化的性能优化方法。此外，由于原子操作被用于多块归约和单次扫描核函数中，因此为了更早地引入原

你还可能感兴趣

我要评论

您的姓名	验证码：
留言内容