当前位置：和泉文库 > 计算机 > 浏览文档

《并行与分布式程序设计》课程教学参考书：CUDA《Programming Massively Parellel Processors》大规模并行处理器编程实战（美）David B.Kirk&Wen-mei W.Hwu（中文版）

文件格式：PDF，文件大小：32.83MB，售价：22.2元

文档详细内容（约216页）

12 大规模并行处理器编程实战不广泛。另一方面，许多超级应用更适合于CUDA的简单线程管理模型，因此在采用CUDA 技术时可扩展性和性能都很好。在管理并行代码结构时，MPI和OpenMP都与CUDA在很多方面相类似，尽管OpenMP 编译器在并行执行过程中更多的是自动化管理。目前正在进行的许多研究工作旨在使 CUDA更多地采用自动化的并行管理和优化CUDA工具链的性能。如果开发人员有MPI 和OpenMP方面的经验，就会发现CUDA很容易掌握，特别是对CUDA性能优化技术方面的理解将更加深刻。最近，计算机行业内的几家大公司，如苹果、Inter、AMD公司旗下的ATI以及NVIDIA 公司，共同开发了一套标准编程模型，称之为OpenCL[Khronos,2009]。与CUDA类似， OpenCL编程模型定义了语言扩展和运行时API,使程序员可以在大规模并行处理器中进行并行管理和数据传递。OpenCL是标准编程模型，用OpenCL开发的应用程序在支持 OpenCL语言扩展和API的所有处理器上，即使不进行修改也一样能运行。读者可能会产生疑问，为何本书不是基于OpenCL编写的。主要原因是，本书在OpenCL 还处于萌芽阶段时已经写完。在编写本书时，OpenCL的编程结构与CUDA相比仍处于较低水准，使用起来还很繁琐。此外，在同时支持CUDA和OpenCL这两种技术的平台上， OpenCL的运行速度还远远低于CUDA的运行速度。由于在大规模并行处理器编程中速度是一个重要指标，因此我们预计在未来很长一段时间内，大部分的大规模并行处理器编程人员仍将继续使用CUDA技术。最后，同时熟悉OpenCL和CUDA技术的开发人员肯定会知道OpenCL和CUDA的主要功能有着惊人的相似之处，也就是说，一个CUDA程序员很容易掌握OpenCL编程。本书后续章节会更为详细地分析两者的相似之处。 1.5 综合目标我们的主要目标是教会读者如何进行大规模并行处理器编程以实现高性能，并且我们的方法不需要大量的硬件专业知识。有人曾说过，如果在并行编程时不考虑性能问题，那么这种编程是一件相当简单的事情。读者几乎可以在一个小时内编写一个并行程序。但是，我们花费大量章节讲解的是如何进行高性能并行编程，只要读者有很好的洞察力并能正确地从事该编程工作，我们相信这并不是什么难事。特别要强调的是，本书集中讲解计算思维这方面的技术，这会使您更多地考虑高性能并行计算。值得注意的是硬件的体系结构功能也有局限性。很多芯片上的高性能并行编程要求程序员了解硬件的工作原理。要掌握这些工具和设备可能需要花费10多年的时间，因此很多程序员没有这些知识也照常工作。我们不会把计算机体系结构作为独立的部分来讲解，而是把计算机体系结构中的核心知识作为高性能并行编程技术的一部分来讨论

第1章引言13 本书第二个目标是讲解如何编写功能正确的、可靠的并行程序，这是并行计算中的技巧问题。过去曾从事过并行系统方面工作的开发人员会知道，仅保证初始性能是远远不够的。我们面临的挑战是如何在可以调试代码和支持用户的情况下实现高性能。CUDA编程模型关注的焦点是数据并行性，我们将帮助读者在他们的应用程序中实现高性能和高可靠性。本书第三个目标是通过探讨一些方法来使目前的并行编程实现可扩展性，能适应未来硬件更新换代的要求。对于未来的计算机，程序并行化程度会越来越高，程序运行速度也会比现在的计算机更快。我们想帮助读者掌握并行编程，以便随着新一代计算机的出现，程序的性能有所提升。读者要想达到上述目标，需要掌握相当多的技术知识，因此本书主要讨论并行编程的设计原理和模式。我们不能保证本书能覆盖所有相关知识，但是我们从中选取最有用也是经得起考验的技术进行深入研究。为了补充读者的知识和经验，我们将推荐一个相关参考文献列表。接下来我们准备对本书的其余部分做一个简单的概述。 1.6 本书的组织结构第2章主要回顾GPU计算的发展历程。首先概述图形硬件发展到具有很强的编程能力的变革，然后讨论GPGPU的发展历程。CUDA GPU的发展历程决定了它当前的功能与局限性。如果读者能深入了解这些发展史，则更容易理解硬件变革的当前状态以及未来的发展趋势，硬件变革将继续影响应用程序类型，这种影响受益于CUDA技术。第3章主要介绍CUDA编程。本章的知识依赖于读者之前有C语言编程的相关经验。本章先介绍CUDA作为对C轻描淡写的扩展，支持异构CPU/GPU连接计算并广泛使用 SPMD(Single-Program Multiple-Data,单程序多数据)并行编程模型。然后向读者阐述编写程序的思维过程：(1)确定应用程序中要并行化的部分，(2)将并行化代码中要用到的数据分离出来，具体方法是用API函数在并行计算设备上分配存储空间，(3)用API函数将数据传输到并行计算设备上，(4)在并行化部分开发一个kernel函数，该函数由其中的个别线程执行，（⑤）为由并行线程执行而启动kernel函数，(6)最后调用API函数将数据传回主机处理器。第3章主要是介绍CUDA编程模型的概念，以便读者能编写简单的CUDA并行程序，但事实上它涵盖了很多基本的编程技巧，这些技巧在基于任何并行编程模型设计并行应用程序时都适用。我们用一个可运行的矩阵乘法(matrix-matrix multiplication)示例贯穿整章内容。第47章主要是让读者更深入理解CUDA编程模型。第4章的主要内容是线程的组织结构和执行模型，要求读者掌握线程的执行方式和基本的性能概念。第5章主要介绍CUDA

14 大规模并行处理器编程实战的特殊存储器，这些存储器用来存储CUDA变量以便提高程序执行速度。第6章则侧重介绍CUDA kernel函数的主要特点以便能提高性能。第7章的主要内容是数据的浮点表示以及精度和准确度的概念。虽然这些章节以CUDA技术为基础，但它们能帮助读者建立一般并行编程的基础。从基础开始学习能够帮助读者更彻底地掌握本书，也就是说，我们首先以某个特殊编程模型为背景学习并行编程模型的概念，这为我们建立了坚实的基础，以便把学到的知识推广到其他的编程模型中。事实上本书也是这么编写的，我们可以从CUDA 模型中借鉴具体经验。CUDA模型中更为深入的体验使我们变得更为成熟，这会帮助我们理解即使是与CUDA模型毫不相关的概念。第8章和第9章则对两个实际应用程序案例进行深入研究，带领读者经历对应用程序并行化和优化的思维过程而达到明显加速的目的。对于每个应用程序，首先确定可供选择的多种方法，这些方法用于表述并行执行的基本结构，然后比较供选择的每种方法各自的优缺点。最后为实现高性能，我们将讲解代码转换的步骤。这两章帮助读者把先前几章的内容系统地组织起来，并为读者自己的应用程序开发项目做准备。第10章将并行编程技术概括为问题分解原理、算法策略和计算思想。它包括在程序中如何组织计算任务，从而使它们之间可实现并行化。我们首先要讨论的是如何把组织抽象的科学概念的过程转化成计算任务，不管采用串行还是并行编程方式，这都是编写高质量应用软件的首要步骤。这一章还将介绍并行算法结构和它们对应用程序性能产生的影响，这些都以CUDA的性能调整经验为基础。这一章最后得出关于并行编程风格与模型的结论，帮助读者在更为广阔的背景下运用自己的知识。学习这一章后，读者可以把SPMD的编程风格推广到其他并行编程风格中，如OpenMP中的循环并行方式和p-thread编程中的分叉-合并(fork-join)方式。尽管本书并没有涉及这些可选择的并行编程风格，但是我们希望读者以本书中学到的知识为基础，可以掌握其他的并行编程方式。第ll章从cUDA程序员的角度介绍OpenCL编程模型。读者会发现OpenCL与CUDA 极为相似。最大的不同之处在于OpenCL调用API函数来实现如启动kernel函数和标识线程之类的功能。API函数的使用使OpenCL变得更为繁琐，但CUDA程序员已经掌握了理解和编写OpenCL程序的所有必要知识和技能。事实上，我们相信最好的方式是先讲述 CUDA编程，再讲述OpenCL编程。本章通过将OpenCL所有主要功能与CUDA对应功能关联来证明了上述观点。我们还将通过把简单的CUDA示例改编为OpenCL示例来阐述这些功能的使用。第12章提供一些结论性的评价，并展望大规模并行编程未来的发展前景。我们重申本书的目标，并概述各个章节如何有机地组织起来，从而达到这些目标。然后，我们对大规模并行处理器的体系结构的主要发展趋势，以及这种趋势如何影响未来的大规模并行编程给出了一个简单的调查结果。我们预言在未来10年内，大规模并行计算的优势会使它变

点击进入文档下载页（PDF格式）

共216页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录