当前位置：和泉文库 > 计算机 > 浏览文档

《并行与分布式程序设计》课程教学参考书：CUDA《Programming Massively Parellel Processors》大规模并行处理器编程实战（美）David B.Kirk&Wen-mei W.Hwu（中文版）

文件格式：PDF，文件大小：32.83MB，售价：22.2元

文档详细内容（约216页）

22 大规模并行处理器编程实战像素着色器在同一处理器上执行。在图形流水线中，特定阶段对完全独立的数据执行大量的浮点运算，如改变三角形图元顶点的位置或者产生像素的颜色等。作为主要应用特征的数据独立性(data independence) 是GPU和CPU的假想设计的一个重要区别。一帧在1/60秒的时间内渲染一次，可能会产生100万个三角形图元和600万个像素。使用硬件并行性来利用数据独立性的可能性很大。在一些图形流水线阶段中执行的特定功能会因渲染算法的不同而变化。这种变化促使硬件设计师采用可编程的图形流水线阶段。两个特殊的可编程阶段如下：顶点着色器和像素着色器。顶点着色器程序将三角形图元的顶点坐标映射到屏幕上，并改变它们的位置、颜色或方向。通常，一个顶点着色线程读取一个用四维浮点坐标(x,y,z,w)表示的顶点位置，并计算出这个顶点的三维浮点坐标(x,y,z)在屏幕上的位置。几何着色器程序对由多个顶点定义的几何图元(primitive))进行操作，改变这些图元或者生成附加的几何图元。顶点着色器程序和几何着色器程序都在图形流水线的顶点着色(VS/T&L)阶段执行。每个着色程序负责计算RGBA(Red Green Blue Alpha,RGBA)的浮点值，在像素样本 (x,y)图像位置上渲染图像时要用到这些颜色的浮点值。这些程序在图形流水线的着色阶段执行。对于三种图形着色程序，程序实例能并行执行，因为每个阶段都是工作在独立的数据上，并产生独立的结果，且相互之间没有任何副作用。正是这种特点促使设计方案从可编程流水线阶段向大规模并行处理器上转移。图2-4是一个可编程流水线的示例，它要用到顶点处理器和片元（像素）处理器。可编程顶点处理器执行那些为顶点着色阶段设计的程序，而可编程片元(fragment)处理器执行那些为像素着色阶段设计的程序。这些可编程的图形流水线由数十个固定功能的阶段组成，每一个功能阶段比可编程处理器更加高效地执行明确定义的任务，从而从可编程性中获益不少。例如，在顶点处理阶段和像素（片元）处理阶段之间有一个光栅处理器（光栅化与插值）。它是一个复杂的状态机，用来确定哪些像素（及部分）处在每个几何图元的边界上。总之，为了在渲染算法中平衡极端性能和用户控件，设计了用于结合可编程阶段和固定功能阶段的技术。普通的渲染算法能执行单个几何图元的输入，并采用高度一致的方式访问其他存储器资源。也就是说，这些算法往往可以同时访问连续存储器的位置，如所有相邻三角形图元或所有相邻像素点。因此，这些算法对存储器带宽的利用率相当高，而且对存储器延时不敏感。再结合一个计算能力有限的像素着色器的工作负载，这些特点引导着GPU沿不同于CPU的方向发展。特别是，CPU的芯片面积由缓存决定，而GPU的芯片面积则由浮点数据通路和固定功能逻辑决定。GPU存储器接口更重视带宽而不是延时（大规模并行执行会隐藏延时)。事实上，GPU带宽己经超出CPU带宽许多倍，在最近的设计中已经超过100GB/s

第2章GPU计算的发展历程25 率比标准单元方法中允许的要高，目的是尽可能提高单位面积上预期操作的吞吐量。但实质上这种高时钟频率要求在工程上付出更多努力，因此鉴于新的几何阶段，选择设计一个处理器阵列而不是两个或3个处理器，这是有好处的。在接受统一处理器的工程技术挑战的同时，通过在处理器阵列的线程上进行负载均衡并提高逻辑流水线的流动性，并寻求单处理器设计的优点是一项非常值得做的工程。这种设计方案为用于通用数值计算的可编程 GPU处理器阵列的产生铺平了道路。 2.1.4GPU:一个中间步骤当GPU硬件设计朝着更多统一处理器的方向发展时，它们已经越来越像高性能并行计算机。早在DirectX9的GPU上市时，一些研究人员已经注意到GPU的原始性能增长轨迹，并开始探索使用GPU来解决密集计算型科学问题和工程问题。但DirectX9系列的GPU 在设计时仅仅是为了匹配图形API的特点。要访问计算资源，程序员只有把自己的问题强制转化成本地图形操作，才可以通过调用OpenGL或DirectX API启动计算过程。例如，要同时运行一个计算函数的多个实例，要把计算过程写成像素着色器的形式。输入数据的集合必须先存储在纹理图像中，再以三角形图元的形式提交给GPU(根据需要会剪辑成矩形)。经过光栅操作后的数据强制转化为像素集的形式输出。事实上，GPU处理器阵列和帧缓冲存储器接口是为处理图形数据而设计的，事实证明对通用数值应用程序限制条件太多。特别是，着色器程序的数据是以单个像素的形式输出的，它们在存储器中的位置是事先指定的。因此，图形处理器阵列设计时的存储器读写能力非常有限。通过图2-6可以看出早期的可编程着色处理器阵列访问存储器的能力有限，着色器程序员要用纹理才能访问输入数据在随机存储器中的位置。更重要的是，着色器即使已经计算好存储器的地址也没法执行写操作，这也称为对存储器的随机分散操作(scatter operation)。把结果写入存储器中的唯一途径是把结果输出成像素的颜色值，通过配置帧缓冲操作阶段把结果写入（或者混合，根据需要）到二维的帧缓冲区中。此外，在一次计算完成后要把结果传递给下一次计算时，得到这种结果的唯一途径是把所有并行结果写入到一个像素帧缓冲区中，然后作为纹理映射输入，把帧缓冲区用于下一个计算阶段的像素片元着色器。其中也没有用户自定义的数据类型，很多数据不得不用一元、二元或四元向量数组来存储。因此，在这个时代把通用计算映射到GPU上是一件比较棘手的事情然而，坚韧不拔的研究人员不遗余力地在这方面进行研究，实现了一些有用的应用实例。这个领域被称作“GPGPU”,意思是在GPU上进行通用计算

点击进入文档下载页（PDF格式）

共216页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录