当前位置：和泉文库 > 计算机 > 浏览文档

《并行与分布式程序设计》课程教学参考书：CUDA《Programming Massively Parellel Processors》大规模并行处理器编程实战（美）David B.Kirk&Wen-mei W.Hwu（中文版）

文件格式：PDF，文件大小：32.83MB，售价：22.2元

文档详细内容（约216页）

18大规模并行处理器编程实战 2.1 图形流水线的发展 3D图形流水线硬件始于20世纪80年代初昂贵的大型系统，然后到小型工作站，再发展到20世纪90年代中后期的PC加速器。在此期间，在性能需求的驱动下图形子系统的价格从$50000降到了$200，而性能也从每秒5000万像素提高到每秒10亿像素，从每秒 10万顶点(vertice)到每秒1000万顶点。虽然这些进步与半导体设备特征尺寸的不断缩小有一定的关系，但同时也源于图形算法和硬件设计的改进，算法改进现代GPU决定了固有的硬件性能。驱使图形硬件性能的飞速提高的原因主要有高质量产品的市场需求，以及实时计算的应用需求。例如，在电子游戏程序中，人们要求渲染越来越复杂的场景，甚至要在每秒60 帧的速度不断提高的游戏分辨率。在过去的30年里，图形体系结构在不断的发展演化，从最初用一个简单的流水线来设计线框图，到后来为实现高度并行化而采用多个深度并行流水线渲染3D场景的复杂交互意象。同时，许多相关的硬件功能也变得更加复杂，且支持用户编程。 2.1.1固定功能的图形流水线时代从20世纪80年代初到20世纪90年代末，图形硬件中性能最好的是固定功能流水线，但它虽然可配置却不能真正实现可编程。在同一时期内，主要图形应用程序API库也开始流行。API是一种标准化的软件层（即库函数的集合），它支持应用程序（如游戏）使用软件或硬件的服务和功能。例如，游戏可以使用API来发送命令给图形处理单元，在显示器上绘制某种对象。例如，微软就提供了一个具有多媒体功能的专用API一一DirectX,DirectX 中的组件Direct.3D提供了对图形处理器进行编程的接口函数。另一个主要的API是 OpenGL,它是由多个供应商支持的开放性标准API,主要用于专业的工作站应用软件。 DirectX的第7代产品采用的正是这种固定功能的图形流水线。图2-1给出了NVIDIA公司早期生产的GeForce系列固定功能图形流水线的GPU的一个示例。主机接口接收来自CPU的图形界面的命令和数据。这些命令通过调用API函数来实现应用程序想要的功能。主机接口通常包括一个专门的DMA(Direct Memory Access, 直接内存访问)硬件，高效地把大量数据在主机系统内存和图形流水线之间来回传输。主机接口在执行指令时还把状态和结果数据反馈回来

第2章GPU计算的发展历程19 主机 CPU JE 主机接口 GPU 0 顶点控制顶点 ▣ 缓存 VS/T L 0 启动三角形图元 ▣ 光栅 0 着色器纹理缀存见帧缓冲区存储器 ROP FBI 图2-1 NVIDIA公司GeForce系列固定功能的图形流水线在我们讲述流水线的另一个发展阶段前，应该清楚顶点(vertex)通常是指多边形的角。由于GeForce系列设计图形流水线的目的是渲染三角形图元，因此顶点这个术语会频繁用到，它是指三角形图元的角。物体的表面被分解成三角形图元的集合。三角形图元尺寸越小，图片的质量越好。图2-1中的顶点控制阶段从CPU中接收参数化的三角形图元数据，然后将三角形图元数据转化成硬件支持的形式，再把这些准备好的数据放置到顶点缓存中。图2-】中的顶点着色、变换和光照(VS/T&L)阶段变换顶点并指定每个顶点的值（如颜色、法线、纹理坐标、切线等)。着色由像素着色器硬件完成。顶点着色器可以指定每个顶点的颜色，但颜色要到后期才会在三角形图元像素中应用。三角形图元设置阶段进一步创建边缘方程，边缘方程主要是用于在三角形图元周围每个像素上插入颜色和其他数据（如纹理坐标)。光栅阶段则是在每个三角形图元中确定把哪些像素包含进来。对每一个这样的像素，光栅阶段插入给像素着色时必须用到的每个顶点值，包括给像素着色时要用到的颜色、位置和纹理位置等参数。图2-1中的着色阶段决定了每个像素的最终颜色。这可以看作是许多技术产生的综合效果：顶点颜色插值、纹理映射、每个像素的光照数学模型，以及反射等。这些效果使得渲染过的图像与着色阶段合并后更为逼真。图2-2显示的是纹理映射，纹理映射是着色阶段的功能之一。它以世界地图为例，将世界地图的纹理映射到一个球状物体上。请注意球

第2章GPU计算的发展历程21 帧缓冲区存储器显示的读写操作。对于高分辨率的显示器，访问帧缓冲区时对带宽的要求非常高。目前有两种策略可以到达高要求的带宽。第一种是图形流水线通常使用专用存储器提供比系统内存更高的带宽。第二种是FBI同时管理多个存储器通道，这些通道与多个存储库连接。多通道和专用存储器结构的有机结合能给帧缓冲区提供比同时期系统内存更高的带宽。这种高存储器带宽技术一直沿用至今，并己经成为现代GU设计中的主要特点。三角形几何图元锯齿消除锯齿图2-3消除锯齿操作的例子近20年来，硬件的不断更新换代和API的相应更新逐渐提高了图形流水线不同阶段的水平。虽然图形流水线技术每个阶段都会引进额外的硬件资源和配置，开发人员也变得越来越娴熟，且对新特点的要求比能理应提供的内置固定功能更多。显而易见，下一步就是把图形流水线阶段中的某些部分转移到可编程处理器上去。 2.1.2 可编程实时图形流水线的发展 2001年，NVIDIA公司的GeForce3系列产品第一次真正实现了通用着色器可编程性。它向应用程序开发人员提供了浮点顶点引擎(VST&L阶段)中的专用内部指令集。与之相匹配的是微软发布的DirectX8和OpenGL的顶点着色器扩展。后来的GPU,发展到DirectX 9时，扩展了像素着色阶段的通用可编程性和浮点运算功能，并能从顶点着色阶段中获取纹理。2002年，ATI推出Radeon900系列产品，它的主要特点是配备一个24位可编程的浮点像素着色处理器，它可以用DirectX9和OpenGL编程。GeForce FX增加了32位的浮点像素处理器。这些可编程的像素着色处理器只是向统一不同阶段的功能发展的一般趋势的一部分，应用程序的程序员可以看到这种趋势。GeForce6800和7800系列使用分离的处理器对顶点和像素进行处理。2005年初，XBox360引入了统一处理器GPU,允许顶点和

点击进入文档下载页（PDF格式）

共216页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录