当前位置：和泉文库 > 计算机 > 浏览文档

《并行与分布式程序设计》课程教学参考书：CUDA C PROGRAMMING（CUDA编程指南4.0中文版）

文件格式：PDF，文件大小：2.16MB，售价：27.62元

文档详细内容（约183页）

CUDA编程指南4.0中文版 10 ∥Kernel definition global void MatAdd(float A[N][N],float B[N][N],float C[N][N]) int i=blockldx.x blockDim.x+threadldx.x; int j=blockIdx.y blockDim.y +threadldx.y; if (i<N&&j<N) C[]=A[]+B: } int main(){ ∥Kernel invocation dim3 threadsPerBlock(16,16); dim3 numBlocks(N threadsPerBlock.x,N/threadsPerBlock.y); MatAdd<<<numBlocks,threadsPerBlock>>(A,B,C); } 一个长度为16*16(256线程)的块，虽然是强制指定，但是常见。像以前一样，创建了内有足够的块的网格，使得一个线程处理一个矩阵元素。为简便起见，此例假设网格每一维上的线程数可被块内对应维上的线程数整除，尽管这并不常见。线程块必须独立执行。而且能够以任意顺序，串行或者并行执行。这种独立性要求使得线程块可以以任何顺序在任意数目核心上调度，如图1-4所示，保证了程序员能够写出能够随核心数目扩展的代码(enabling programmers to write code that scales with the number of cores). 块内线程可通过共享存储器和同步执行协作，共享存储器可以共享数据，同步执行可以协调存储器访问。更精确一点说，可以在内核中调用_syncthreads() 内置函数指明同步点；syncthreads(O起栅栏的作用，在其调用点，块内线程必须等待，直到所以线程都到达此点才能向前执行。3.2.3节给出了一个使用共享存储器的例子。为了能有效协作，共享存储器要求是靠近每个处理器核心的低延迟存储器 (更像L1缓存)，而且syncthreads()要是轻量级的。 2.3存储器层次在执行期间，CUDA线程可能访问来自多个存储器空间的数据，如图2-2所示。每个线程有私有的本地存储器。每个块有对块内所有线程可见的共享存储器，共享存储器的生命期和块相同。所有的线程可访问同一全局存储器。另外还有两种可被所有线程访问的只读存储器：常量和纹理存储器空间。全局，常量和纹理存储器空间为不同的存储器用途作了优化（参看5.3.2.1节，5.3.2.4 节和5.3.2.5节)。纹理存储器还为一些特殊数据格式提供了不同的寻址模式和数

CUDA 编程指南 4.0 中文版 10 一个长度为 16*16（256 线程）的块，虽然是强制指定，但是常见。像以前一样，创建了内有足够的块的网格，使得一个线程处理一个矩阵元素。为简便起见，此例假设网格每一维上的线程数可被块内对应维上的线程数整除，尽管这并不常见。线程块必须独立执行。而且能够以任意顺序，串行或者并行执行。这种独立性要求使得线程块可以以任何顺序在任意数目核心上调度，如图 1-4 所示，保证了程序员能够写出能够随核心数目扩展的代码（enabling programmers to write code that scales with the number of cores）。块内线程可通过共享存储器和同步执行协作，共享存储器可以共享数据，同步执行可以协调存储器访问。更精确一点说，可以在内核中调用__syncthreads() 内置函数指明同步点；__syncthreads()起栅栏的作用，在其调用点，块内线程必须等待，直到所以线程都到达此点才能向前执行。3.2.3 节给出了一个使用共享存储器的例子。为了能有效协作，共享存储器要求是靠近每个处理器核心的低延迟存储器（更像 L1 缓存），而且__syncthreads()要是轻量级的。 2.3 存储器层次在执行期间，CUDA 线程可能访问来自多个存储器空间的数据，如图 2-2 所示。每个线程有私有的本地存储器。每个块有对块内所有线程可见的共享存储器，共享存储器的生命期和块相同。所有的线程可访问同一全局存储器。另外还有两种可被所有线程访问的只读存储器：常量和纹理存储器空间。全局，常量和纹理存储器空间为不同的存储器用途作了优化（参看 5.3.2.1 节,5.3.2.4 节和 5.3.2.5 节）。纹理存储器还为一些特殊数据格式提供了不同的寻址模式和数 // Kernel definition __global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N]){ int i = blockIdx.x * blockDim.x + threadIdx.x; int j = blockIdx.y * blockDim.y + threadIdx.y; if (i < N && j < N) C[i][j] = A[i][j] + B[i][j]; } int main(){ ... // Kernel invocation dim3 threadsPerBlock(16, 16); dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y); MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C); }

点击进入文档下载页（PDF格式）

共183页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录