当前位置：和泉文库 > 计算机 > 浏览文档

《并行与分布式程序设计》课程教学参考书：CUDA C PROGRAMMING（CUDA编程指南4.0中文版）

文件格式：PDF，文件大小：2.16MB，售价：27.62元

文档详细内容（约183页）

第三章编程接口 19 3.2.11节引入了多种运行时提供的函数，以和两大主要的图形API OpenGL 和Direct3.D互操作。 3.2.1初始化运行时没有显式的初始化函数：在初次调用运行时函数（更精确地，不在参考手册中设备和版本管理节中的任何函数)时初始化。在计算运行时函数调用的时间和解析初次调用运行时产生的错误码时必须牢记这点。在初始化时，运行时为系统中的每个设备建立一个上下文(3.3节提供了上下文的更多细节)。这个上下文作为设备的主要上下文，被应用中的主机线程共享。这些都是隐式发生的，运行时并没有将主要上下文展示给应用。当主机线程调用cudaDeviceReset()时，这销毁了主机线程操作的设备的主上下文。主机线程调用的运行时函数将为设备重新建立一个主上下文。 3.2.2设备存储器正如2.4节所提到的，CUDA编程模型假定系统包含主机和设备，它们各有自己独立的存储器。内核不能操作设备存储器，所以运行时提供了分配，释放，拷贝设备存储器和在设备和主机间传输数据的函数。设备存储器可被分配为线性存储器或CUDA数组。 CUDA数组是不透明的存储器层次，为纹理获取做了优化。它们的细节在 3.2.10节。计算能力1.x的设备，其线性存储器存在于32位地址空间内，计算能力2.0 的设备，其线性存储器存在于40位地址空间内，所以独立分配的存储器实体能够通过指针引用，如二叉树。典型地，线性存储器使用cudaMalloc()分配，通过cudaFree()释放，使用 cudaMemcpy()在设备和主机间传输。在2.1节的向量加法代码中，向量要从主机存储器复制到设备存储器： ∥Device code global void VecAdd(float*A,float*B,float*C,int N){ int i=blockDim.x blockldx.x threadldx.x; if(i<N) C[门=A[]+B; ∥Host code int main() int N=...; size t size=N*sizeof(float); //Allocate input vectors h A and h B in host memory float*h A=(float*)malloc(size);

第三章编程接口 19 3.2.11 节引入了多种运行时提供的函数，以和两大主要的图形 API OpenGL 和 Direct3D 互操作。 3.2.1 初始化运行时没有显式的初始化函数；在初次调用运行时函数（更精确地，不在参考手册中设备和版本管理节中的任何函数）时初始化。在计算运行时函数调用的时间和解析初次调用运行时产生的错误码时必须牢记这点。在初始化时，运行时为系统中的每个设备建立一个上下文（3.3 节提供了上下文的更多细节）。这个上下文作为设备的主要上下文，被应用中的主机线程共享。这些都是隐式发生的，运行时并没有将主要上下文展示给应用。当主机线程调用 cudaDeviceReset()时，这销毁了主机线程操作的设备的主上下文。主机线程调用的运行时函数将为设备重新建立一个主上下文。 3.2.2 设备存储器正如 2.4 节所提到的，CUDA 编程模型假定系统包含主机和设备，它们各有自己独立的存储器。内核不能操作设备存储器，所以运行时提供了分配，释放，拷贝设备存储器和在设备和主机间传输数据的函数。设备存储器可被分配为线性存储器或 CUDA 数组。 CUDA 数组是不透明的存储器层次，为纹理获取做了优化。它们的细节在 3.2.10 节。计算能力 1.x 的设备，其线性存储器存在于 32 位地址空间内，计算能力 2.0 的设备，其线性存储器存在于 40 位地址空间内，所以独立分配的存储器实体能够通过指针引用，如二叉树。典型地，线性存储器使用 cudaMalloc()分配，通过 cudaFree()释放，使用 cudaMemcpy()在设备和主机间传输。在 2.1 节的向量加法代码中，向量要从主机存储器复制到设备存储器： // Device code __global__ void VecAdd(float* A, float* B, float* C, int N) { int i = blockDim.x * blockIdx.x + threadIdx.x; if (i < N) C[i] = A[i] + B[i]; } // Host code int main(){ int N = ...; size_t size = N * sizeof(float); // Allocate input vectors h_A and h_B in host memory float* h_A = (float*)malloc(size);

点击进入文档下载页（PDF格式）

共183页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录