当前位置：和泉文库 > 计算机 > 浏览文档

《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 15 GPGPU Architecture and Programming Paradigm

文件格式：PDF，文件大小：4.72MB，售价：12.6元

文档详细内容（约57页）

高级计算机体系结构设计及其在数据中心和云计算的应用Lecture 14GPGPUArchitectureandProgramming Paradigm

高级计算机体系结构设计及其在数据中心和云计算的应用 Lecture 14 GPGPU Architecture and Programming Paradigm

高级计算机体系结构设计及其在数据中心和云计算的应用OutlineGPGPUArchitectureOverviewCore ArchitectureMemory HierarchyInterconnectCPU-GPU InterfacingProgramming Paradigm

高级计算机体系结构设计及其在数据中心和云计算的应用 Outline • GPGPU Architecture Overview • Core Architecture • Memory Hierarchy • Interconnect • CPU-GPU Interfacing • Programming Paradigm

高级计算机体系结构设计及其在数据中心和云计算的应用Basic Blocks: Several shadercores/streamingOn-chipareamultiprocessor (SM)SM,SMSMSMSM.Interconnection networkTPC-1TPC-0HOSTCPUPciFxpross BunInterconnectNetworkOn-chip memoryL2L2L2L2L2controllersDRAMDRAMDRAMDRAMDRAM..ControlleraController,ControllerControllerControllerm On-chip caches (level1/2)DRAMDRAMDRAMDRAMDRAMChipChipChipsChip,Chipe Off-chip DRAMOf-chiparea

高级计算机体系结构设计及其在数据中心和云计算的应用 Basic Blocks • Several shader cores/streaming multiprocessor (SM) • Interconnection network • On-chip memory controllers • On-chip caches (level1/2) • Off-chip DRAM

高级计算机体系结构设计及其在数据中心和云计算的应用Basic BlocksSSSSSSSSATextureThreadSchedulerCacheSSSSSConstantInstructionCacheCacheDecoderThread batch-HW unit of threadexecution (Warp -SharedNvidia)Memory(Wavefront-ATI)HardwarethreadschedulingThreadshavededicatedregistersRegisterShared memoryamongthreadFileblockSamePCforallthreadsinwarpSeparateALUandmemorypipeline

高级计算机体系结构设计及其在数据中心和云计算的应用 . INTERCONNECT . SM SM . SM Texture Processor Cluster0 SM SM . SM Texture Processor Cluster1 SM SM . SM Texture Processor ClusterM Streaming Multiprocessor High BW onchip network SP SP SP . SP Thread Scheduler Instruction Cache Decoder Texture Cache Constant Cache Shared . matrixMul<<< grid, threads >>>(d_C, d_A, d_B, uiWA, uiWB); . . GPU Kernels Compile with Thread batch CUDA compiler - HW unit of thread execution (Warp - Basic Blocks MC0 MC1 MC2 MC3 MCL DRAM DRAM DRAM DRAM DRAM L2 L2 L2 L2 . L2 . . Off-chip memory array Memory Controllers SP SP SP . SP SP SP SP . SP SP SP SP . SP SP SP SP . SP . . . . . Shared Memory Register File . mov.s32 %r14, 15; and.b32 %r15, %r13, %r14; add.s32 %r16, %r15, %r12; shr.s32 %r17, %r16, 4; . Light weight into thread-blocks threads grouped PTX assembly execution (Warp - Nvidia) (Wavefront - ATI) • Hardware thread scheduling • Threads have dedicated registers • Shared memory among thread block • Same PC for all threads in warp • Separate ALU and memory pipeline

高级计算机体系结构设计及其在数据中心和云计算的应用Streaming MultiprocessorMulti thread unitTPCSharedTextureMTUnitCache:InstructionConstantCacheInstructionCachecache/decoderDecoderSeveral singleSPSPSPprocessor (SP)SPSPRegisterSharedLoad-store/SFU unitsFileMemoryLarge register fileSPSPSP.+....Shared memorySPSPSP Shared texture cachesSFUUnitLoad/Store Unit Constant cache

高级计算机体系结构设计及其在数据中心和云计算的应用 Streaming Multiprocessor • Multi thread unit • Instruction cache/decoder • Several single processor (SP) • Load-store/SFU units • Large register file • Shared memory • Shared texture caches • Constant cache

点击进入文档下载页（PDF格式）

共57页，可试读19页，点击继续阅读 ↓↓

您可能感兴趣的文档

《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 12 Shared Memory Multiprocessor
《现代计算机体系结构》课程教学课件（留学生版）Lecture 1 Instruction Set Architecture（Introduction）
《现代计算机体系结构》课程教学课件（留学生版）Lecture 0 Introduction and Performance Evaluation
《现代计算机体系结构》课程教学课件（留学生版）Lecture 3 Pipelining
《现代计算机体系结构》课程教学课件（留学生版）Lecture 2 Instruction Set Architecture（Microarchitecture Implementation）
《现代计算机体系结构》课程教学课件（留学生版）Lecture 7 Multiprocessors
《现代计算机体系结构》课程教学课件（留学生版）Lecture 4 Spectualtive Execution
《现代计算机体系结构》课程教学课件（留学生版）Lecture 6 Memory Hierarchy and Cache
《现代计算机体系结构》课程教学课件（留学生版）Lecture 5 Out of Order Execution
武汉理工大学：《模式识别》课程教学资源（PPT课件）第4章基于统计决策的概率分类法
武汉理工大学：《模式识别》课程教学资源（PPT课件）第1章绪论、第2章聚类分析
武汉理工大学：《模式识别》课程教学资源（PPT课件）第3章判别函数及几何分类法
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 14 Towards Renewable Energy Powered Sustainable and Green Cloud Datacenters
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 11 Multi-core and Multi-threading
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 10 Out of Order and Speculative Execution
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 13 An Introduction to Cloud Data Centers
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 09 Case Study- Jave Branch Prediction Optimization
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 07 Instruction Decode
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 08 Instruction Fetch and Branch Predictioin
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 06 Scoreboarding and Tomasulo
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 04 Memory Data Prefetching
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 05 Core Pipelining
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 02 Memory Hierarchy and Caches
《现代计算机体系结构》课程教学课件（英文讲稿）Lecture 03 Main Memory and DRAM

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录