当前位置：和泉文库 > 计算机 > 浏览文档

电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 08 Parallel Sparse Methods

• To learn to regularize irregular data with – Limiting variations with clamping – Sorting – Transposition • To learn to write a high-performance SpMV kernel based on JDS transposed format • To learn the key techniques for compacting input data in parallel sparse methods for reduced consumption of memory bandwidth – Better utilization of on-chip memory – Fewer bytes transferred to on-chip memory – Better utilization of global memory – Challenge: retaining regularity

文件格式：PDF，文件大小：713.58KB，售价：12.7元

共45页，可试读15页，点击往前阅读 ↑↑

文档详细内容（约45页）

Science Area Number Codes Struct Unstruct Dense Sparse N- Monte FFT PIC Sig of Grids Grids Matrix Matrix Body Carlo 1/o Teams Climate and 3 CESM,GCRM, X X X Weather CM1/WRF.HOMME Plasmas/ 2 H3D(M),VPIC X X X X Magnetosphere OSIRIS,Magtail/UPIC Stellar 5 PPM,MAESTRO X X X X X X Atmospheres and CASTRO,SEDONA, Supernovae ChaNGa,MS-FLUKSS Cosmology 2 Enzo,pGADGET X Combustion/ 2 PSDNS,DISTUF X Turbulence General Relativity 2 Cactus,Harm3D. LazEV Molecular AMBER,Gromacs, X Dynamics NAMD,LAMMPS Quantum Chemistry 2 SIAL,GAMESS, NWChem Material Science 3 NEMOS,OMEN,GW, X QMCPACK Earthquakes/ 2 AWP-ODC X Seismology HERCULES,PLSQR, SPECFEM3D Quantum Chromo 1 Chroma,MILC, X X Dynamics USQCD Social Networks EPISIMDEMICS Evolution Eve Engineering/System GRIPS,Revisit X of Systems 6 Computer Science X X X X ×

Science Area Number of Teams Codes Struct Grids Unstruct Grids Dense Matrix Sparse Matrix N- Body Monte Carlo FFT PIC Sig I/O Climate and Weather 3 CESM, GCRM, CM1/WRF, HOMME X X X X X Plasmas/ Magnetosphere 2 H3D(M),VPIC, OSIRIS, Magtail/UPIC X X X X Stellar Atmospheres and Supernovae 5 PPM, MAESTRO, CASTRO, SEDONA, ChaNGa, MS-FLUKSS X X X X X X Cosmology 2 Enzo, pGADGET X X X Combustion/ Turbulence 2 PSDNS, DISTUF X X General Relativity 2 Cactus, Harm3D, LazEV X X Molecular Dynamics 4 AMBER, Gromacs, NAMD, LAMMPS X X X Quantum Chemistry 2 SIAL, GAMESS, NWChem X X X X X Material Science 3 NEMOS, OMEN, GW, QMCPACK X X X X Earthquakes/ Seismology 2 AWP-ODC, HERCULES, PLSQR, SPECFEM3D X X X X Quantum Chromo Dynamics 1 Chroma, MILC, USQCD X X X Social Networks 1 EPISIMDEMICS Evolution 1 Eve Engineering/System of Systems 1 GRIPS,Revisit X Computer Science 1 X X X X X 6

Sparse Matrix-Vector Multiplication (SpMV) X 十 A X Y Y 7

× A X + Y Y Sparse Matrix-Vector Multiplication (SpMV) 7

Challenges Compared to dense matrix multiplication,SpMV Is irregular/unstructured Has little input data reuse Key to maximal performance Maximize regularity(by reducing divergence and load imbalance) Maximize DRAM burst utilization (layout arrangement) 8

Challenges • Compared to dense matrix multiplication, SpMV – Is irregular/unstructured – Has little input data reuse • Key to maximal performance – Maximize regularity (by reducing divergence and load imbalance) – Maximize DRAM burst utilization (layout arrangement) 8

A Simple Parallel SpMV Row 0 3 0 1 0 Thread 0 Row 1 0 0 0 0 Thread 1 Row 2 0 2 4 1 Thread 2 Row 3 0 0 1 Thread 3 ·Each thread processes one row 9

Row 0 3 0 1 0 Thread 0 Row 1 0 0 0 0 Thread 1 Row 2 0 2 4 1 Thread 2 Row 3 1 0 0 1 Thread 3 A Simple Parallel SpMV • Each thread processes one row 9

Compressed Sparse Row(CSR) Format CSR Representation Row 0 Row 2 Row 3 Nonzero values data[7] {3,1, 2,4,1, 1,1} Column indices col _index[7]{0,2,1,2,3, 0,3 Row Pointers ptr[5] {0,2,2,5,7} Dense representation Row 0 3 0 Thread 0 Row 1 0 0 0 0 Thread 1 Row 2 0 2 4 1 Thread 2 Row 3 Thread 3 10

Row 0 Row 2 Row 3 Nonzero values data[7] { 3, 1, 2, 4, 1, 1, 1 } Column indices col_index[7] { 0, 2, 1, 2, 3, 0, 3 } Row Pointers ptr[5] { 0, 2, 2, 5, 7 } Compressed Sparse Row (CSR) Format 10 Row 0 3 0 1 0 Thread 0 Row 1 0 0 0 0 Thread 1 Row 2 0 2 4 1 Thread 2 Row 3 1 0 0 1 Thread 3 Dense representation CSR Representation

点击进入文档下载页（PDF格式）

共45页，可试读15页，点击继续阅读 ↓↓

您可能感兴趣的文档

电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 07 JOINT CUDA-MPI PROGRAMMING
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 06 PARALLEL COMPUTATION PATTERNS（SCAN）
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 05 PARALLEL COMPUTATION PATTERNS（HISTOGRAM）
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 04 Performance considerations
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 03 MEMORY AND DATA LOCALITY
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 02 CUDA PARALLELISM MODEL
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 01 Introduction To Cuda C
《GPU并行编程 GPU Parallel Programming》课程教学资源（参考文献）NVIDIA CUDA C Programming Guide（Design Guide，June 2017）
《GPU并行编程 GPU Parallel Programming》课程教学资源（参考文献）Methods of conjugate gradients for solving linear systems
《GPU并行编程 GPU Parallel Programming》课程教学资源（参考文献）NVIDIA Parallel Prefix Sum（Scan）with CUDA（April 2007）
《GPU并行编程 GPU Parallel Programming》课程教学资源（参考文献）Single-pass Parallel Prefix Scan with Decoupled Look-back
《GPU并行编程 GPU Parallel Programming》课程教学资源（参考文献）Program Optimization Space Pruning for a Multithreaded GPU
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 09 Parallel patterns（MERGE SORT）
电子科技大学：《GPU并行编程 GPU Parallel Programming》课程教学资源（课件讲稿）Lecture 10 Computational Thinking
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）课程简介（杜平安）
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第一章绪论
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第二章有限元法的基本原理（平面问题有限元法）
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第七章动态分析有限元法 FEM of Dynamic Analysis
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第3～6章其他问题有限元法
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第八章热分析有限元法 FEM of Thermal Analysis
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第二篇有限元建模方法第十二章有限元建模概述 Overview of Finite Element Modeling
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第二篇有限元建模方法第十一章有限元建模的基本原则
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第二篇有限元建模方法第十四章几何模型的建立
电子科技大学：《有限元理论与建模方法 Finite Element Analysis and Modeling》研究生课程教学资源（课件讲稿）第二篇有限元建模方法第十五章单元类型及特性定义

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录