第6章Data- Level parallelism in vector, SIMD, and gPu architectures SIMD结构 向量体系结构 多媒体SIMD指令集扩展 图形处理单元 ·向量体系结构 GPU 2021/1/29 计算机体系结构
第6章 Data-Level Parallelism in Vector, SIMD, and GPU Architectures • SIMD结构 − 向量体系结构 − 多媒体SIMD指令集扩展 − 图形处理单元 • 向量体系结构 • GPU 2021/1/29 计算机体系结构 •2
传统指令级并行技术的问题 ·提高性能的传统方法(挖掘LP)的主要缺陷 程序内在的并行性 提亮流水线的钟须窣提高时钟频率,有时导致 CP随着增加( branches, other hazards) 指令预取译码有时在每个时钟周期很难预取和译 码多条指令 提高Cac加e命中率在有些计算量较大的应用中(科 学计算)需要大量的数据,其局部性较差,有些程序 处理的是连续的媒体流( multimedia),其局部性也较 差。 2021/1/29 计算机体系结构
传统指令级并行技术的问题 • 提高性能的传统方法(挖掘ILP)的主要缺陷: − 程序内在的并行性 − 提高流水线的时钟频率: 提高时钟频率,有时导致 CPI随着增加 (branches, other hazards) − 指令预取和译码: 有时在每个时钟周期很难预取和译 码多条指令 − 提高Cache命中率 : 在有些计算量较大的应用中(科 学计算)需要大量的数据,其局部性较差,有些程序 处理的是连续的媒体流(multimedia),其局部性也较 差。 2021/1/29 计算机体系结构 3
Introduction ·SIMD结构可有效地挖掘数据级并行 基于矩阵运算的科学计算 图像和声音处理 SIMD比MIMD更节能 针对每组数据操作仅需要取指一次 SIMD对PMD( personal mobile devices)更具吸引 力 SIMD允许程序员继续以串行模式思维 2021/1/29 计算机体系结构
Introduction • SIMD 结构可有效地挖掘数据级并行: − 基于矩阵运算的科学计算 − 图像和声音处理 • SIMD比MIMD更节能 − 针对每组数据操作仅需要取指一次 − SIMD对PMD( personal mobile devices)更具吸引 力 • SIMD 允许程序员继续以串行模式思维 2021/1/29 计算机体系结构 4
SIMD Parallelism ·向量体系结构 ·多媒体SIMD指令集扩展 Graphics Processor Units(GPUs) For x86 processors 每年增加2 cores/chip SIMD宽度每4年翻一番 SIMD潜在加速比是MIMD的2倍 2021/1/29 计算机体系结构 5
SIMD Parallelism • 向量体系结构 • 多媒体SIMD指令集 扩展 • Graphics Processor Units (GPUs) • For x86 processors: − 每年增加2cores/chip − SIMD 宽度每4年翻一番 − SIMD潜在加速比是MIMD的2倍 2021/1/29 计算机体系结构 5
1000 一 MIMD'SIMD(32b) x-MIMD"SIMD(64 b) A SIMD (32 b) →SMD(64b) HHMIMD 100 10 2003 2007 2011 2015 2019 2023 x86 computers. This figure assumes that two cores per chip for MIMD will be added every two years and the p Figure 4.1 Potential speedup via parallelism from MIMD, SIMD, and both MIMD and SIMD over time for number of operations for SIMd will double every four years 2021/1/29 机体系结构
2021/1/29 计算机体系结构 6