第6章Data- Level parallelism in vector,SsMD, and gPU architectures ·SMD结构 向量体系结构 多媒体SMD指令集扩展 图形处理单元 ·向量体系结构 GPU 2021/2/1 计算机体系结构
第6章 Data-Level Parallelism in Vector, SIMD, and GPU Architectures • SIMD结构 –向量体系结构 –多媒体SIMD指令集扩展 –图形处理单元 •向量体系结构 •GPU 2021/2/1 计算机体系结构 2
传统指令级并行技术的问题 挖掘IP的传统方法的主要缺陷: ·提高流水线的钟频率提高时钟频率,有时导 致CP随着增加( branches, other hazards ·指令预取和译有时在每个时钟周期很难预取 和译码多条指令 提高cαche命中室:在有些计算量较大的应用中 (科学计算)需要大量的数据,其局部性较差 有些程序处理的是连续的媒体流( multimedia)其 局部性也较差。 2021/2/1 计算机体系结构
传统指令级并行技术的问题 挖掘ILP的传统方法的主要缺陷: • 提高流水线的时钟频率: 提高时钟频率,有时导 致CPI随着增加 (branches, other hazards) • 指令预取和译码: 有时在每个时钟周期很难预取 和译码多条指令 • 提高Cache命中率 : 在有些计算量较大的应用中 (科学计算)需要大量的数据,其局部性较差, 有些程序处理的是连续的媒体流(multimedia),其 局部性也较差。 2021/2/1 计算机体系结构 3
Introduction SMD结构可有效地挖掘数据级并 基于矩阵运算的科学计算 图像和声音处理 S|MD比MMD更节能 针对每组数据操作仅需要取指一次 S|MD对PMD( persona| mobile devices)更具 吸引力 SMD允许程序员继续以串行模式思维 2021/2/1 计算机体系结构
Introduction • SIMD 结构可有效地挖掘数据级并行: • 基于矩阵运算的科学计算 • 图像和声音处理 • SIMD比MIMD更节能 • 针对每组数据操作仅需要取指一次 • SIMD对PMD( personal mobile devices)更具 吸引力 • SIMD 允许程序员继续以串行模式思维 2021/2/1 计算机体系结构 4
SIMD Parallelism ·向量体系结构 ·多媒体SMD指令集扩展 Graphics Processor Units(GPUs) For x86 processors 每年增加2 cores/chip ·SMD宽度每4年翻一番 ·SMD潜在加速比是MMD的2倍 2021/2/1 计算机体系结构 5
SIMD Parallelism •向量体系结构 •多媒体SIMD指令集 扩展 •Graphics Processor Units (GPUs) • For x86 processors: • 每年增加2cores/chip • SIMD 宽度每4年翻一番 • SIMD潜在加速比是MIMD的2倍 2021/2/1 计算机体系结构 5
1000 一 MIMD'SIMD(32b) x-MIMD"SIMD(64 b) A SIMD (32 b) →SMD(64b) HHMIMD 100 10 2003 2007 2011 2015 2019 2023 x86 computers. This figure assumes that two cores per chip for MIMD will be added every two years and the p Figure 4.1 Potential speedup via parallelism from MIMD, SIMD, and both MIMD and SIMD over time for number of operations for SIMd will double every four years 2021/2/1 机体系结构
2021/2/1 计算机体系结构 6