Review ·向量处理机基本结构 VSIW (ISA) 向量处理机的基本组成 向量运算部件的执行方式-流水线方式 向量部件结构-多“道”结构-多条运算流水线 多体交叉存储系统 向量指令并行执行 ·向量处理机性能评估 向量指令流执行时间: Convey, Chimes, Start-up time 其他指标:R。,N1/2,Nv 2021/1/29 计算机体系结构
-Review • 向量处理机基本结构 − VSIW (ISA) − 向量处理机的基本组成 − 向量运算部件的执行方式-流水线方式 − 向量部件结构-多“道”结构-多条运算流水线 − 多体交叉存储系统 − 向量指令并行执行 • 向量处理机性能评估 − 向量指令流执行时间: Convey, Chimes, Start-up time − 其他指标: R , N1/2 , NV 2021/1/29 计算机体系结构 27
05/16-review: Multithreading Simultaneous Superscalar Fine-Grained Coarse-Grained Multiprocessing Multithreading 丽口N口 图 图丽 O0①OO= □□ 图□ oE三 輯瞤關 N □關關□ □ Thread1 Thread3關 Thread5 N Thread 2 圖 Thread4口 Idle slot 2021/1/29 计算机体系结构
05/16-review: Multithreading 28 Time (processor cycle) Superscalar Fine-Grained Coarse-Grained Multiprocessing Simultaneous Multithreading Thread 1 Thread 2 Thread 3 Thread 4 Thread 5 Idle slot 2021/1/29 计算机体系结构
问题 ·试从挖掘IP角度比较CMP,FGMT,CGMT以 及SMT 2021/1/29 计算机体系结构
问题 • 试从挖掘ILP角度比较CMP,FGMT,CGMT 以 及SMT 2021/1/29 计算机体系结构 29
05/16-Review ·向量处理机基本概念 基本思想:两个向量的对应分量进行运算,产生一个 结果向量 ·向量处理机基本特征 VSⅣW-一条指令包含多个操作 单条向量指令内所包含的操作相互独立 以已知模式访问存储器 控制相关少 ·向量处理机基本结构 向量处理机性能评估 向量指令流执行时间: Convey, Chimes, Start-up time 其他指标:R。,N 2021/1/29 2My构
05/16-Review • 向量处理机基本概念 − 基本思想:两个向量的对应分量进行运算,产生一个 结果向量 • 向量处理机基本特征 − VSIW-一条指令包含多个操作 − 单条向量指令内所包含的操作相互独立 − 以已知模式访问存储器 − 控制相关少 • 向量处理机基本结构 • 向量处理机性能评估 − 向量指令流执行时间: Convey, Chimes, Start-up time − 其他指标: R , N1/2 2021/1/29 计算机体系结构 , NV 30
Vector execution time Time f(vector length, data dependencies, struct hazards Initiation旧ate功能部件消耗向量元素的速率 coηvoy可在同一时钟周期开始执行的指令集合( no structural or data hazards Chime:执行一个 convo所花费的大致时间( approx. time) m convoys take m chimes, 如果每个向量长度为n那么m个 Convoys所花费的时间是 machines 每个chim所花费的时间是n^ clocks,该程序所花费的总时间大约为 mⅹ n clock cycles(忽略额外开销;当向量长度较长时这种近似是 理的) 1: LV Rx .load vector X 4 convoys, 1 lane, VL=64 2: MULV V2, F0, V1 vector-scalar mult 4x64=256 clocks V3, Ry load vector Y for 4 clocks per result 3: ADDV VA, V2,V3 jadd 4: Sv Ry, v4 store the result 2021/1/29 计算机体系结构
Vector Execution Time • Time = f(vector length, data dependencies, struct. hazards) • Initiation rate: 功能部件消耗向量元素的速率 • Convoy: 可在同一时钟周期开始执行的指令集合 (no structural or data hazards) • Chime: 执行一个convoy所花费的大致时间(approx. time) • m convoys take m chimes; − 如果每个向量长度为n, 那么m个convoys 所花费的时间是m个chimes − 每个chime所花费的时间是n个clocks,该程序所花费的总时间大约为 m x n clock cycles (忽略额外开销; 当向量长度较长时这种近似是合 理的) 2021/1/29 计算机体系结构 4 convoys, 1 lane, VL=64 => 4 x 64 = 256 clocks (or 4 clocks per result) 1: LV V1,Rx ;load vector X 2: MULV V2,F0,V1 ;vector-scalar mult. LV V3,Ry ;load vector Y 3: ADDV V4,V2,V3 ;add 4: SV Ry,V4 ;store the result 31