05/13-review: Multithreading Simultaneous Superscalar Fine-Grained Coarse-Grained Multiprocessing Multithreading 丽口N口 图 图丽 O0①OO= □□ 图□ oE三 輯瞤關 N □關關□ □ Thread1 Thread3關 Thread5 N Thread 2 圖 Thread4口 Idle slot 2021/2/1 计算机体系结构
05/13-review: Multithreading 27 Time (processor cycle) Superscalar Fine-Grained Coarse-Grained Multiprocessing Simultaneous Multithreading Thread 1 Thread 2 Thread 3 Thread 4 Thread 5 Idle slot 2021/2/1 计算机体系结构
05/13-Review 向量处理机基本概念 基本思想:两个向量的对应分量进行运算,产生一个 结果向量 向量处理机基本特征 VSW一条指令包含多个操作 单条向量指令内所包含的操作相互独立 以已知模式访问存储器 控制相关少 ·向量处理机基本结构 向量处理机性能评估 向量指令流执行时间: Convey, Chimes, Start- up time 其他指标:R 01/2Ⅳv 2021/2/1 计算机体系结构
05/13-Review • 向量处理机基本概念 • 基本思想:两个向量的对应分量进行运算,产生一个 结果向量 • 向量处理机基本特征 • VSIW-一条指令包含多个操作 • 单条向量指令内所包含的操作相互独立 • 以已知模式访问存储器 • 控制相关少 • 向量处理机基本结构 • 向量处理机性能评估 • 向量指令流执行时间: Convey, Chimes, Start-up time • 其他指标:R , N1/2 , NV 2021/2/1 计算机体系结构 28
Vector execution time Time =f(vector length, data dependencies, struct. hazards Initiation rate:功能部件消耗向量元素的速率 Convoy:可在同一时钟周期开始执行的指令集合( no structural or data hazards) Chime:执行一个 Convoy所花费的大致时间( approx.time) m convoys take m chimes, 如果每个向量长度为n,那么m个 convoys所花费的时间是m个 chimes 每个chme所花费的时间是n个 clocks,该程序所花费的总时间大约为 m x n clock cycles(ignores overhead; good approximization for long vectors 1: LV Rx .load vector X 4 convoys, 1 lane, VL=64 2: MULV V2, F0, V1 vector-scalar mult 4x64=256 clocks V3, Ry load vector Y for 4 clocks per result 3: ADDV VA, V2,V3 jadd 4: Sv Ry, v4 store the result 2021/2/1 计算机体系结构
Vector Execution Time • Time = f(vector length, data dependencies, struct. hazards) • Initiation rate: 功能部件消耗向量元素的速率 • Convoy: 可在同一时钟周期开始执行的指令集合 (no structural or data hazards) • Chime: 执行一个convoy所花费的大致时间(approx. time) • m convoys take m chimes; • 如果每个向量长度为n, 那么m个convoys 所花费的时间是m个chimes • 每个chime所花费的时间是n个clocks,该程序所花费的总时间大约为 m x n clock cycles (ignores overhead; good approximization for long vectors) 4 convoys, 1 lane, VL=64 => 4 x 64 = 256 clocks (or 4 clocks per result) 1: LV V1,Rx ;load vector X 2: MULV V2,F0,V1 ;vector-scalar mult. LV V3,Ry ;load vector Y 3: ADDV V4,V2,V3 ;add 4: SV Ry,V4 ;store the result 2021/2/1 计算机体系结构 29
Vector Startup 向量启动时间由两部分构成 ·功能部件延时:一个操作通过功能部件的时间 截止时间或恢复时间( dead time or recovery time): 运 条向量指令的间隔时间 Functional unit laten RXXXW RXXXW First VectorInstruction RX XX W RXX XW RIXIXXW Dead Time RIXXIXW RXXXW RXXXW Dead Time RXXXW Second Vector Instruction RXXX W 2021/2/1
Vector Startup • 向量启动时间由两部分构成 • 功能部件延时:一个操作通过功能部件的时间 • 截止时间或恢复时间(dead time or recovery time ): 运行下一条向量指令的间隔时间 30 R X X X W R X X X W R X X X W R X X X W R X X X W R X X X W R X X X W R X X X W R X X X W R X X X W Functional Unit Latency Dead Time First Vector Instruction Second Vector Instruction Dead Time 2021/2/1 计算机体系结构
Dead time and short vectors No dead time 4 cycles dead time TO, Eight lanes No dead time 100% efficiency with 8 element vectors 64 cycles active Cray C90, Two lanes 4 cycle dead time Maximum efficiency 94% with 128 element vectors 20212/1 计算机体系结构
Dead Time and Short Vectors 31 Cray C90, Two lanes 4 cycle dead time Maximum efficiency 94% with 128 element vectors 4 cycles dead time T0, Eight lanes No dead time 100% efficiency with 8 element vectors No dead time 64 cycles active 2021/2/1 计算机体系结构