Man memory vecter FP addsubtract latore FPrmultpty FP divide veder reuters Integer L aEter 2021/2/1 计算机体系结构 17
2021/2/1 计算机体系结构 17
Vector supercomputers Cray-1的变体(1976) Scalar Unit: Load/Store Architecture Vector extension Vector Registers · Vector instructions Implementation 硬布线逻辑控制 ·高效流水化的功能部件 多体交叉存储系统 无 Data cache 不支持 irtual Memory 2021/2/1 计算机体系结构 18
Vector Supercomputers • Cray-1的变体(1976): • Scalar Unit:Load/Store Architecture • Vector Extension • Vector Registers • Vector Instructions •Implementation • 硬布线逻辑控制 • 高效流水化的功能部件 • 多体交叉存储系统 • 无Data Cache • 不支持 Virtual Memory 2021/2/1 计算机体系结构 18
Vector Instruction Set Advantages ·格式紧凑 条指令包含N个操作 表达能力强,一条指令能告诉硬件 N个操作之间无相关性 使用同样的功能部件 访问不相交的寄存器 与前面的操作以相同模式访问寄存器 访问存储器中的连续块( unit-stride load/ /store) 以已知的模式访问存储器( strided load/ /store) 可扩展性好 可以在多个并行的流水线上运行同样的代码(anes) 2021/2/1 计算机体系结构 19
Vector Instruction Set Advantages • 格式紧凑 • 一条指令包含N个操作 • 表达能力强, 一条指令能告诉硬件: • N个操作之间无相关性 • 使用同样的功能部件 • 访问不相交的寄存器 • 与前面的操作以相同模式访问寄存器 • 访问存储器中的连续块 (unit-stride load/store) • 以已知的模式访问存储器 (strided load/store) • 可扩展性好 • 可以在多个并行的流水线上运行同样的代码 (lanes) 2021/2/1 计算机体系结构 19
Vector arithmetic Execution 使用较深的流水线(=> fast clock) 执行向量元素的操作 123 ·由于向量元素相互独立,简化了 深度流水线的控制(=>no hazards Six stage multiply pipeline V3<-V1*v2 2021/2/1 计算机体系结构
Vector Arithmetic Execution 20 • 使用较深的流水线(=> fast clock) 执行向量元素的操作 • 由于向量元素相互独立,简化了 深度流水线的控制 (=> no hazards!) V 1 V 2 V 3 V3 <- v1 * v2 Six stage multiply pipeline 2021/2/1 计算机体系结构
Vector Instruction execution ADDV CA,B 使用一条流水化的功 使用4条流水化的功能 能部件热行 部件执行 A[6]B[6] A[24]B[24]A[25]B[25]A[26]B[26]A[27B[27 A[5]B[5] A[20]B[20]A[21]B[21]A[22]B[22]A[23]B[23] A[4]B[4] A[16]B[16]A[17]B[17A18]B[18]A[19]B[19] A[3]B[3] A[12]B[12]A[13]B[13]A[14]B[14]A[15]B[15] C[2] C[8] C[9] C[10] C[11] C[1] C[4] C[5] C[6] C[7] C[0] CLOT C[1] C[2] C[3] 2021/2/1 机体系结构
Vector Instruction Execution 21 ADDV C,A,B C[1] C[2] C[0] A[3] B[3] A[4] B[4] A[5] B[5] A[6] B[6] 使用一条流水化的功 能部件执行 C[4] C[8] C[0] A[12] B[12] A[16] B[16] A[20] B[20] A[24] B[24] C[5] C[9] C[1] A[13] B[13] A[17] B[17] A[21] B[21] A[25] B[25] C[6] C[10] C[2] A[14] B[14] A[18] B[18] A[22] B[22] A[26] B[26] C[7] C[11] C[3] A[15] B[15] A[19] B[19] A[23] B[23] A[27] B[27] 使用4条流水化的功能 部件执行 2021/2/1 计算机体系结构