当前位置：和泉文库 > 计算机 > 浏览文档

中国科学技术大学：《计算机体系结构》课程教学资源（PPT课件讲稿）第6章 Data-Level Parallelism in Vector, SIMD, and GPU Architectures

• SIMD结构 − 向量体系结构 − 多媒体SIMD指令集扩展 − 图形处理单元 • 向量体系结构 • GPU

文件格式：PPT，文件大小：7.88MB，售价：28.37元

文档详细内容（约143页）

Vector Memory-Memory vs Vector Register Machines 存储器-存储器型向量机(VMMA)需要更高的存储器带宽 All operands must be read in and out of memory VMMA结构使得多个向量操作重叠执行较困难 Must check dependencies on memory addresses VMMA启动时间更长 CDC Star-100在向量元素小于100时,标量代码的性能高于向量化代码 - For Cray-1, vector/scar均衡点在2个元素 CDC Cray-1后续的机器( Cyber205,ETA-10)都是寄存器型向量杆 2021/1/29 计算机体系结构 17

Vector Memory-Memory vs. Vector Register Machines • 存储器-存储器型向量机 (VMMA) 需要更高的存储器带宽 − All operands must be read in and out of memory • VMMA结构使得多个向量操作重叠执行较困难 − Must check dependencies on memory addresses • VMMA启动时间更长 − CDC Star-100 在向量元素小于100时，标量代码的性能高于向量化代码 − For Cray-1, vector/scalar 均衡点在2个元素 • CDC Cray-1后续的机器 (Cyber-205, ETA-10) 都是寄存器型向量机 2021/1/29 计算机体系结构 17

Vector Supercomputers Cray-1的变体(1976) Scalar Unit: Load/ Store Architecture Vector extension Vector Registers Vector instructions Implementation 硬布线逻辑控制高效流水化的功能部件多体交叉存储系统无 Data Cache 不支持 irtual Memory 2021/1/29 计算机体系结构 18

Vector Supercomputers • Cray-1的变体（1976）: • Scalar Unit：Load/Store Architecture • Vector Extension − Vector Registers − Vector Instructions • Implementation − 硬布线逻辑控制 − 高效流水化的功能部件 − 多体交叉存储系统 − 无Data Cache − 不支持 Virtual Memory 2021/1/29 计算机体系结构 18

Vector Instruction Set Advantages 格式紧凑一条指令包含N个操作 ·表达能力强,一条指令能告诉硬件: N个操作之间无相关性使用同样的功能部件访问不相交的寄存器与前面的操作以相同模式访问寄存器访问存储器中的连续块(unit- stride load/ store) 以已知的模式访问存储器( (strided load/ store) 可扩展性好可以在多个并行的流水线上运行同样的代码(anes) 2021/1/29 计算机体系结构 19

Vector Instruction Set Advantages • 格式紧凑 − 一条指令包含N个操作 • 表达能力强, 一条指令能告诉硬件: − N个操作之间无相关性 − 使用同样的功能部件 − 访问不相交的寄存器 − 与前面的操作以相同模式访问寄存器 − 访问存储器中的连续块 (unit-stride load/store) − 以已知的模式访问存储器 (strided load/store) • 可扩展性好 − 可以在多个并行的流水线上运行同样的代码 (lanes) 2021/1/29 计算机体系结构 19

DLXV Vector Instructions Instr. Operands Operation Comment ADDv V1, v2, V3 V1=V2+V3 vector vector ADDSv V1,FO, v2 V1=F0+V2 scalar t vector MULTV V1, v2, V3 V1=V2XV3 vectorⅹ vector MULSV V1, FO,V2 V1=FOxV2 scalar x vector LV Ⅵ1,R1 V1=M[R1.R1+63] load stride=1 LVWS V1, R1, R2 V1=MR1.R1 +63*R2] load stride=r2 LVI V1,R1,V2 VI=M[R1+V2i, i =0.63] indir ("gather") Ceq VM, V1, V2 VMASKi=(Vli=v2i)? comp. setmask MOV TLR R1 ec. Len. Reg. =RI set vector length MOV VM, RI Vec Mask= r1 set vector mask 2021/1/29 计算机体系结构

“DLXV” Vector Instructions Instr. Operands Operation Comment • ADDV V1,V2,V3 V1=V2+V3 vector + vector • ADDSV V1,F0,V2 V1=F0+V2 scalar + vector • MULTV V1,V2,V3 V1=V2xV3 vector x vector • MULSV V1,F0,V2 V1=F0xV2 scalar x vector • LV V1,R1 V1=M[R1..R1+63] load, stride=1 • LVWS V1,R1,R2 V1=M[R1..R1+63*R2] load, stride=R2 • LVI V1,R1,V2 V1=M[R1+V2i,i=0..63] indir.("gather") • CeqV VM,V1,V2 VMASKi = (V1i=V2i)? comp. setmask • MOV VLR,R1 Vec. Len. Reg. = R1 set vector length • MOV VM,R1 Vec. Mask = R1 set vector mask 2021/1/29 计算机体系结构 20

向量处理机的基本组成单元 Vector Registe:固定长度的一块区域,存放单个向量至少2个读端口和一个写端口(一般最少16个读端口,8个写端口) 典型的有8-32向量寄存器,每个寄存器存放64到128个64位元素 Vector functiona/ Units(F全流水化的,每一个 clock启动一个新的操作一般4到8个FUs: FP add, FP mult, FP reciprocal(1/X), integer add, logica, shift;可能有些重复设置的部件 Vector loaa-Stoeωits(SUs全流水化地load或 store一个向量,可能会配置多个LSU部件 Scalar registers.:存放单个元素用于标量处理或存储地址用交叉开关连接( Cross-bar)FUs,LSUs, registers 2021/1/29 计算机体系结构

向量处理机的基本组成单元 • Vector Register: 固定长度的一块区域，存放单个向量 − 至少2个读端口和一个写端口（一般最少16个读端口，8个写端口） − 典型的有8-32 向量寄存器，每个寄存器存放64到128个64位元素 • Vector Functional Units (FUs): 全流水化的，每一个 clock启动一个新的操作 − 一般4到8个FUs: FP add, FP mult, FP reciprocal (1/X), integer add, logical, shift; 可能有些重复设置的部件 • Vector Load-Store Units (LSUs): 全流水化地load 或 store一个向量，可能会配置多个LSU部件 • Scalar registers: 存放单个元素用于标量处理或存储地址 • 用交叉开关连接(Cross-bar) FUs , LSUs, registers 2021/1/29 计算机体系结构 21

点击进入文档下载页（PPT格式）

共143页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

山东大学：《微机原理及单片机接口技术》课程教学资源（PPT课件讲稿）第十一章复位、时钟和省电方式控制
计算机应用基础课程：《信息技术应用基础》教学资源（PPT课件讲稿）第一章中文WIN98操作系统
中国科学技术大学：《计算机视觉》课程教学资源（PPT课件讲稿）第七章基于运动视觉的场景复原
中国科学技术大学：《计算机组成原理》课程教学资源（PPT课件讲稿）第五章虚拟存储器（主讲：李曦）
《Photoshop基础教程与上机指导》课程教学资源（PPT讲稿）第8章简单编辑图像
安徽理工大学：《Linux开发基础 Development Foundation on Linux OS》课程教学资源（PPT课件讲稿）GNU C/C++ programming、CGI programming in GNU C/C++ language（方贤进）
《面向对象程序设计》课程教学资源（课件讲稿）C++语言的面向对象特征、Java语言的面向对象特征、Python语言的面向对象特征、R语言的面向对象特征
面向对象程序设计语言（PPT课件讲稿）
四川大学：《Linux操作系统》课程教学资源（PPT课件讲稿）第3章 Shell及其编程（主计：潘薇）
清华大家：字符串匹配算法（PPT讲稿）String Matching Algorithm（Overview & Analysis）
Flexsim 初级培训讲义（PPT讲稿）Flexsim Basic Training
《C语言程序设计》课程电子教案（PPT课件讲稿）第2章数据类型及基本运算量
北京航空航天大学：《程序语言设计原理》课程教学资源（PPT课件讲稿）并发程序设计语言
北京航空航天大学：《程序语言设计原理》课程教学资源（PPT课件讲稿）第三章过程式程序设计语言
《微机原理及应用》课程教学资源（PPT课件讲稿）第4章汇编语言程序设计
清华大学出版社：普通高校本科计算机专业特色教材精选《智能技术》课程教学资源（PPT讲稿课件）第4章模糊逻辑技术（曹承志）
《C++大学教程》课程教学资源（PPT课件讲稿）Chapter 17 文件处理 File Processing
《网站开发》课程教学资源（PPT课件讲稿）网站开发各阶段的任务
《数据结构》课程教学资源（PPT课件讲稿）第十章文件、外部排序与外部搜索
香港浸会大学：《Data Communications and Networking》课程教学资源（PPT讲稿）Chapter 2 Protocol Architecture - TCP/IP model and OSI Model
南京理工大学：《数据挖掘与处理 Data Mining and Data Processing》课程教学资源（PPT课件讲稿）第一章数据科学与数据挖掘（张正军）
清华大学：A Heterogeneous Accelerator Platform for Multi-subject Voxel-based Brain Network Analysis（PPT讲稿）
白城师范学院：《数据库系统概论 An Introduction to Database System》课程教学资源（PPT课件讲稿）第四章数据库安全性
合肥工业大学：《数据库系统》课程教学资源（PPT课件讲稿）数据库编程 ACCESS、MYSQL、Oracle（张国富）第一章绪论

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录