例71 解根据 Adah定律加速比为: 1 可加速部分比例+(1-可加速部分比例) 理论加速比 80= 并行比例 100 十(1一并行比例) 得出:并行比例=0.9975 可以看出要用100个处理器达到80的加速比, 串 的部分只能占0.25% 2021/2/9 计算机体系结构
例7.1 2021/2/9 计算机体系结构 12 80= 1 并行比例 100 +(1-并行比例) 1 可加速部分比例 理论加速比 +(1-可加速部分比例) 解 根据Amdahl定律加速比为: • 得出:并行比例=0.9975 • 可以看出要用100个处理器达到80的加速比, 串行计算的部分只能占0.25%
挑战之二:多处理机中远程访问的较大延 迟。在现有的机器中,处理器之间的数据 通信大约需要35~>500个时钟周期。 同一芯片中core之间的延迟35~50 cycles 不同芯片间core之间的延迟100~>500 cycles 2021/2/9 计算机体系结构
• 挑战之二:多处理机中远程访问的较大延 迟。在现有的机器中,处理器之间的数据 通信大约需要35~>500个时钟周期。 – 同一芯片中core之间的延迟35~50cycles – 不同芯片间core之间的延迟100~>500 cycles 2021/2/9 计算机体系结构 13
远程访问一个字的延迟时间 机器 通信机制 互连网络 处理机数量典型远程存储 器访问时间 SPARC Center 共享存储器总线 20 1us SGI Challenge 共享存储器总线 ≤36 Cray T3D 共享存储器3维环网 32-2048 1us Convex Exemplar共享存储器交叉开关+环8-64 2uS KSR-1 共享存储器多层次环 32-256 26s CM-5 消息传递 胖树 32-1024 Intel Paragon 消息传递 2维网格 32-2048 1030us IBM SP-2 消息传递 多级开关 2-512 30-100us 2021/2/9 计算机体系结构
远程访问一个字的延迟时间 2021/2/9 计算机体系结构 14 机 器 通信机制 互连网络 处理机数量 典型远程存储 器访问时间 SPARC Center 共享存储器 总线 ≤20 1μs SGI Challenge 共享存储器 总线 ≤36 1μs Cray T3D 共享存储器 3维环网 32-2048 1μs Convex Exemplar 共享存储器 交叉开关+环 8-64 2μs KSR-1 共享存储器 多层次环 32-256 2-6μs CM-5 消息传递 胖树 32-1024 10μs Intel Paragon 消息传递 2维网格 32-2048 10-30μs IBM SP-2 消息传递 多级开关 2-512 30-100μs
例72一台32个处理器的计算机,对远程存 储器访问时间为2000ns。除了通信以外,假 设计算中的访问均命中局部存储器。当发出 一个远程请求时,本处理器挂起。处理器时 钟周期为10ns,如果指令基本的cP为 10设所有访存均命中 Cache),求在没有远 程访问的状态下与有05%的指令需要远程访 问的状态下,前者比后者快多少? 2021/2/9 计算机体系结构 15
例7.2 一台32个处理器的计算机,对远程存 储器访问时间为2000ns。除了通信以外,假 设计算中的访问均命中局部存储器。当发出 一个远程请求时,本处理器挂起。处理器时 钟周期为10ns,如果指令基本的CPI为 1.0(设所有访存均命中Cache),求在没有远 程访问的状态下与有0.5%的指令需要远程访 问的状态下,前者比后者快多少? 2021/2/9 计算机体系结构 15
解有0.5%远程访问的机器的实际CP为 cPI=基本CPI+远程访问率x远程访问开销 =1.0+0.5%X远程访问开销 远程访问开销=远程访问时间/时钟时间 =2000ns/10ns=200个时钟周 期 CPI=10+05%X200=20 它为只有局部访问的机器的20/1.0=2倍, 因此在没有远程访问的状态下的机器速度是有 0.5%远程访问的机器速度的2倍。 2021/2/9 计算机体系结构
解 有0.5%远程访问的机器的实际CPI为: CPI=基本CPI+远程访问率×远程访问开销 =1.0+0.5%×远程访问开销 远程访问开销=远程访问时间/时钟时间 =2000ns/10ns=200个时钟周 期 ∴ CPI=1.0+0.5%×200=2.0 它为只有局部访问的机器的2.0/1.0=2倍, 因此在没有远程访问的状态下的机器速度是有 0.5%远程访问的机器速度的2倍。 2021/2/9 计算机体系结构 16