Multicore Multicore Multicore Multicore MP MP AP Memory Memory Memory Memory Interconnection network Memory Memory Memory Memory Multicore Multicore Multicore Multicore MP MP MP 2021/2/7 计算机体系结构 16
2021/2/7 计算机体系结构 16
并行处理面临的挑战 并行处理面临着两个重要的挑战和一个重要问题 程序中有限的并行性 相对较高的通信开销 个重要问题:存储器访问的序问题 挑战之一:有限的并行性使机器要达到好的加速 比十分困难 例7.1如果想用100个处理器达到80的加速比, 求原计算程序中串行部分所占比例。 2021/2/7 计算机体系结构 17
并行处理面临的挑战 • 并行处理面临着两个重要的挑战和一个重要问题 : −程序中有限的并行性 −相对较高的通信开销 −一个重要问题:存储器访问的序问题 • 挑战之一:有限的并行性使机器要达到好的加速 比十分困难 例7.1 如果想用100个处理器达到80的加速比, 求原计算程序中串行部分所占比例。 2021/2/7 计算机体系结构 17
例7.1 解根据 Adah定律加速比为: 1 可加速部分比例+(1-可加速部分比例) 理论加速比 80=并行比例 (1-并行比例) 100 得出:并行比例=0.9975 罪看票跟分能尘课到80的速比 2021/2/7 机体系结构 18
例7.1 2021/2/7 计算机体系结构 18 80= 1 并行比例 100 +(1-并行比例) 1 可加速部分比例 理论加速比 +(1-可加速部分比例) 解 根据Amdahl定律加速比为: • 得出:并行比例=0.9975 • 可以看出要用100个处理器达到80的加速比, 串行计算的部分只能占0.25%
挑战之二:多处理机中远程访问的较大延迟。 在现有的机器中,处理器之间的数据通信大 约需要35~>500个时钟周期。 同一芯片中core之间的延迟35~50 cycles 不同芯片间core之间的延迟100~>500cyes 2021/2/7 计算机体系结构 19
• 挑战之二:多处理机中远程访问的较大延迟。 在现有的机器中,处理器之间的数据通信大 约需要35~>500个时钟周期。 −同一芯片中core之间的延迟35~50cycles −不同芯片间core之间的延迟100~>500 cycles 2021/2/7 计算机体系结构 19
远程访问一个字的延迟时间 机器 通信机制互连网络 处理机数量典型远程存储 器访问时间 SPARC Center 共享存储器总线 20 SGI Challenge 共享存储器总线 6 Cray T3D 共享存储器3维环网 32-2048 1 Convex Exemplar共享存储器交叉开关+环8-64 KSR-1 共享存储器多层次环 32-256 26μs CM-5 消息传递 胖树 32-1024 10us Intel Paragon 消息传递 2维网格 32-2048 10-30μs IBM SP-2 消息传递 多级开关 2-512 30-100us 2021/2/7 计算机体系结构 20
远程访问一个字的延迟时间 2021/2/7 计算机体系结构 20 机 器 通信机制 互连网络 处理机数量 典型远程存储 器访问时间 SPARC Center 共享存储器 总线 ≤20 1μs SGI Challenge 共享存储器 总线 ≤36 1μs Cray T3D 共享存储器 3维环网 32-2048 1μs Convex Exemplar 共享存储器 交叉开关+环 8-64 2μs KSR-1 共享存储器 多层次环 32-256 2-6μs CM-5 消息传递 胖树 32-1024 10μs Intel Paragon 消息传递 2维网格 32-2048 10-30μs IBM SP-2 消息传递 多级开关 2-512 30-100μs