2计算机系统的评价标准性能和价格 1.2.1性能评测的常用方法以运算速度为主 1、时钟频率(主频):用于同类处理机之间 如: Pentium I/450比 Pentium/300快50%, 2、指令执行速度一种很经典的表示方法 e MIPS Million Instructions Per Second), KIPS GIPS TIPS 指令条数 MIPS =IPC×Fz 执行时间×10°CPI 其中:Fz为处理机的工作主频 CPI( Cycles Per Instruction)为每条指令所需的平均时钟周期数, IPC为每个时钟周期平均执行的指令条数 例1:计算 PentiumII450处理机的运算速度 解:由于 Pentium450处理机的IPC=2(或CPI=0.5),Fz=450MHz MIPSPentium450=IPC×FZ=2×450=900MPS ●主要缺点: (1)不同指令的速度差别很大 (2)指令使用频度差别很大 (3)有相当多的非功能性指令 3、等效指令速度:吉普森( Gibson)法 等效指令执行时间7=∑(1×T) 等效指令速度MPS MIPS 等效CP=之(CPx) 其中:W:指令使用频度,i:指令种类 静态指令使用频度:在程序中直接统计 动态指令使用频度:在程序执行过程中统计 在计算机发展的早期,用加法指令的运算速度来衡量计算机的速度 通常:加、减法50%,乘法15%,除法5%,程序控制15%,其他15% 例2:我国最早研制的小型计算机DJS-130,定点16位,加法速度每秒50万次, 但没有硬件乘法和除法等指令。用软件实现乘法和除法,速度降低100倍 左右,求定点等效速度为。 解: 等效指令速度MIPS=1/ 0.80 +x020 )=0.02MIPS 0.50.5/100 即每秒2万次,由于乘法和除法用软件实现,等效速度降低了25倍
6 1.2 计算机系统的评价标准 性能和价格 1.2.1 性能评测的常用方法 以运算速度为主 1、时钟频率(主频):用于同类处理机之间 如:PentiumⅡ/450 比 PentiumⅡ/300 快 50%,… 2、指令执行速度 一种很经典的表示方法 • MIPS(Million Instructions Per Second),KIPS、GIPS、TIPS MIPS 10 Fz CPI IPC Fz 6 = = = 指令条数 执行时间 其中:Fz 为处理机的工作主频, CPI(Cycles Per Instruction)为每条指令所需的平均时钟周期数, IPC 为每个时钟周期平均执行的指令条数。 例 1:计算 PentiumII 450 处理机的运算速度。 解:由于 PentiumII 450 处理机的 IPC=2(或 CPI=0.5),Fz=450MHz MIPSPentiumII 450 == IPC Fz = 2 450 = 900MIPS • 主要缺点: (1)不同指令的速度差别很大 (2)指令使用频度差别很大 (3)有相当多的非功能性指令 3、等效指令速度:吉普森(Gibson)法 其中:Wi:指令使用频度,i:指令种类 静态指令使用频度:在程序中直接统计 动态指令使用频度:在程序执行过程中统计 在计算机发展的早期,用加法指令的运算速度来衡量计算机的速度。 通常:加、减法 50%,乘法 15%,除法 5%,程序控制 15%,其他 15% 例 2:我国最早研制的小型计算机 DJS-130,定点 16 位,加法速度每秒 50 万次, 但没有硬件乘法和除法等指令。用软件实现乘法和除法,速度降低 100 倍 左右,求定点等效速度为。 解: 即每秒 2 万次,由于乘法和除法用软件实现,等效速度降低了 25 倍。 等效指令速度MIPS 1/ ( ) 0.80 0.5 0.20 0.5 /100 = + = 0.02MIPS 等效指令执行时间 等效指令速度 等效 ( ) T W T MIPS W MIPS CPI CPI W i i i n i i i n i i i n = = = = = = ( ) 1 1 1 1
例3:如果浮点开平方操作 FPSQR的比例为2%,它的CPI为100,其他浮点操作 的比例为23%,它的CPI=4.0,其余指令的CPI=1.33,计算该处理机的 等效CPI。如果 FPSQR操作的CPI也为4.0,重新计算等效CPI 解:等效CPI1=100×2%+4×23%+1.33×75%=3.92 等效CPI2=4×25%+1.33×75%=2.00 由于改进了仅占2%的 FPSQR操作的CPI,使等效速度提高了近一倍 ●指令执行速度的几种平均方法 上述2中的指令执行速度又称为算术平均速度 上述3中的等效指令执行速度又称为加权平均速度,或调和平均速度 几何平均速度: ETR 其中: ETR (execution time ratio),n指不同的程序 几何平均速度与机器无关,与程序的执行时间无关。 4、数据处理速率PDR( processing data rate) PDR=L/R 其中:L=0.85G+0.15H+0.4J+0.15K;R=0.85M+0.09N+0.06P 其中:G是每条定点指令的位数 M是平均定点加法时间 H是每条浮点指令的位数 N是平均浮点加法时间 J是定点操作数的位数 P是平均浮点乘法时间 K是浮点操作数的位数 另外还规定:G>20位,H>30位;从主存取一条指令的时间等于取一个 字的时间;指令和操作数都存放在同一个主存,无变址或间址操作;允许有先行 或并行取指令功能,此时选用平均取指令时间。 PDR主要用来对CPU和主存储器的速度进行度量,它没有涉及到 cache和多 功能等。因此,PDR不能度量机器的整体速度。 5、核心程序法 把应用程序中用得最多频繁的那部分核心程序作为评价计算机性能的标准 程序。称为基准程序 benchmark 整数测试程序: Dhrystone 用C语言编写,100条语句。包括:各种赋值语句,各种数据类型和数据区, 各种控制语句,过程调用和参数传送,整数运算和逻辑操作 VAX-11/780的测试结果为每秒1757个 Dhrystones,即 IVAX MIPS=1757Dhrystones/Second 浮点测试程序: Linpack 用 FORTRAN语言编写,主要是浮点加法和浮点乘法操作。 用 MFLOPS( Million Floating Point Operations Per Second)表示 GFLOPS、 TFLOPS Whetstone基准测试程序 用 FORTRAN语言编写的综合性测试程序,主要包括:浮点运算、整数算术运 算、功能调用、数组变址、条件转移、超越函数。 测试结果用 Twips表示
7 例 3:如果浮点开平方操作 FPSQR 的比例为 2%,它的 CPI 为 100,其他浮点操作 的比例为 23%,它的 CPI=4.0,其余指令的 CPI=1.33,计算该处理机的 等效 CPI。如果 FPSQR 操作的 CPI 也为 4.0,重新计算等效 CPI。 解: 等效 CPI1=100 2% + 4 23% + 1.33 75%=3.92 等效 CPI2=4 25%+1.33 75%=2.00 由于改进了仅占 2%的 FPSQR 操作的 CPI,使等效速度提高了近一倍 • 指令执行速度的几种平均方法 上述2中的指令执行速度又称为算术平均速度 上述3中的等效指令执行速度又称为加权平均速度,或调和平均速度 几何平均速度: 其中:ETR(execution time ratio),n指不同的程序 几何平均速度与机器无关,与程序的执行时间无关。 4、数据处理速率 PDR(processing data rate) PDR=L/R 其中:L=0.85G+0.15H+0.4J+0.15K;R=0.85M+0.09N+0.06P 其中:G 是每条定点指令的位数 M 是平均定点加法时间 H 是每条浮点指令的位数 N 是平均浮点加法时间 J 是定点操作数的位数 P 是平均浮点乘法时间 K 是浮点操作数的位数 另外还规定:G > 20 位,H > 30 位;从主存取一条指令的时间等于取一个 字的时间;指令和操作数都存放在同一个主存,无变址或间址操作;允许有先行 或并行取指令功能,此时选用平均取指令时间。 PDR 主要用来对 CPU 和主存储器的速度进行度量,它没有涉及到 cache 和多 功能等。因此,PDR 不能度量机器的整体速度。 5、核心程序法 把应用程序中用得最多频繁的那部分核心程序作为评价计算机性能的标准 程序。称为基准程序 benchmark • 整数测试程序:Dhrystone 用 C 语言编写,100 条语句。包括:各种赋值语句,各种数据类型和数据区, 各种控制语句,过程调用和参数传送,整数运算和逻辑操作。 VAX-11/780 的测试结果为每秒 1757 个 Dhrystones,即: 1VAX MIPS=1757Dhrystones/Second • 浮点测试程序:Linpack 用 FORTRAN 语言编写,主要是浮点加法和浮点乘法操作。 用 MFLOPS(Million Floating Point Operations Per Second)表示 GFLOPS、TFLOPS • Whetstone 基准测试程序 用 FORTRAN 语言编写的综合性测试程序,主要包括:浮点运算、整数算术运 算、功能调用、数组变址、条件转移、超越函数。 测试结果用 Kwips 表示, G ETRi i n = n = 1
SPEC基准测试程序 System performance eva1 uation Cooperative 由30个左右世界知名计算机大厂商所支持的非盈利的合作组织,包括:IBM、 AT&T、BULL、 Compaq、CDC、DG、DEC、 Fujitsu、HP、 Intel、MPS、 Motorola、 SGI、SUN、 Unisys等 SPEC能够全面反映机器的性能,具有很高的参考价值 以AX-11/780的测试结果作为基数; SPEC1.01989年10月宣布,包含10个测试程序,程序量超过15万行,4 个定点程序,6个浮点程序;测试结果用 SPECint89和 SPECfp89表示 1992年,又增加10个测试程序,共有6个定点程序和14个浮点程序,测试 结果用 SPECint92和 SPECfp92表示。 1995年推出 SPECint'95和 SPECfp95 处理机 SPECint9s5sPC95处理机| SPECint95 spECfp295 PentiumlI45018.5 13.3 Celeron 333 10.20 PentiumII 450 18.7 Celeron 366 PentiumIII 500 20.6 14.7 Celeron 400 B456 10.70 1120 PientiumIII 55 Celeron 43 11.60 Celeron 300A 120 966 Celeron 466 17.0 12.00 ·TPC基准程序 Transaction Processing council(事务处理委员会) 成立于1988年,已有40多个成员;用于评测计算机的事务处理、数据库处 理、企业管理与决策支持等方面的性能 1989年10月、1990年8月和1992年7月发表了TPC-A、TPC-B和TPC-C 6、峰值速度 峰值指令速度MPS、GIPS、TPS 例如: Pentium1500,有3条指令流水线,1500MPS,每秒15亿次 个由8台机器组成的 Cluster,每台机器是4个 PentiumII500组成的SMP; 其峰值速度为48GIPS,每秒480亿次。 峰值浮点速度 MFLOPS、 GFLOPS、 TFLOPS 1.2.2其他性能 1.存储能力 寻址空间大小,26、22、22、20、 存储容量,速度,编址单位,编址方式,寻址方式 存储系统, Lookahead→ Cache→ Main memory→ Online storage →Off- line Storage 2.字长1~几百位 关键问题:指令字长与数据字长的协调 原因:程序与数据共用同一个主存储器 ·早期:由指令字长决定 当前:由数据字长决定,8的倍数,如:32位、64位等 可变字长:任意组合 8
8 • SPEC 基准测试程序 System performance evaluation Cooperative 由 30 个左右世界知名计算机大厂商所支持的非盈利的合作组织,包括:IBM、 AT&T、BULL、Compaq、CDC、DG、DEC、Fujitsu、HP、Intel、MIPS、Motolola、 SGI、SUN、Unisys 等; SPEC 能够全面反映机器的性能,具有很高的参考价值; 以 AX-11/780 的测试结果作为基数; SPEC1.0 1989 年 10 月宣布,包含 10 个测试程序,程序量超过 15 万行,4 个定点程序,6 个浮点程序;测试结果用 SPECint’89 和 SPECfp’89 表示。 1992 年,又增加 10 个测试程序,共有 6 个定点程序和 14 个浮点程序,测试 结果用 SPECint’92 和 SPECfp’92 表示。 1995 年推出 SPECint’95 和 SPECfp’95 处理机 SPECint’95 SPECfp’95 处理机 SPECint’95 SPECfp’95 PentiumII 450 18.5 13.3 Celeron 333 13.1 10.20 PentiumII 450 18.7 13.7 Celeron 366 14.1 10.70 PentiumIII 500 20.6 14.7 Celeron 400 15.1 11.20 PientiumIII 550 22.3 15.6 Celeron 433 16.1 11.60 Celeron 300A 12.0 9.66 Celeron 466 17.0 12.00 • TPC 基准程序 Transaction Processing Council(事务处理委员会) 成立于 1988 年,已有 40 多个成员;用于评测计算机的事务处理、数据库处 理、企业管理与决策支持等方面的性能。 1989 年 10 月、1990 年 8 月和 1992 年 7 月发表了 TPC-A、TPC-B 和 TPC-C。 6、峰值速度 • 峰值指令速度 MIPS、GIPS、TIPS 例如:PentiumIII 500,有 3 条指令流水线,1500 MIPS,每秒 15 亿次 一个由 8 台机器组成的 Cluster,每台机器是 4 个 PentiumIII 500 组成的 SMP; 其峰值速度为 48GIPS,每秒 480 亿次。 • 峰值浮点速度 MFLOPS、GFLOPS、TFLOPS 1.2.2 其他性能 1.存储能力 • 寻址空间大小,2 16、2 24、2 32、2 64、... • 存储容量,速度,编址单位,编址方式,寻址方式 • 存储系统,Lookahead Cache Main Memory Online Storage Off-line Storage 2.字长 1~几百位 • 关键问题:指令字长与数据字长的协调 原因:程序与数据共用同一个主存储器 • 早期:由指令字长决定 当前:由数据字长决定,8 的倍数,如:32 位、64 位等 可变字长:任意组合