当前位置：和泉文库 > 数学 > 浏览文档

《数值分析》课程教学资源（课外阅读）数值计算指南, Sun Microsystems, Inc., 2005

1. 简介 2. IEEE 算法 3. 数学库 4. 异常和异常处理 A. 示例 IEEE 算法数学库随机数生成器 IEEE 建议的函数 IEEE 特殊值 ieee_flags －舍入方向 C99 浮点环境函数异常和异常处理 ieee_flags －产生的异常 ieee_handler －捕获异常 ieee_handler －出现异常时终止 libm 异常处理功能在 Fortran 程序中使用 libm 异常处理杂项 sigfpe －捕获整数异常从 C 中调用 Fortran 有用的调试命令 B. SPARC 行为和实现浮点硬件浮点状态寄存器和队列需要软件支持的特殊类 fpversion(1) 函数－查找有关 FPU 的信息 C. x86 行为和实现 D. What Every Computer Scientist Should Know About Floating-Point Arithmetic 摘要简介舍入误差浮点格式相对误差和 Ulp 保护数位抵消精确舍入的运算 IEEE 标准格式与运算特殊数量 NaN 异常、标志和陷阱处理程序系统方面指令集语言和编译器异常处理详细资料二进制到十进制的转换求和中的误差参考书目定理 14 和定理 8 定理 14 证明各种 IEEE 754 实现的差别当前的 IEEE 754 实现在基于扩展的系统上计算的缺陷扩展精度的程序设计语言支持

文件格式：PDF，文件大小：2MB，售价：38.25元

共260页，可试读40页，点击往前阅读 ↑↑

文档详细内容（约260页）

2-4 《数值计算指南》 • 2005 年 1 月注意，当 e < 255 时，为单精度格式位模式分配的值是使用以下方法构成的：将二进制基数点插入到紧邻小数最高有效位的左侧，将一个隐含位插入到紧邻二进制点的左侧，因而以二进制位置表示法来表示一个带分数（整数加小数，其中 0 ≤ Ò3 小数 < 1）。如此构成的带分数称为单精度格式有效数字。之所以称为隐含位的原因是，在单精度格式位模式中没有显式地指定其值，但偏置指数字段的值隐式指定了该值。对于单精度格式，正规数和次正规数的差别在于正规数有效数字的前导位（二进制点左侧的位）为 1，而次正规数有效数字的前导位为 0。在 IEEE 754 标准中，单精度格式次正规数称为单精度格式非规格化数。在单精度格式正规数中 23 位小数加上隐含前导有效数位提供了 24 位精度。表 2-3 中给出了重要的单精度存储格式位模式的示例。最大正正规数是以 IEEE 单精度格式表示的最大有限数。最小正次正规数是以 IEEE 单精度格式表示的最小正数。最小正正规数通常称为下溢阈值。（最大和最小正规数和次正规数的十进制值是近似的；对于所示的数字来说，它们是正确的。） s = 0; e = 255; f = 0 （f 中的所有位均为零） +INF （正无穷大） s = 1; e = 255; f = 0 （f 中的所有位均为零） –INF （负无穷大） s = u; e = 255; f ≠ 0 （f 中至少有一位不为零） NaN （非数）表 2-3 单精度存储格式位模式及其 IEEE 值通用名称位模式（十六进制）十进制值 +0 00000000 0.0 -0 80000000 -0.0 1 3f800000 1.0 2 40000000 2.0 最大正规数 7f7fffff 3.40282347e+38 最小正正规数 00800000 1.17549435e-38 最大次正规数 007fffff 1.17549421e-38 最小正次正规数 00000001 1.40129846e-45 + 7f800000 无穷 – ff800000 负无穷非数 7fc00000 NaN 表 2-2 IEEE 单精度格式位模式表示的值 ( 续 ) 单精度格式位模式值 ∞ ∞

IEEE 算法 2-5 NaN（非数）可以用任何满足 NaN 定义的位模式表示。在表 2-3 中显示的 NaN 十六进制值只是可用于表示 NaN 的众多位模式之一。 2.2.3 双精度格式 IEEE 双精度格式由三个字段组成：52 位小数 f ； 11 位偏置指数 e ；以及 1 位符号 s。这些字段连续存储在两个 32 位字中（如图 2-2 所示）。在 SPARC 体系结构中，较高地址的 32 位字包含小数的 32 位最低有效位，而在 x86 体系结构中，则较低地址的 32-位字包含小数的 32 位最低有效位。如果用 f[31:0] 表示小数的 32 位最低有效位，则在这 32 位最低有效位中，第 0 位是整个小数的最低有效位，而第 31 位则是最高有效位。在另一个 32 位字中，0:19 位包含 20 位小数的最高有效位 f[51:32]，其中第 0 位是这 20 位最高有效位中的最低有效位，而第 19 位是整个小数的最高有效位； 20:30 位包含 11 位偏置指数 e，其中第 20 位是偏置指数的最低有效位，而第 30 位是最高有效位；最高的第 31 位包含符号位 s。图 2-2 将这两个连续的 32 位字按一个 64 位字那样进行了编号，其中 0:51 位存储 52 位的小数 f ； 52:62 位存储 11 位偏置指数 e ；而第 63 位存储符号位 s。图 2-2 双精度存储格式这三个字段中的位模式值将决定整个位模式所表示的值。表 2-4 显示一侧的三个组成字段中位的值与另一侧双精度格式位模式表示值的对应关系； u 意味着无关，即指示字段的值与确定特定双精度格式位模式的值无关。表 2-4 IEEE 双精度格式位模式表示的值双精度格式位模式值 0 < e < 2047 (–1)s × 2e–1023 x 1.f （正规数） e = 0; f ≠ 0 （f 中至少有一位不为零） (–1)s × 2–1022 x 0.f （次正规数） e = 0; f = 0 （f 中的所有位均为零） (–1)s × 0.0 （有符号的零） 31 0 63 62 52 51 32 f[31:0] s e[52:62] f[51:32]

囊24EEE双精度格式位模式表示的值（续）双精度格式位横式值 +NF(正无穷大) -INF(负无穷大) s=出e=2047f≠0 NaN(非数) (任中至少有一位不为零) 请注意，当e<2047时，赋予双精度格式位模式的值是使用以下方法构成：将二进制基数点插入到紧邻小数最高有效位的左侧，将一个隐含位插入到紧邻二进制点的左侧。如此构成的数字称作有效数字。之所以称为隐含位的原因是，在双精度格式位模式中没有显式地指定其值，但偏置指数字段的值隐式指定了该值。对于双精度格式，正规数和次正规数的差别在于正规数有效数字的前导位（二进制点方侧的位)为1，而次正规数有效数字的前导位为0。在EEE标准754中，双精度格式次正规数称为双精度格式非规格化数。在双精度格式正规数中52位小数加上隐含前导有效数位提供了53位精度，表25中给出了重要的双精度存储格式位模式的示例。第二列中的位模式显示为两个8 位十六进制数。对于SPARC体系结构，左侧是较低地址的32位字的值，右侧是较高地址的32位字的值，而对于x86体系结构，左侧是较高地址的字，右侧是较低地址的字最大正正规数是以EEE双精度格式表示的最大有限数。最小正次正规数是以EEE双精度格式表示的最小正数。最小正正规数通常称为下溢阈值。（最大和最小正规数和次正规数的十进制值是近似的：对于所示的数字来说，它们是正确的。) 表2-5 双精度存储格式位模式及其EEE值的位模式通用名位式（十大进制）十进制值 +0 0000000000000000 0.0 -0 8000000000000000 0.0 3ff0000000000000 1 3 4000000000000000 2.0 最大正规数 7fefffff 1.7976931348623157e+308 最小正正规数 0010000000000000 2.2250738585072014e-308 最大次正规数 OOOEEEEE EEEEEEEE 2.2250738585072009e-308 最小正次正规数 0000000000000001 4.9406564584124654e-324 +0∞ 7ff0000000000000 无穷 -00 fff0000000000000 负无穷非数 7ff8000000000000 NaN 2-6《数值计算指南》·2005年1月

2-6 《数值计算指南》 • 2005 年 1 月请注意，当 e < 2047 时，赋予双精度格式位模式的值是使用以下方法构成：将二进制基数点插入到紧邻小数最高有效位的左侧，将一个隐含位插入到紧邻二进制点的左侧。如此构成的数字称作有效数字。之所以称为隐含位的原因是，在双精度格式位模式中没有显式地指定其值，但偏置指数字段的值隐式指定了该值。对于双精度格式，正规数和次正规数的差别在于正规数有效数字的前导位（二进制点左侧的位）为 1，而次正规数有效数字的前导位为 0。在 IEEE 标准 754 中，双精度格式次正规数称为双精度格式非规格化数。在双精度格式正规数中 52 位小数加上隐含前导有效数位提供了 53 位精度。表 2-5 中给出了重要的双精度存储格式位模式的示例。第二列中的位模式显示为两个 8 位十六进制数。对于 SPARC 体系结构，左侧是较低地址的 32 位字的值，右侧是较高地址的 32 位字的值，而对于 x86 体系结构，左侧是较高地址的字，右侧是较低地址的字。最大正正规数是以 IEEE 双精度格式表示的最大有限数。最小正次正规数是以 IEEE 双精度格式表示的最小正数。最小正正规数通常称为下溢阈值。（最大和最小正规数和次正规数的十进制值是近似的；对于所示的数字来说，它们是正确的。） s = 0; e = 2047; f = 0 （f 中的所有位均为零） +INF （正无穷大） s = 1; e = 2047; f = 0 （f 中的所有位均为零） -INF （负无穷大） s = u; e = 2047; f ≠ 0 （f 中至少有一位不为零） NaN （非数）表 2-5 双精度存储格式位模式及其 IEEE 值的位模式通用名称位模式（十六进制）十进制值 + 0 00000000 00000000 0.0 - 0 80000000 00000000 -0.0 1 3ff00000 00000000 1.0 2 40000000 00000000 2.0 最大正规数 7fefffff ffffffff 1.7976931348623157e+308 最小正正规数 00100000 00000000 2.2250738585072014e-308 最大次正规数 000fffff ffffffff 2.2250738585072009e-308 最小正次正规数 00000000 00000001 4.9406564584124654e-324 + 7ff00000 00000000 无穷 – fff00000 00000000 负无穷非数 7ff80000 00000000 NaN 表 2-4 IEEE 双精度格式位模式表示的值 ( 续 ) 双精度格式位模式值 ∞ ∞

点击进入文档下载页（PDF格式）

共260页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录