当前位置：和泉文库 > 数学 > 浏览文档

《数值分析》课程教学资源（课外阅读）数值计算指南, Sun Microsystems, Inc., 2005

1. 简介 2. IEEE 算法 3. 数学库 4. 异常和异常处理 A. 示例 IEEE 算法数学库随机数生成器 IEEE 建议的函数 IEEE 特殊值 ieee_flags －舍入方向 C99 浮点环境函数异常和异常处理 ieee_flags －产生的异常 ieee_handler －捕获异常 ieee_handler －出现异常时终止 libm 异常处理功能在 Fortran 程序中使用 libm 异常处理杂项 sigfpe －捕获整数异常从 C 中调用 Fortran 有用的调试命令 B. SPARC 行为和实现浮点硬件浮点状态寄存器和队列需要软件支持的特殊类 fpversion(1) 函数－查找有关 FPU 的信息 C. x86 行为和实现 D. What Every Computer Scientist Should Know About Floating-Point Arithmetic 摘要简介舍入误差浮点格式相对误差和 Ulp 保护数位抵消精确舍入的运算 IEEE 标准格式与运算特殊数量 NaN 异常、标志和陷阱处理程序系统方面指令集语言和编译器异常处理详细资料二进制到十进制的转换求和中的误差参考书目定理 14 和定理 8 定理 14 证明各种 IEEE 754 实现的差别当前的 IEEE 754 实现在基于扩展的系统上计算的缺陷扩展精度的程序设计语言支持

文件格式：PDF，文件大小：2MB，售价：38.25元

共260页，可试读40页，点击往前阅读 ↑↑

文档详细内容（约260页）

2-8 《数值计算指南》 • 2005 年 1 月表 2-6 显示了三个组成字段的值与四倍精度格式位模式表示的值之间的对应关系。u 意味着 “无关”，即指示字段的值与确定特定位模式的值无关。表 2-7 中给出了重要的四倍精度双精度扩展存储格式位模式的示例。第二列中的位模式显示为四个 8 位十六进制数。最左侧的数是地址最低的 32 位字的值，而最右侧的数是地址最高的 32 位字的值。最大正正规数是以四倍精度格式表示的最大有限数。最小正次正规数是以四倍精度精度格式表示的最小正数。最小正正规数通常称为下溢阈值。（最大和最小正规数和次正规数的十进制值是近似的；对于所示的数字来说，它们是正确的。）表 2-6 位模式表示的值 (SPARC) 双精度扩展位模式 (SPARC) 值 0 < e < 32767 (1)s x 2e-16383 1.f （正规数） e = 0、 f ≠ 0 （f 中至少有一位不为零） (1)s x 2-16382 0.f （次正规数） e = 0、 f = 0 （f 中的所有位均为零） (1)s x 0.0 （有符号的零） s = 0、 e = 32767、 f = 0 （f 中的所有位均为零） +INF （正无穷大） s = 1、 e = 32767 ； f = 0 （f 中的所有位均为零） -INF （负无穷大） s = u、 e = 32767、 f ≠ 0 （f 中至少有一位不为零） NaN （非数）表 2-7 双精度扩展格式位模式 (SPARC) 通用名称位模式 (SPARC) 十进制值 +0 00000000 00000000 00000000 00000000 0.0 -0 80000000 00000000 00000000 00000000 -0.0 1 3fff0000 00000000 00000000 00000000 1.0 2 40000000 00000000 00000000 00000000 2.0 最大正规数 7ffeffff ffffffff ffffffff ffffffff 1.1897314953572317650857593266280070e+4932 最小正规数 00010000 00000000 00000000 00000000 3.3621031431120935062626778173217526e-4932 最大次正规数 0000ffff ffffffff ffffffff ffffffff 3.3621031431120935062626778173217520e-4932 最小正次正规数 00000000 00000000 00000000 00000001 6.4751751194380251109244389582276466e-4966

IEEE 算法 2-9 在表 2-7 中显示的 NaN 十六进制值只是可用于表示 NaN 的众多位模式之一。 2.2.5 双精度扩展格式 (x86) 该浮点环境双精度扩展格式符合双精度扩展格式的 IEEE 定义。它包含四个字段：63 位小数 f、 1 位显式前导有效数位 j、 15 位偏置指数 e 以及 1 位符号 s。在 x86 体系结构系列中，这些字段连续存储在十个相连地址的 8 位字节中。由于 UNIX System V Application Binary Interface Intel 386 Processor Supplement (Intel ABI) 要求双精度扩展参数，从而占用堆栈中三个相连地址的 32 位字，其中地址最高字的 16 位最高有效位未用，如图 2-4 所示。地址最低的 32 位字包含小数的 32 位最低有效位 f[31:0]，其中第 0 位是整个小数的最低有效位，而第 31 位则是 32 位最低有效位的最高有效位。地址居中的 32 位字中，0:30 位包含小数的 31 位最高有效位 f[62:32]（其中第 0 位是这 31 位最高有效位的最低有效位，而第 30 位是整个小数的最高有效位）；地址居中 32 位字的第 31 位包含显式前导有效数位 j。地址最高的 32 位字中， 0:14 位包含 15 位偏置指数 e，其中第 0 位是该偏置指数的最低有效位，而第 14 位是最高有效位；第 15 位包含符号位 s。虽然地址最高的 32 位字的最高 16 位未被 x86 体系结构系列使用，但如上所述，它们对于符合 Intel ABI 规定是至关重要的。图 2-4 将这三个连续的 32 位字按一个 96 位字那样进行了编号，其中 0:62 位存储 63 位小数 f ；第 63 位存储显式前导有效数位 j ； 64:78 位存储 15 位偏置指数 e ；第 79 位存储符号位 s。 + 7fff0000 00000000 00000000 00000000 + – ffff0000 00000000 00000000 00000000 – 非数 7fff8000 00000000 00000000 00000000 NaN 表 2-7 双精度扩展格式位模式 (SPARC)( 续 ) 通用名称位模式 (SPARC) 十进制值 ∞ ∞ ∞ ∞

将双精度扩展格式中的分立字段j和f连接起来称为有效数字。当e<32767和j=1 的最高效2入有是道过以下方法形在有效数位了和小在x86双精度扩展格式中，前导有效数位j是0并且偏置指数字段e也是0的位模式表示次正规数，而前导有效数位1是1并且偏置指数字段ē是非零数的位模式表示正规数。由于前导有效数位是明确表示出来的，而不是从指数的值推导出来的，所以该格式还接受偏置指数是0（与次正规数相似），而前导有效数位是1的位模式。每一个这样的本芳厥非都炮对产的偏学指数字段是的立模式表示相同的值，即正想数，因此位榜。(在EEE 标准次正规数称为非正规化数字。)伪非正规数 X86 编码的人为概念，当显示为操作数时，您可以将其隐式转表29中给出了重要的双精度打扩展存储格式位模式的示例。第二列中的位模式显示为一个4位十六进制计数，它是地址最高的32位字的16位最低有效位的值（还记得上述该地址最高的32位字的16位最高有效位是未用的，所以未显示其值) 后面是两个8位六进制计数，其中左侧是地址居中的32位字的值右侧是地址最低的32位字的值最大规数双精度打扩展格最大有小正次精为最大和最小正规数和次正规数的十进制值是近似的：对于所示的数字来说，它们是正确的。) 表2-9 双精度扩展格式位模式及其值(x86) 通用名称位模式(x86) 十进制值 +0 00000000000000000000 0.0 -0 80000000000000000000 -0.0 2 3fff8000000000000000 1.0 2 40008000000000000000 2.0 最大正规数 7ffe ffffffEf EEEEEEEE 1.18973149535723176505e+4932 正最小正规数 00018000000000000000 3.36210314311209350626e-4932 最大次正规数 0000 7EEEEEEE EEEEEEEE 3.36210314311209350608e-4932 最小正次正规数 00000000000000000001 3.64519953188247460253e-4951 +0∞ 7fff8000000000000000 ffff8000000000000000 带有最大小数的静态NaN QNaN 带有最小小数的静态NaN 7fffc000000000000000 QNaN 带有最大小数的信号NaN 7fEf bfffffff SNaN 带有最小小数的信号NaN 7fff8000000000000001 SNaN IEEE算法2-11

IEEE 算法 2-11 将双精度扩展格式中的分立字段 j 和 f 连接起来称为有效数字。当 e < 32767 和 j = 1 时，或当 e = 0 和 j = 0 时，有效数字是通过以下方法形成的：在前导有效数位 j 和小数的最高有效位之间插入二进制基数点。在 x86 双精度扩展格式中，前导有效数位 j 是 0 并且偏置指数字段 e 也是 0 的位模式表示次正规数，而前导有效数位 j 是 1 并且偏置指数字段 e 是非零数的位模式表示正规数。由于前导有效数位是明确表示出来的，而不是从指数的值推导出来的，所以该格式还接受偏置指数是 0（与次正规数相似），而前导有效数位是 1 的位模式。每一个这样的位模式实际上都与对应的偏置指数字段是 1 的位模式表示相同的值，即正规数，因此位模式称为伪非正规数。（在 IEEE 标准 754 中，次正规数称为非正规化数字。）伪非正规数仅是一个 x86 双精度扩展格式编码的人为概念，当显示为操作数时，您可以将其隐式转换为相应的正规数，不能将其生成为结果。表 2-9 中给出了重要的双精度扩展存储格式位模式的示例。第二列中的位模式显示为一个 4 位十六进制计数，它是地址最高的 32 位字的 16 位最低有效位的值（还记得上述该地址最高的 32 位字的 16 位最高有效位是未用的，所以未显示其值），后面是两个 8 位十六进制计数，其中左侧是地址居中的 32 位字的值，右侧是地址最低的 32 位字的值。最大正正规数是以 x86 双精度扩展格式表示的最大有限数。最小正次正规数是以双精度扩展格式表示的最小正数。最小正正规数通常称为下溢阈值。（最大和最小正规数和次正规数的十进制值是近似的；对于所示的数字来说，它们是正确的。）表 2-9 双精度扩展格式位模式及其值 (x86) 通用名称位模式 (x86) 十进制值 +0 0000 00000000 00000000 0.0 -0 8000 00000000 00000000 -0.0 1 3fff 80000000 00000000 1.0 2 4000 80000000 00000000 2.0 最大正规数 7ffe ffffffff ffffffff 1.18973149535723176505e+4932 正最小正规数 0001 80000000 00000000 3.36210314311209350626e-4932 最大次正规数 0000 7fffffff ffffffff 3.36210314311209350608e-4932 最小正次正规数 0000 00000000 00000001 3.64519953188247460253e-4951 + 7fff 80000000 00000000 + – ffff 80000000 00000000 – 带有最大小数的静态 NaN 7fff ffffffff ffffffff QNaN 带有最小小数的静态 NaN 7fff c0000000 00000000 QNaN 带有最大小数的信号 NaN 7fff bfffffff ffffffff SNaN 带有最小小数的信号 NaN 7fff 80000000 00000001 SNaN ∞ ∞ ∞ ∞

点击进入文档下载页（PDF格式）

共260页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录