当前位置：和泉文库 > 数学 > 浏览文档

《数值分析》课程教学资源（课外阅读）数值计算指南, Sun Microsystems, Inc., 2005

1. 简介 2. IEEE 算法 3. 数学库 4. 异常和异常处理 A. 示例 IEEE 算法数学库随机数生成器 IEEE 建议的函数 IEEE 特殊值 ieee_flags －舍入方向 C99 浮点环境函数异常和异常处理 ieee_flags －产生的异常 ieee_handler －捕获异常 ieee_handler －出现异常时终止 libm 异常处理功能在 Fortran 程序中使用 libm 异常处理杂项 sigfpe －捕获整数异常从 C 中调用 Fortran 有用的调试命令 B. SPARC 行为和实现浮点硬件浮点状态寄存器和队列需要软件支持的特殊类 fpversion(1) 函数－查找有关 FPU 的信息 C. x86 行为和实现 D. What Every Computer Scientist Should Know About Floating-Point Arithmetic 摘要简介舍入误差浮点格式相对误差和 Ulp 保护数位抵消精确舍入的运算 IEEE 标准格式与运算特殊数量 NaN 异常、标志和陷阱处理程序系统方面指令集语言和编译器异常处理详细资料二进制到十进制的转换求和中的误差参考书目定理 14 和定理 8 定理 14 证明各种 IEEE 754 实现的差别当前的 IEEE 754 实现在基于扩展的系统上计算的缺陷扩展精度的程序设计语言支持

文件格式：PDF，文件大小：2MB，售价：38.25元

共260页，可试读40页，点击往前阅读 ↑↑

文档详细内容（约260页）

2-12 《数值计算指南》 • 2005 年 1 月 NaN（非数）可以用任何满足 NaN 定义的位模式表示。表 2-9 中的 NaN 十六进制值显示出，小数字段的前导位（最高有效位）决定 NaN 是静态（前导小数位 = 1）的还是信号（前导小数位 = 0）的。 2.2.6 十进制表示法的范围和精度本节讨论给定存储格式的范围和精度概念。本节包含的范围和精度与 IEEE 单精度格式和双精度格式以及与 SPARC 和 x86 体系结构上 IEEE 双精度扩展格式的实现相对应。为了具体起见，我们用 IEEE 单精度格式来定义范围和精度概念。 IEEE 标准指定使用 32 位来表示单精度格式的浮点数。由于 32 个零和一的组合是有限的，所以使用 32 位仅能表示有限个数字。于是会出现这样一个很自然的问题：使用这种特定格式表示最大和最小正数的十进制表示法是什么？下面我们将这一问题改述来引入范围的概念：在十进制概念中，使用 IEEE 单精度格式可以表示的数字的范围是什么？考虑到 IEEE 单精度格式的准确定义，我们可以证明使用 IEEE 单精度格式可以表示的浮点数的范围（在限定在正的正规化数的基础上）如下所示： 1.175... × (10-38) 到 3.402... × (10+38) 第二个问题涉及到用给定格式表示的数字的精度（不要与准确度或有效数字数混淆）。我们将通过一些图片和示例来解释这些概念。二进制浮点计算的 IEEE 标准指定可以用单精度格式表示数字值集。请记住，我们将这种数字值集解释为二进制浮点数字集。 IEEE 单精度格式的有效数字有 23 位，加上隐式前导位，可以得到 24 位（二进制）精度。我们可以通过用以下方式标记数字来获得另一个数字值集： x = (x1.x2 x3...x q) (10n) （可以表示为 q 个用有效数字表示的十进制数字），如数轴所示。图 2-5 演示的就是这种情况：

2-14 《数值计算指南》 • 2005 年 1 月该程序的输出应与以下内容类似：赋予 y 的值 8.388612x105 与输出的值之差是 0.000000125，它比 y 小七个数量级。用 IEE E 单精度格式表示 y 的精确度约为 6 到 7 位有效数字，也就是说，如果要表示为 IEEE 单精度格式， y 大约有六位有效数字。同理，赋予 z 的值 1.3 与输出的值之差是 0.00000004768，它比 z 小八个数量级。用 IEE E 单精度格式表示 z 的精确度约为 7 到 8 位有效数字，也就是说，如果要表示为 IEEE 单精度格式， z 大约有七位有效数字。现在，我们用公式阐述一下这个问题：假定将十进制浮点数 a 转换为其 IEEE 单精度格式二进制表示法 b，然后将 b 再转换为十进制数 c ；那么， a 与 a - c 之间相差多少数量级呢？我们将这一问题改述如下：用 IEEE 单精度格式表示法表示的 a 的有效十进制数字数是多少，或当我们用 IEEE 单精度格式表示 x 时，有多少十进制数可以被当作是精确的？有效十进制数字数总是介于 6 和 9 之间，也就是说，最少 6 个，但不超过 9 个数字是精确的（除去例外情况，例如，当转换是精确的情况，当有无限多的数字可以是精确的情况）。反过来，如果将用 IEEE 单精度格式表示的二进制数转换为十进制数时，然后再转换为二进制，一般来说，您需要使用至少 9 位十进制数，以确保在经过两次转换后，能够获得转换前的数字。表 2-10 列出了这一问题的完整说明： y: 8.38861187500E+05 z: 1.29999995232E+00 表 2-10 存储格式的范围和精度格式有效数字（二进制）最小正正规数最大正数有效数字（十进制）单精度 24 1.175... 10-38 3.402... 10+38 6-9 双精度 53 2.225... 10-308 1.797... 10+308 15-17 双精度扩展 (SPARC) 113 3.362... 10-4932 1.189... 10+4932 33-36 双精度扩展 (x86) 64 3.362... 10-4932 1.189... 10+4932 18-21

2.2.7 Solaris环境中的基数转换基数转换指将在一个基数中表示的数字转换为在另一个基数中表示的数字。C中及基数0表示的数学间的转换 write和print等I/O例程都涉及到用基数2和 ·当读取用传统十进制表示法表示的数字并将其用内部二进制格式存储时，就会执行从基数10到基数2的转换。 ·当将内部二进制值作为十进制ASCI字符串打印时，则会执行从基数2到基数10的转换。在Solaris环境中，供所有语言使用的基数转换基础例程包含在标准C库1ibc中。这些例程使用表驱动算法，这种算法可以在输入格式和输出格式之间实现正确舍入的转换（服从对所涉及的十进制数字字符串长度的适当限制)。除了其精确性外，表驱动算法还减少了正确舍入基数转换出现最差情况的次数。 EEE标准要求对数量级从104到10+44的一般数字要正确舍入，面对更大的指数则分 4的5.6节。)1ibc表驱动算法可以对单精度、双精度和双精度扩展格式进行正确的舍入。在C中，根据E754,总是可以对十讲字符串与二讲制浮点值之间的转换讲行正确舍入：转换后的结果是结果的格式可以表示的数字，在当前舍入模式指定的方向下，它与原值最接近，当舍入模式是舍入到最接近值并且原值于两个可用结果格式表的正中间时，则转换后结果的最低有突这些规则适用于编译器执行的源代码中的常数转换，也适用于程序使用标准库例程执行的数据转换。在Fortran中，可以根据与C默认设置相同的规则，对十进制字符串和二进制浮点值进行正确的舍入。对于I/O转换，可以使用程序中的ROUNDING=说明符或利用 iorounding标记编译，覆盖舍入到最接近模式中的“舍入到偶数”规则。有关详细信息，请参见(Fortran用户指南》和f95(1)手册页。有关基数转换的参考信息，请参见附录F。Coonen的论述和Sterbenz的书都是非常好的参考资料。 2.3 下溢简而言之，下溢发生在以下情况下：算法运算的结果非常小，必须允许存在大于常规情况的舍入误差，才能以其预期的目标格式存储它。 1EEE算法2-15

IEEE 算法 2-15 2.2.7 Solaris 环境中的基数转换基数转换指将在一个基数中表示的数字转换为在另一个基数中表示的数字。C 中 printf 和 scanf 以及 Fortran 中的 read、 write 和 print 等 I/O 例程都涉及到用基数 2 和基数 10 表示的数字间的转换： ■ 当读取用传统十进制表示法表示的数字并将其用内部二进制格式存储时，就会执行从基数 10 到基数 2 的转换。 ■ 当将内部二进制值作为十进制 ASCII 字符串打印时，则会执行从基数 2 到基数 10 的转换。在 Solaris 环境中，供所有语言使用的基数转换基础例程包含在标准 C 库 libc 中。这些例程使用表驱动算法，这种算法可以在输入格式和输出格式之间实现正确舍入的转换（服从对所涉及的十进制数字字符串长度的适当限制）。除了其精确性外，表驱动算法还减少了正确舍入基数转换出现最差情况的次数。 IEEE 标准要求对数量级从 10-44 到 10+44 的一般数字要正确舍入，而对更大的指数则允许微小差别的舍入。（请参见 IEEE 标准 754 的 5.6 节。） libc 表驱动算法可以对单精度、双精度和双精度扩展格式进行正确的舍入。在 C 中，根据 IEEE 754，总是可以对十进制字符串与二进制浮点值之间的转换进行正确舍入：转换后的结果是结果的格式可以表示的数字，在当前舍入模式指定的方向下，它与原值最接近。当舍入模式是舍入到最接近值并且原值位于两个可用结果格式表示的数字的正中间时，则转换后结果的最低有效位数字是偶数。这些规则适用于编译器执行的源代码中的常数转换，也适用于程序使用标准库例程执行的数据转换。在 Fortran 中，可以根据与 C 默认设置相同的规则，对十进制字符串和二进制浮点值进行正确的舍入。对于 I/O 转换，可以使用程序中的 ROUNDING= 说明符或利用 -iorounding 标记编译，覆盖舍入到最接近模式中的 “舍入到偶数”规则。有关详细信息，请参见《Fortran 用户指南》和 f95(1) 手册页。有关基数转换的参考信息，请参见附录 F。 Coonen 的论述和 Sterbenz 的书都是非常好的参考资料。 2.3 下溢简而言之，下溢发生在以下情况下：算法运算的结果非常小，必须允许存在大于常规情况的舍入误差，才能以其预期的目标格式存储它

2-16 《数值计算指南》 • 2005 年 1 月 2.3.1 下溢阈值表 2-11 显示了单精度、双精度和双精度扩展格式的下溢阈值。正次正规数是介于零和最小正规数之间的数。从最小正规数减去两个（正）与之接近的微小数可以生成次正规数。另外，用最小正正规数除以二也可以生成次正规数。虽然次正规数本身的精度位数少于正规数，但利用次正规数可以提高微小数字的浮点计算精度。在数学计算中，当生成的正确结果的数量级低于最小正正规数时，就会生成次正规数（而不是返回零），这称为渐进下溢。要处理这种下溢结果，还有其他几种方法可供使用。一种过去常用的方法是，将这些结果刷新为零。这种方法称为 Store 0，在引入 IEEE 标准之前，这是大多数大型机的默认设置。一方面是获取一种强有力的数学解决方案的愿望，另一方面是创建一种可以有效实施的标准，在权衡这两方面的过程中，起草 IEEE 标准 754 的数学家和计算机设计人员考虑过多种方法。 2.3.2 IEEE 算法如何处理下溢？ IEEE 标准 754 选择渐进下溢作为处理下溢结果的首选方法。这种方法可以归结为定义两种存储值的表示方法：正规数和次正规数。您应该还记得正规浮点数的 IEEE 格式：其中 s 是符号位，e 是偏置指数，f 是小数。要完整指定数字，仅需要存储 s、e 和 f。由于对于正规数，将有效数字的隐式前导位定义为 1，所以需要存储它。表 2-11 下溢阈值目标精度下溢阈值单精度最小正规数最大次正规数 1.17549435e-38 1.17549421e-38 双精度最小正规数最大次正规数 2.2250738585072014e-308 2.2250738585072009e-308 双精度扩展 (SPARC) 最小正规数最大次正规数 3.3621031431120935062626778173217526e-4932 3.3621031431120935062626778173217520e-4932 双精度扩展 (x86) 最小正规数最大次正规数 3.36210314311209350626e-4932 3.36210314311209350590e-4932 (–1)s 2( ) e bias – × ( ) × 1.f

点击进入文档下载页（PDF格式）

共260页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录