2分布式数据库系统的故障原因和容错技术 21系统失败的原因 系统( System).是由一组组件构成的一种机制,这些 组件通过响应来自某个环境的具有可识别行为模式的 刺激而相互作用 环境 系统 component1+ component 刺激 响应 component3 系统规范说明( Specification)系统提供的对所有可能 的刺激将产生的响应行为必须遵循的说萌
• 系统(System) 是由一组组件构成的一种机制,这些 组件通过响应来自某个环境的具有可识别行为模式的 刺激而相互作用。 component1 component2 component3 环境 系统 刺激 响应 • 系统规范说明(Specification) 系统提供的对所有可能 的刺激将产生的响应行为必须遵循的说明 2.1 系统失败的原因 2 分布式数据库系统的故障原因和容错技术
2分布式数据库系统的故障原因和容错技术 21系统失败的原因 故障 任何偏离规范说明的行为 软故障和硬故障 软故障包括间歇性( Intermittent)和瞬变性 ( transient)故障,通过重启动来修复 硬故障指永久性故障,错误设计等 软件和硬件故障
• 故障 – 任何偏离规范说明的行为 • 软故障和硬故障 – 软故障包括间歇性(intermittent)和瞬变性 (transient)故障,通过重启动来修复 – 硬故障指永久性故障, 错误设计等 • 软件和硬件故障 2.1 系统失败的原因 2 分布式数据库系统的故障原因和容错技术
2分布式数据库系统的故障原因和容错技术 21系统失败的原因 软故障占90%以上并且该比例稳定 67年,美空军指出计算机中电子故障80%是间 歇性的 67年,IBM指出90%故障是间歇性的 80年,研究指出软故障眀显髙于硬故障 87年,(iay指出大部分软件故障是瞬变性故障
• 软故障 占90%以上并且该比例稳定 – 67年, 美空军指出计算机中电子故障80%是间 歇性的 – 67年,IBM 指出 90%故障是间歇性的 – 80年,研究指出软故障明显高于硬故障 – 87年,Gray指出 大部分软件故障是瞬变性故障 2.1 系统失败的原因 2 分布式数据库系统的故障原因和容错技术
2分布式数据库系统的故障原因和容错技术 21系统失败的原因 审查不同计算机系统中出错的统计数据 IBM/XA的OS可靠性报告57%是硬件,12%软件, 14%操作,7%环境(斯坦福线性加速器SLAC) Tandem计算机18%硬件25%软件25%维护 17%操作,14%环境 AT&T5ESS数字交换机32.3%硬件,44.3%软件, 17.5%操作 软件故障 通信或DB的原因是产生软件故障的主要原因 代码中的Bug,曾有报告指出,1000条指令中,0.25-10 个BUG
• 审查不同计算机系统中出错的统计数据 – IBM/XA 的OS 可靠性报告 57%是硬件, 12% 软件, 14%操作, 7% 环境(斯坦福 线性加速器SLAC) – Tandem计算机 18%硬件 25% 软件 25%维护 17%操作, 14%环境 – AT&T 5ESS数字交换机 32.3%硬件, 44.3%软件, 17.5%操作 • 软件故障 – 通信或DB的原因是产生软件故障的主要原因. – 代码中的Bug, 曾有报告指出, 1000条指令中, 0.25-10 个BUG 2.1 系统失败的原因 2 分布式数据库系统的故障原因和容错技术
永久性 永久性 故障 错误 错误的 设计 间歇性 个稳定 或者 错误 临界的 组件 系统失败 不稳定的 瞬变的 外部环境 错误 操作者 的过失 系统失败的原因
永久性 故障 错误的 设计 不稳定 或者 临界的 组件 不稳定的 外部环境 操作者 的过失 系统失败 永久性 错误 间歇性 错误 瞬变的 错误 系统失败的原因