® 存储系统的可靠性 llxx@ustc.edu.cn
存储系统的可靠性 llxx@ustc.edu.cn
内容提要 ·校验码技术,RV$5.5 -海明码:存储器,唐$4.2.6 -CRC码:磁盘,网络,唐$4.4.6 硬盘数据保护技术 ·RAID技术:磁盘阵列,RV$5.11
内容提要 • 校验码技术,RV$5.5 – 海明码:存储器,唐$4.2.6 – CRC码:磁盘,网络,唐$4.4.6 • 硬盘数据保护技术 • RAID技术:磁盘阵列,RV$5.11
Google2009:数据存储设备可靠性 ·DRAM错误率超出人们预想 “可能成为系统宕机和服务中断的罪魁祸首'” DMM中有约8.2%受到了可修正错误的影响 平均一个DIMM每年发生3700次可修正错误 错误类型:软错误、硬错误 ·由电磁干扰或者硬件故障所导致 。 软错误:很少损坏字位,是可修正的; 硬错误:会损坏字位而成为物理缺陷,从而造成数 据错误的反复发生。 硬盘:数据失效率高达6%(厂商:2%)》 一错误类型:位跳变(可由ECC纠错),物理损坏
Google2009:数据存储设备可靠性 • DRAM错误率超出人们预想 – “可能成为系统宕机和服务中断的罪魁祸首” • DIMM中有约8.2%受到了可修正错误的影响 • 平均一个DIMM每年发生3700次可修正错误 – 错误类型:软错误、硬错误 • 由电磁干扰或者硬件故障所导致 • 软错误:很少损坏字位,是可修正的; • 硬错误:会损坏字位而成为物理缺陷,从而造成数 据错误的反复发生。 • 硬盘:数据失效率高达6%(厂商:2%) – 错误类型:位跳变(可由ECC纠错),物理损坏
“风云一号”气象卫星提前退役 宇宙环境中存在大量由电子、质子和α粒子 等高能粒子构成的宇宙射线,当这些穿透力 很强的射线轰击半导体电路时,可能导致 PN结存储的电量发生瞬态变化. 虽然这种瞬态故障一般不会对硬件造成持 久伤害,但是可以通过改变传输信号和存储 单元值等方式影响系统的正常运行,严重时 会造成系统崩溃 硬件瞬态故障对系统可靠性的影响可分为 数据流错误和控制流错误
“风云一号”气象卫星提前退役 • 宇宙环境中存在大量由电子、质子和 α粒子 等高能粒子构成的宇宙射线, 当这些穿透力 很强的射线轰击半导体电路时, 可能导致 PN 结存储的电量发生瞬态变化. • 虽然这种瞬态故障一般不会对硬件造成持 久伤害 ,但是可以通过改变传输信号和存储 单元值等方式影响系统的正常运行, 严重时 会造成系统崩溃 • 硬件瞬态故障对系统可靠性的影响可分为 数据流错误和控制流错误
FAULT-TOLERANT COMPUTING STC Failure(失效故障):When a component is not living up to its specifications,a failure occurs Error(错误):The part of a component's state that can lead to a failure Fault(缺陷/故障):The cause of an error..Types: - Transient(偶发):occur once,then disappear -Intermittent(间歇:occur,.then vanish,then reappear -Permanent(持久):continues to exist 指标 -可靠性:MTBF=MTTF+MTTR,AFR -可用性=MTTF/(MTTF+MTTR) 9°s Availability Downtime/Year Examples MTBF 1 90.0% 36 days 12 hours Personal clients 2 99.0% 87 hours 36 minutes Entry-level businesses MTTF MTTD MTTR MTTF 3 99.9% 8 hours 46 minutes ISPs,mainstream businesses Correct behavior Diagnose Repair Correct behavior Time 4 99.99% 52 minutes 33 seconds Data centers 5 99.999% 5 minutes 15 seconds Carrier-grade Telco,medical, First Begin End Second banking Failure Repair Repair Failure 99.9999% 31.5 seconds Military defense system
FAULT-TOLERANT COMPUTING • Failure(失效/故障): When a component is not living up to its specifications, a failure occurs • Error(错误): The part of a component's state that can lead to a failure • Fault(缺陷/故障): The cause of an error. Types: – Transient(偶发): occur once, then disappear – Intermittent(间歇): occur, then vanish, then reappear – Permanent(持久): continues to exist • 指标 – 可靠性:MTBF = MTTF+MTTR,AFR – 可用性=MTTF/(MTTF+MTTR)