3.4分布式容错系统 错误的分类 错误一般被分为三类: ●偶发性错误:偶尔发生一次,然后再也不会发生的错 误。再重复操作一次,错误就会消失。 ,例如,一只鸟飞过微波传输器所发射的光束可能导致网络中 一 些数据位的丢失,但传输超时后再传输时,网络数据的传 输又恢复正常。 ·间歇性错误:一会儿发生一会儿消失,反复不断。 例如,网线接触不良会造成网络一会儿连通一会儿断连,这 种间歇性错误很难发现,因而危害性比较大。特别是当人们 使用各种手段进行诊断时,故障又消失了
3.4 分布式容错系统 错误的分类 错误一般被分为三类: ⚫ 偶发性错误:偶尔发生一次,然后再也不会发生的错 误。再重复操作一次,错误就会消失。 ⚫ 例如,一只鸟飞过微波传输器所发射的光束可能导致网络中 一些数据位的丢失,但传输超时后再传输时,网络数据的传 输又恢复正常。 ⚫ 间歇性错误:一会儿发生一会儿消失,反复不断。 ⚫ 例如,网线接触不良会造成网络一会儿连通一会儿断连,这 种间歇性错误很难发现,因而危害性比较大。特别是当人们 使用各种手段进行诊断时,故障又消失了
。永久性错误:当错误出现时,它是不会自动消失的, 必须将发生错误的部件修复后,错误才能消失。 。例如,芯片烧坏、软件错误以及磁盘磁头损坏等都属于永久 性错误。 ·设计和制造容错系统的目的:保证即使存在一些错误, 整个系统仍然能够正常地工作。 。 这个目标与设计各个独立可靠的部件是不相同的,因为它允 许当一些部件失效时,系统仍能正常运行
⚫ 永久性错误:当错误出现时,它是不会自动消失的, 必须将发生错误的部件修复后,错误才能消失。 ⚫ 例如,芯片烧坏、软件错误以及磁盘磁头损坏等都属于永久 性错误。 ⚫ 设计和制造容错系统的目的:保证即使存在一些错误, 整个系统仍然能够正常地工作。 ⚫ 这个目标与设计各个独立可靠的部件是不相同的,因为它允 许当一些部件失效时,系统仍能正常运行
错误或失效可能在任何一个层次发生:例如, 。晶体管、芯片、电路板、处理机、操作系统、用户程 序等等。 ·在容错系统中,需要对部件发生的错误进行分析 和统计。 。如果一个部件在一秒内发生错误的概率为, 那么,它连续k秒正常工作后发生错误的概率是 p(1-p)k 失败发生的均值由下面的公式给出: 00 发生错误的平均时间=∑k(1-p)1 k=1
⚫ 错误或失效可能在任何一个层次发生:例如, ⚫ 晶体管、芯片、电路板、处理机、操作系统、用户程 序等等。 ⚫ 在容错系统中,需要对部件发生的错误进行分析 和统计。 ⚫ 如果一个部件在一秒内发生错误的概率为p, 那么,它连续k秒正常工作后发生错误的概率是 p(1-p)k 失败发生的均值由下面的公式给出: = − = − 1 1 (1 ) k k 发生错误的平均时间 k p p
发生错误的平均时间=∑kI-p) k= 。对于上式,从k=1开始,使用级数无限求和公式: ∑ak=a/(1-a), 其中,a=(1-p),即 Σ(1-p)k=(1-p)/p=1/p-1 两边再对p求导数,即 -∑k(1-p)k-1=-1/p2 两边乘以-p,我们可以得到: 发生错误的平均时间=Σkp(1-p)k1=1/p 0 例如,如果一个部件发生错误的概率是每秒106,那么, 发生错误的平均时间就是106,也就是11.6天!
⚫ 对于上式,从k=1开始,使用级数无限求和公式: Σαk=α/(1-α), 其中,α=(1-p),即 Σ(1-p)k=(1-p)/p=1/p-1 两边再对p求导数,即 -Σk(1-p)k-1=-1/p2 两边乘以-p,我们可以得到: 发生错误的平均时间 = Σkp(1-p)k-1 =1/p ⚫ 例如,如果一个部件发生错误的概率是每秒10-6,那么, 发生错误的平均时间就是106,也就是11.6天! = − = − 1 1 (1 ) k k 发生错误的平均时间 k p p
3.4分布式容错系统 3.4.2系统失效 通常,在一个分布式系统中,人们希望系统能 够在一些部件发生错误时仍能继续正常工作, 而不仅仅一味地避免发生部件错误。 o 由于分布式系统中有很多的部件,所以,部件 发生错误的可能性比较大,因此,对于一个分 布式系统来说,系统的可靠性是非常重要的。 下面将讨论处理机发生错误或崩溃的情况,由 软件引起的进程错误和崩溃情况也基本上雷同
3.4 分布式容错系统 3.4.2 系统失效 ⚫ 通常,在一个分布式系统中,人们希望系统能 够在一些部件发生错误时仍能继续正常工作, 而不仅仅一味地避免发生部件错误。 ⚫ 由于分布式系统中有很多的部件,所以,部件 发生错误的可能性比较大,因此,对于一个分 布式系统来说,系统的可靠性是非常重要的。 ⚫ 下面将讨论处理机发生错误或崩溃的情况,由 软件引起的进程错误和崩溃情况也基本上雷同