测量已知左边不通,若右边不通也只需在后面测量),根据通与不通就可得知是哪两个灯泡中有可能坏的。第二次测量后变成猜测两个灯泡中哪一个是损坏的情况了,这时后验概率为P(r)1/2。因此,尚存在的不确定性是IP(),第二次测量所获得的信息量(2.11)第三次测量只需在两个灯泡中进行。在图2.2中假设第二次测量的结果是不通,也就知道损坏的灯泡在最左边两个之一。这样,第三次测量如图2.2所示,通过第三次测量完全消除了不确定性,能获知哪个灯泡是坏了的。第三次测量后已不存在不确定性了,因此,尚存在的不确定性等于零。第三次测量获得的信息量(2.12)[)-0=(.1根据后面分析可知,这函数 I[P(r)=log P()。若取对数以2为底,计算得1(比特)第一次测量获得的信息量=log2P()-1og2P()5=111(比特)第二次测量获得的信息量=loge P()-log2P()5=11第三次测量获得的信息量=log2P,()=1(比特)因此,要从8个等可能损坏的串联灯泡中确定哪个灯泡是坏的,至少要获得3比特的信息量。否则,是无法确切知道哪个灯泡已坏了。在信息传输的一般情况下,收信者所获得的信息量应等于信息传输前后不确定性的减少(消除)的量。因此,我们直观地把信息量定义为:收到某消息获得的信息量(即收到某消息后获得关于某基本事件发生的信息量)=不确定性减少的量(收到此消息前关于某事件发生的不确定性)一(收到此消息后关于某事件发生的不确定性)在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,所以收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得收到某消息获得的信息量一收到消息前关于某事件发生的不确定性三信源输出的某消息中所含有的信息量我们也已经知道,事件发生的不确定性与事件发生的概率有关。事件发生的概率越小,我们猜测它有没有发生的困难程度就越大,不确定性就越大。而事件发生的概率越大,我们猜测这事件发生的可能性就越大,不确定性就越小。对于发生概率等于1的必然事件,就不存在不确定性。因此,某事件发生所含有的信息量应该是该事件发生的先验概率的函数(a)=fP(a,)(2.13)式中,P(a,)是事件a;发生的先验概率,而I(a,)表示事件a,发生所含有的信息量,我们称之为ai的自信息量。根据客观事实和人们的习惯概念,函数P(a,)应满足以下条件:(1)f(P)应是先验概率P(a,)的单调递减函数,即当P(a)>P2a2)时(2.14)F(P)<f(P2)(2)当P(a,)=1时,f(P)=0(2.15)(3)当P(a,)=0时,f(P)=o0;(2.16)(4)两个独立事件的联合信息量应等于它们分别的信息量之和,即统计独立信源的信息量等于它们分别的信息量之和。:23-
根据上述条件可以从数学上证明这种函数形式是对数形式,即1I(a,) = log P(a,)(2.17)现举例说明自信息量的函数形式是对数形式【例2.2】设在甲布袋中,放人n个不同阻值的电阻。如果随意选取出一个,并对取出的电阻值进行事先猜测,其猜测的困难程度相当于概率空间的不确定性。甲布袋的概率空间为a2,an1Xal,HP(a,) = 1P(r)LP(a),P(a2),,P(a,)其中,a,代表阻值为2,的电阻,P(a,)是选取出阻值为2.电阻的概率且0<P(a)≤1。为简便起见,假设电阻选取的概率是相等的,则P(a,)=10,=1,2....,n.n那么,接收到“选取出阻值为的电阻”所获得的信息量为I(a,)=f[P(a,)=f(2.18)其次,设在乙布袋中,放入按功率划分的m种不同功率的电阻。如果对任意选取出来的功率值进行事先猜测,那么,可看成为另一概率空间b2,br,bm7.5YP(b,) = 1P()LP(b),P(ba),...,P(bm)-其中,b,代表功率为W,的电阻,P(b,)是选取出功率为W,的电阻的概率且0<P(b,)≤1。此处仍然假设m种不同功率的选择也是等概率的,则被告知“选取出功率为W,的电阻"所获得的信息量为I(b,) =f[P(b,)]=[(2.19)这两个函数「!和「!应该是同一类函数。若再设在第三个布袋中,放入有n种不同阻值,而每一种阻值又有m种不同功率的电阻,即共有nXm个电阻,并设它们的选取也是等可能性的,那么,新的概率空间为2P(c) = 1…P(z)slnmnmnm其中0<P(c)<1(k=1,2,,nm),则"选取出阻值为2,功率为W,的电阻"这一事件提供的信息量应为()=[二(2.20)事实上,从第三个布袋中选出一个电阻的效果相当于从甲布袋中选择一个电阻后再从乙布袋中选择一个电阻。因此,“选取出阻值为,功率为W,的电阻”这事件提供的信息量应该是“选取出阻值为2”和“选取出功率为W这两事件提供的信息量之和,即(c)=I(a,)+(b,)()=()+()又(2.21)这是一个简单的函数方程,可以解得满足条件的函数形式为f(P)=-logP(a,)所以,式(2.18)~式(2.20)应该是I(a,)= log n,I(b,)=logm,I(c)=lognm.24
I(c)=I(a,)+I(b,)显然满足因此,我们用式(2.17)来定义自信息量,其中概率P(a;)必须先验可知的,或事先可测定的。设离散信源X,其概率空间为a2,,agx1-[al.P(a)=1P(a),P(a2),..,P(a)]P(r)其中0≤P(a,)<1(i=1,2,,q)。如果知道事件a;已发生,则该事件所含有的信息量称为自信息,定义为(2. 22)I(a,) = log P(a,)I(a,)代表两种含义:当事件a;发生以前,表示事件a发生的不确定性;当事件a发生以后表示事件a:所含有(或所提供)的信息量在无噪信道中,事件a;发生后,能正确无误地传输到收信者,所以I(a)可代表接收到消息a后所获得的信息量。这是因为消除了I(a)大小的不确定性,才获得这么大小的信息量。自信息采用的单位取决于对数所选取的底。由于P(a,)是小于1的正数,又根据实际情况自信息I(a,)也必然是正数,所以对数的底应选为大于1的任意数。如果取以2为底,则所得的信息量单位称为比特(bit,binaryunit的缩写)。即1(比特)I(a;) = logz P(a,)如果采用以e为底的自然对数,则所得的信息量单位称为奈特(nat,natureunit的缩写),即(奈特)I(a,) = In P(a,)若采用以10为底的对数,则所得的信息量单位称为哈特(hart,hartley的缩写,以纪念哈特莱首先提出用对数来度量信息),即1I(a,) = Ig P(a.)(哈特)一般情况,如果取以r为底的对数,(r>1)则1(r进制单位)I(a,) = logr P(a,)根据对数换底关系有loghXlog.X=logia故得1奈特=log2e~1.443比特1哈特=log210~3.322比特以后,一般都采用以2为底的对数,且为了书写简洁,把底数“2略去不写。我们可以看到,如果P(a,)=1/2则I(a,)=1比特。所以1比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。注意:这里比特是指抽象的信息量单位。与计算机术语中“比特”的含义有所不同,它是代表二元数字(binarydigits)。这两种定义之间的关系是每个二元数字所能提供的最大平均信息量为1比特。2.2.2信息摘前面定义的自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。所以自信息I(a,)是一个随机变量,不能用它来作为整个信源的信息测度。.25
我们定义自信息的数学期望为信源的平均自信息量,即H(X) =E[og , ] -(a,)og(a,)(2.23)这个平均自信息的表达式与统计物理学中热嫡的表达式很相似。在统计物理学中,热嫡是一个物理系统杂乱性(无序性)的度量,这在概念上两者也有相似之处。因而我们就借用“摘”这个词把H(X)称为嫡。有时为了区别,称为信息炳。信息摘的单位由自信息的单位来决定,即取决于对数选取的底。如果选取以r为底的对数,那么,信息嫡选用r进制单位,即P(a)log,P(a)(r进制单位/符号)H,(X) =-)(2.24)一般选用以2为底时,信息摘写成H(X)形式,其中变量X是指某随机变量的整体。r进制信息摘H,(X)与二进制信息摘H(X)的关系是H,(X) = H(X)(2.25)logr信源的信息摘H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体信息测度的。对于某特定的信源(概率空间给定),其信息嫡是一个确定的数值。不同的信源因统计特性不同,其摘也不同。现我们举一具体例子,来说明信息摘的含义。例如,有一布袋内放100个球,其中80个球是红色的,20个球是白色的。随意摸取一个球.猜测是什么颜色,这一随机事件的概率空间为XFafa2L0.8.0.2P(r)式中,ai表示摸出的是红球:a2表示摸出的是白球。如果被告知摸出的是红球,那么获得的信息量是[(a)=—logP(a)=-log0.8(比特)如被告知摸出来的是白球,所获得的信息量应为I(a2)=-logP(a2)=log0.2(比特)若每次摸出一个球后又放回去,再进行第二次摸取。那么摸取n次中,红球出现的次数约为nP(a)次,白球出现的次数约为nP(a2)次。则摸取n次后总共所获得的信息量为nP(a)I(a)+nP(a)I(a2)这样,平均摸取一次所能获得的信息量约为H(X)=-[P(a)logP(a)+P(a)logP(uz))P(a,)logP(a,)显然,这就是信源X的信息炳H(X)。因此信息炳是从平均意义上来表征信源的总体信息测度的一个量。信息摘具有以下三种物理含意:第一,信息摘H(X)是表示信源输出后,每个消息(或符号)所提供的平均信息量。第二,信息炳H(X)是表示信源输出前,信源的平均不确定性。例如有两个信源,其概率空间分别为「bbA[0.99,0.01」[P(y)]L0.5,0.5]P(r)则信息摘分别为H(X)=—0.99log0.99—0.01log0.01=0.08(比特/符号)H(Y)=-0.5log0.5-0.5log0.5=1(比特/符号).26:
H(Y)>H(X)可见信源Y比信源X的平均不确定性要大。我们观察信源Y,它的两个输出消息是等可能性的,所以在信源没有输出消息以前,事先猜测哪一个消息出现的不确定性要大。而对于信源X,它的两个输出消息不是等概率的,事先猜测a和a2哪一个出现,虽然具有不确定性,但大致可以猜测ai会出现,因为ai出现的概率大,所以信源X的不确定性要小。因而,信息摘正好反映了信源输出消息前,接收者对信源存在的平均不确定程度的大小。第三,用信息摘H(X)来表征变量X的随机性。如前例,变量Y取b,和bz是等概率的,所以其随机性大。而变量X取ai的概率比取a2的概率大很多,这时,变量X的随机性就小。因此,H(X)反映了变量的随机性。信息摘正是描述随机变量X所需的比特数。应该注意的是:信息摘是信源的平均不确定的描述。在一般情况下,它并不等于平均获得的信息量。只是在无噪情况下,接收者才能正确无误地接收到信源所发出的消息,全部消除了H(X)大小的平均不确定性,所以获得的平均信息量就等于H(X)。后面将会看到:在一般情况下获得的信息量是两嫡之差,并不是信息炳本身。【例2.3】现进一步分析例2.1。在例2.1中8个灯泡构成一信源X,每个灯泡损坏的概率都相等。这个信源为X『a,az,,agP(a.) = 1P(r)1/8.1/8....1/8i=其中,a,(i=1,2,,8)表示第i个灯泡已损坏的事件,信源X共有8种等可能发生事件。可计算得此信源的信息六贵1g言=log8=3(比特/符号)H(X) =-18*1这H(X)正好表示在获知哪个灯泡已损坏的情况前,关于哪个灯泡已损坏的平均不确定性。因此,只有获得3比特的信息量,才能完全消除平均不确定性,才能确定是哪个灯泡坏了。在例2.1中可以看到,这种测量方法每次只能获得1比特信息量。由此可知,至少要测量三次才能完全消除不确定性。【例2.4】设某甲地的天气预报为:晴(占4/8)、阴(占2/8)、大雨(占1/8)、小雨(占1/8),又设某乙地的天气预报为:晴(占7/8),小雨(占1/8)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0,另一种是晴、阴、小雨、大雨出现的概率都相等,为1/4。试求这两极端情况所提供的平均信息量。又试求乙地出现这两种极端情况所提供的平均信息量。解:甲地天气预报构成的信源空间为阴,大雨,厂晴,小雨XP(1)1/2.1/4,1/8,1/8则其提供的平均信息量即信源的信息摘P(a,)logP(a,)H(X)=-111log言1-1og六og言(比特)=1.75(比特)10g12188A同理,乙地天气预报的信源空间为晴,小雨YP(y)L7/81/87.171Llog81og7=0.544(比特)H(Y)-= log8log88818.27: