9.4信息的度量与应用.ppt
9.4信息的度量与应用,怎么度量信息,首先分析一下问题的认识过程,1.对一问题毫无了解,对它的认识是不确定的,2.通过各种途径获得信息,逐渐消除不确定性,3.对这一问题非常的了解,不确定性很小,,,,,,对于系统,可以利用守恒关系有AIB,得IB-A。,可否用消除不确定性的多少来度量信息,几个例子,例12当你要到大会堂去找某一个人时,甲告诉你两条消息(1)此人不坐在前十排,(2)他也不坐在后十排;乙只告诉你一条消息此人坐在第十五排。问谁提供的信息量大,乙虽然只提供了一条消息,但这一条消息对此人在什么位置上这一不确定性消除得更多,所以后者包含的信息量应比前者提供的两条消息所包含的总信息量更大,例13假如在盛夏季节气象台突然预报“明天无雪”的消息。在明天是否下雪的问题上,根本不存在不确定性,所以这条消息包含的信息量为零。,是否存在信息量的度量公式,基于前面的观点,美国贝尔实验室的学者香农(Shannon)应用概率论知识和逻辑方法推导出了信息量的计算公式,Shannon提出的四条基本性质(不妨称它们为公理),公理1,信息量是该事件发生概率的连续函数,公理2,如果事件A发生必有事件B发生,则得知事件A发生的信息量大于或等于得知事件B发生的信息量。,公理3,如果事件A和事件B的发生是相互独立的,则获知A、B事件将同时发生的信息量应为单独获知两事件发生的信息量之和。,公理4,任何信息的信息量均是有限的。,将某事件发生的信息记为M,该事件发生的概率记为p,记M的信息量为I(M)。,上述公理怎样推出信息量的计算公式呢,定理11.2,满足公理1公理4的信息量计算公式为IM-Clogap,其中C是任意正常数,对数之底a可取任意为不为1的正实数。,证明,由公理1IMfp,函数f连续。,由公理2若A发生必有B发生,则pA≤pB,有fpA≥fPB,故函数f是单调不增的。,由公理3若A、B是两个独立事件,则A、B同时发生的概率为pApB,有fPAPBfpAfpB。,先作变量替换令pa-q,即q-logaP记,,又有,g亦为连续函数。,,,gxygxgy的连续函数有怎样的性质,首先,由g0g002g0得出g00或g0∞。但由公理4,后式不能成立,故必有g00。,记g1C,容易求得g22C,g33C,,一般地,有gnnC。进而,可得。于是对一切正有理数m/n,gm/nm/nC。,由连续性可知对一切非负实数x,有gxCx,当x取负实数时,由gxg-xg00,可得出gxgxcx也成立,从而对一切实数x,gxCx,故gqCq。,若取a2,C1,此时信息量单位称为比特若取a10,C1,此时信息量单位称为迪吉特若取ae,C1,此时信息量单位称为奈特,例14设剧院有1280个座位,分为32排,每排40座。现欲从中找出某人,求以下信息的信息量。(i)某人在第十排;(ii)某人在第15座;(iii)某人在第十排第15座。,解在未知任何信息的情况下,此人在各排的概率可以认为是相等的,他坐在各座号上的概率也可以认为是相等的,故,(i)“某人在第十排”包含的信息量为(比特),(ii)“某人在第15座”包含的信息量为(比特),(iii)“某人在第十排第15座”包含的信息量为(比特),,,5bit5.32bit10.32bit,这一例子反映了对完全独立的几条信息,其总信息量等于各条信息的信息量之和。,对于相应不独立的信息,要计算在已获得某信息后其余信息的信息量时,需要用到条件概率公式,可以参阅信息论书籍。,平均信息量(熵)问题,设某一实验可能有N种结果,它们出现的概率分别为p1,,pN,则事先告诉你将出现第i种结果的信息,其信息量为-log2pi,而该实验的不确定性则可用这组信息的平均信息量(或熵)来表示,例15投掷一枚骼子的结果有六种,即出现16点、出现每种情况的概率均为1/6,故熵Hlog26≈2.585(比特)。投掷一枚硬币的结果为正、反面两种,出现的概率均为1/2,故熵Hlog221(比特)。向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出现的概率为1,故熵Hlog210,从例子可以看出,熵实质上反映的是问题的“模糊度”,熵为零时问题是完全清楚的,熵越大则问题的模糊程度也越大,离散型概率分布的随机试验,熵的定义为(11.5),连续型概率分布的随机试验,熵的定义为(11.6),熵具有哪些有趣的性质,定理11.3,若实验仅有有限结果S1,,Sn,其发生的概率分别为P1,,Pn,则当时,此实验具有最大熵。,此定理既可化为条件极值问题证明之,也可以利用凸函数性质来证明,请大家自己去完成,定理9.4,若实验是连续型随机试验,其概率分布Px在[a,b]区间以外均为零,则当Px平均分布时具有最大熵。,定理9.5,对于一般连续型随机试验,在方差一定的前提下,正态分布具有最大的熵。,定理9.6,最大熵原理,即受到相互独立且均匀而小的随机因素影响的系统,其状态的概率分布将使系统的熵最大。,上述结果并非某种巧合。根据概率论里的中心极限定理,若试验结果受到大量相互独立的随机因素的影响,且每一因素的影响均不突出时,试验结果服从正态分布。最大熵原理则说明,自然现象总是不均匀逐步趋于均匀的,在不加任何限止的情况下,系统将处于熵最大的均匀状态。,例16有12个外表相同的硬币,已知其中有一个是假的,可能轻些也可能重些。现要求用没有砝码的天平在最少次数中找出假币,问应当怎样称法。,解假币可轻可重,每枚硬币都可能是假币。故此问题共有24种情况,每种情况的概率为1/24。所以此问题的熵为log224。,确定最少次数的下界,实验最多可能出现三种结果,根据定理11.3,这种实验在可能出现的各种事件具有相等的概率时,所提供的平均信息量最大,故实验提供的平均信息量不超过log23。,设最少需称k次,则这k次实验提供的总信息量不超过klog23log23k,又问题的模糊度(熵)为log224必要条件log23k≥log224,得k≥3。,称三次足够了吗,实验方法使每次实验提供尽可能大的平均信息量。,第一次将12枚硬币平分成三堆,取两堆称,出现两中情况,三次是最少次数,英文的熵是多少呢,例17在人类活动中,大量信息是通过文字或语言来表达的,而文学或语言则是一串符号的组合。据此,我们可以计算出每一语种里每一符号的平均信息量。例如,表11-2、表11-3、表11-4分别是英语、德语和俄语中每一符号(字母与空格,标点符号不计)在文章中出现的概率的统计结果(汉语因符号繁多,难以统计),英文的多余度,信息通道的容量问题,问题背景,信息的传递是需要时间的。用n个符号S1、、Sn来表达信息,各符号传递所需时间是各不相同的,设分别为t1、、tn,并设各符号出现的概率分别为p1、、pn。这样,就出现了两方面的问题。,一、pi是确定的,如何缩短传递确定信息所需的时间。,二、ti是确定的,如何使单位时间传递的平均信息量最大。,单位时间内信息通道能够传递的最大平均信息量称为此信息通道的容量,如何求信息通道的容量,每一符号的平均信息量为,每一符号所需的平均时间为,故单位时间内传递的平均信息量应为,问题化为,(11.7),利用拉格朗日乘子法,(11.7)式可化为无约束极值问题,(11.8),记(11.8)式的目标函数为fp,λ,即求解方程组,(11.9),方程组(11.9)的解为,由于是与pi有关的量,方程组的解仍无法算出为此,记,例18为简单起见,设符号只有四种S1、S2、S3和S4,在利用这些符号传递信息时,这些符号分别需要1、2、3、4单位传递时间,试求出此信息通道的容量及相应的最佳pi值。,而,