条件概率、全概率公式与贝叶斯公式.docx
条件概率、全概率公式与贝叶斯公式 一、背景 一个随机事件的概率,确切地说,是指在某些给定的条件下,事件发生的可能性大小的度量.但如果给定的条件发生变化之后,该事件的概率一般也随之变化.于是,人们自然提出如果增加某个条件之后,事件的概率会怎样变化的它与原来的概率之间有什么关系显然这类现象是常有的. [例1]设有一群共人,其中个女性,个是色盲患者.个色盲患者中女性占个.如果{从中任选一个是色盲},{从中任选一个是女性},此时,.如果对选取规则附加条件只在女性中任选一位,换一句话说,发生之后,发生的概率暂且记为自然是. [例2]将一枚硬币抛掷,观察其出现正反面的情况.设事件为“两次掷出同一面”,事件为“至少有一次为正面H”.现在来求已知事件已经发生的条件下事件发生的概率. 这里,样本空间.易知此属于古典概型问题.已知事件已发生,有了这一信息,知道不可能发生,即知试验所有可能结果所成的集合就是.中共有3个元素,其中只有属于.于是,在发生的条件下,发生的概率为 对于例1,已知 容易验证在发生的条件下,发生的概率 对于例2,已知 容易验证发生的条件下,发生的概率 对一般古典概型,容易验证只要,则在发生的条件下,发生的概率, 总是成立的. 在几何概率场合,如果向平面上单位正方形内等可能任投一点,则当发生的条件下,这时发生的概率为 由此可知对上述的两个等可能性的概率模型,总有成立. 其实,还可以验证,这个关系式对频率也是成立的.于是,从这些共性中得到启发,引入下面的一般定义. 二、条件概率 若是一个概率空间,,若,则对于任意的,称 为已知事件发生的条件下,事件发生的条件概率. [例3]一盒子中装有4只产品,其中有3只是一等品,1只是二等品.从中取产品两次,每次任取一只,作不放回抽样,设事件为“第二次取到的是一等品”,事件为“第一次取到的是一等品”,试求条件概率 解易知此属古典概型问题.将产品编号1,2,3号为一等品,4号为二等品.以表示第一次、第二次分别取到第号、第号产品.试验E 取产品两次,记录其号码的样本空间为 {1,2,1,3,1,4, 2,1,2,3,2,4, 3,1,3,2,3,4, 4,1,4,2,4,3} {1,2,1,3,1,4, 2,1,2,3,2,4, 3,1,3,2,3,4} {1,2,1,3, 2,1,2,3, 3,1,3,2} 由条件概率公式得, [例4]一个家庭中有两个小孩,已知其中有一个是女孩,问这时另一个小孩也是女孩的概率假定一个小孩是女孩还是男孩是等可能的 解据题意样本空间为 {男,女,男,男,女,女,女,男} {已知有一个是女孩}{男,女,女,女,女,男} {另一个小孩也是女孩}{女,女} 于是,所求概率为 三、条件概率的性质 1非负性对任意的 2规范性 3可列可加性若为一列两两不相交的事件,有 证明1因为所以 2由于,所以 3由于两两不相交,所以也必然两两不相交,所以 四、乘法公式 由条件概率的定义知设,则.于是, 这就是概率的乘法公式. 如果,同样有 设且则 证明因为,依条件概率的定义,上式的右边 五、乘法公式的应用例子 [例5] 设某光学仪器厂制造的透镜,第一次落下时打破的概率为1/2,若第一次落下时未打破,第二次落下时打破的概率为7/10,若前两次时未打破,第三次落下时打破的概率为9/10,试求透镜落下三次而未打破的概率. 解以表示事件“透镜第次落下时打破”,以表示事件“透镜三次落下而未打破”.因为,故有 [例6] 设袋中装有只红球,只白球.每次自袋中任取一只球,观察其颜色后放回,并再放入只与所取出的那个球同色的球.若在袋中连续取球四次,试求第一、二次取到红球且第三、四次取到白球的概率. 解以表示事件“第次取到红球”,分别表示事件第三、四次取到白球.所求概率为 [例7] 卜里耶模型罐中有只黑球,只红球,随机地取一只之后,把原球放回,并加进与抽出的球同色之球只,再摸第二次,这样下去共摸次.问前次出现黑球,后面次出现红球概率是多少 解以表示事件“第k次取到黑球”,表示事件“第次取到红球”,则 由一般乘法公式, 1.在例7中,最后答案与黑球和红球出现的次数有关,而与出现的顺序无关. 2.卜里耶模型被卜里耶用来描述传染病的数学模型. 当时,它是有放回的摸球模型. 当时,它是不放回的摸球模型. 思考题在卜里耶模型中,取次,问正好出现次红球概率是多少 [例8]一批产品共100件,对其进行抽样调查,整批产品看作不合格的规定是在被检查的5件产品中至少有一件是废品.如果在该批产品中有5是废品,试问该批产品被拒绝接收的概率是多少 解设表示被检查的第件产品是正品.表示该批产品被接收.则且 因此,该批产品被拒绝接收的概率是0.23。 作业 P55 EX 29,30,31 六、全概率公式 设是两个事件,那么可以表示为 显然,,如果则 [例1] 1号箱中有2个白球和4个红球,2号箱中有5个白球和3个红球,现随机地从1号箱中取出一球放入2号箱,然后从2号箱随机取出一球,问从2号箱取出的红球的概率是多少 解令最后从2号箱中取出的是红球; 从1号箱中取出的是红球. 则 由上面的公式, 上例采用的方法是概率论中颇为常用的方法,为了求复杂事件的概率,往往可以把它分解成若干个互不相容的简单事件之并,然后利用条件概率和乘法公式,求出这些简单事件的概率,最后利用概率可加性,得到最终结果,这一方法的一般化就是所谓的全概率公式. 设为试验的样本空间,为的事件,为的一组事件.若 1 2 则称为样本空间的一个分割. 若为样本空间的一个分割,那么,对每一次试验,事件必有一个且仅有一个发生. [例2]设试验为“掷一颗骰子观察其点数”.它的样本空间.的一组事件是样本空间的一个分割.而事件组不是样本空间的一个分割,因为 [例3]甲、乙、丙三人向同一飞机射击.设样本空间{无人命中飞机,一人命中飞机,二人命中飞机,全命中}.的一组事件{三人以下命中飞机},{全命中飞机}是样本空间的一个分割. 设试验E的样本空间,为的事件,为的一个分割,且,则 上式被称为全概率公式. 证明,所以 由假设,且所以 由条件概率公式,得 代入上式,即得 [例4]甲、乙、丙三人向同一飞机射击.设甲、乙、丙射中的概率分别为0.4,0.5,0.7.又设若只有一人射中,飞机坠落的概率为0.2,若有二人射中,飞机坠落的概率为0.6,若有三人射中,飞机必坠落.求飞机坠落的概率. 解记{飞机坠落},{个人射中飞机}, 甲射中,乙丙未射中乙射中,甲丙未射中丙射中,甲乙未射中 再由题设, 利用全概率公式, [例5]播种用的小麦种子混有2的二等种子,1.5的三等种子,1的四等种子,用一等、二等、三等、四等种子长出的麦穗含有50颗麦粒以上的概率为0.5,0.15,0.1,0.05,求这批所结出的麦穗含有50颗麦粒以上的概率. 解设{从这批种子任选一颗种子是等种子},. {从这批种子任选一颗,所结出的麦穗含有50颗麦粒以上} 则 由全概率公式 在例题5中,,这对于农业技术人员来说,这个数据是重要的,但对育种专家来说,仅有这个数据是不够的.因为他们更感兴趣的是下面的问题. [例6]在例题5中,问由这批所结出的含有50颗麦粒以上麦穗中是一等、二等种子长出的概率. 解 在上面的计算中,事实上建立了一个著名的公式Bayes公式. 七、贝叶斯公式 设试验的样本空间,为的事件,为的一个分割,且,则 上式称为贝叶斯公式. 证明由条件概率,知 和全概率公式 [例7]某电子设备厂所用的元件是由三家元件厂提供的,根据以往的记录,这三个厂家的次品率分别为0.02,0.01,0.03,提供元件的份额分别为0.15,0.8,0.05,设这三个厂家的产品在仓库是均匀混合的,且无区别的标志. 1在仓库中随机地取一个元件,求它是次品的概率. 2在仓库中随机地取一个元件,若已知它是次品,为分析此次品出自何厂,需求出此品由三个厂家生产的概率是多少 解设取到的元件是次品,表示取到的元件是由第个厂家生产的. 1由全概率公式, 2由贝叶斯公式, 以上结果表明,这只产品来自第2家工厂的可能性最大. 八、贝叶斯方法 从这道题中我们看出,“取一个元件”是进行一个试验,那么是在试验以前就已经知道的,所以习惯地称它们为先验概率.实际上它是过去已经掌握的生产情况的反映,对试验要出现的结果提供了一定的信息. 在这个例子中,试验结果出现次品,这时条件概率反映了在试验以后,对A发生的来源的各种可能性的大小,通常称为后验概率. 如果是病人可能患的n种疾病,在诊断以前先检验与这些疾病有关的某些指标如体温,血压,白血球等,若病人的某些指标偏离正常值,要问病人患的是哪一种疾病,从概率论的角度考虑,若较大,而为了计算,就可以利用上述的贝叶斯公式,并把由过去的病例中得到的先验概率值代入,也就是医学上所说的发病率,人们常常喜欢找有经验的医生给自己治病,因为过去的经验能帮助医生作出比较准确的诊断,能够更好地做到对症下药,而贝叶斯公式正是利用了经验的知识,由此,读者可以直觉地认识到这个公式的意义.也正因如此,这类方法在过去和现在,都受到人们的普遍重视,并称为贝叶斯方法. [例8]用甲胎蛋白法普查肝癌,令 {被检验者患肝癌} {甲胎蛋白检验呈阳性} {被检验者未患肝癌} {甲胎蛋白检验呈阴性} 由资料已知,,又已知某地居民的肝癌发病率,在普查中查出一批甲胎蛋白检验呈阳性的人,求这批人中真的患肝癌的概率. 解由贝叶斯公式可得, 由此可见,经甲胎蛋白检验呈阳性的人群中,其中真正患肝癌的人还是很少的,只占0.0038,把与对比一下是很有意思的.当已知病人患肝癌或未患肝癌时,甲胎蛋白检验的准确性应该说是比较高的,这从可以肯定这一点.但如果病人患肝癌或未患肝癌时,而要从甲胎蛋白检验结果是否为阳性这一事件出发,来判断病人是否患肝癌,那么它的准确性还是很低的,因为.这个问题看来似乎有点矛盾.一种检验方法准确性很高,但实际使用时准确性很低,到底是怎么一回事 从上述计算中用到的贝叶斯公式,可以得到解释.已知是不大的,但是患肝癌的人数毕竟很少,,这就使得相对很大,从而很小.那么,上述结果是不是说明甲胎蛋白检验法不能用了呢完全不是通常医生总是先采取一些其它简单易行的辅助方法进行检查,当他怀疑某个对象有可能患肝癌时,才建议用甲胎蛋白检验法.这时,肝癌的发病率已经显著地增加了.比方说,在被怀疑的对象中,这时,这就有相当的准确性了.