贝叶斯定理(Bayes' rule) 笔记1《Bayes theorem, the geometry of changing beliefs》

2024-05-17 19:14

1. 贝叶斯定理(Bayes' rule) 笔记1《Bayes theorem, the geometry of changing beliefs》

公式:   (E: Evidence, H: Hypothesis)
  
   理解等级:
  
 1、贝叶斯定理是什么?
  
 2、贝叶斯定理为什么是真的?
  
 3、贝叶斯定理在什么时候是有用的?
  
    Example-Part1:
  
  P(H|E) 的意义
  
 后验概率,posterior
  
 给定一个人的性格描述:meek and tidy soul,判断他是图书管理员(librarian)还是农民(farmer);
  
 有200个农民和10个图书管理员,其中4个图书管理员和20个农民符合描述,
  
 那么此人是图书管理员的可能性是16.7%(注:计算的不是总体样本,而是符合先验条件,也就是符合描述,的样本)
                                                                                  
    Example-Part2:
  
  P(E|H) 的意义
  
 似然概率,likelihood
  
 给一个例子:Steve是一个图书管理员,他的性格描述有:shy and withdrown, meek and tidy soul
  
 判断此人是图书管理员的情况下,其性格描述有shy and withdrown的可能
  
  P(H) 的意义
  
 先验概率,prior
  
 也就是200农民+10图书管理员的情况下,一个人是图书管理员的概率是
  
 P(H=图书管理员)=  
  
  P(E) 的意义
  
 
  
                                          
   What' s more
  
 思考:
  
 这210个样本的选取问题,这个Steve是提问者的朋友?还是想认识的人?
  
 如果选取的样本有200图书管理员和10农民,或者选取的样本里大多数人的性格都有meek and tidy soul这样的形容(因为提问者本人认识的都是这样的人)等等原因...
  
 造成了对样本统计的影响(无论是基于熟悉的人有共性,或者单纯刻板影响),都是先验的信息,所以在迭代过程中,先验概率也一直在改变。
  
 总结:
  
 举的例子很接地气,但是具体算法实现还是要自己推一推,做个仿真看看。
  
   词汇学习:
  
 spoiler alert 剧透警告
  
 meek 温顺的

贝叶斯定理(Bayes' rule) 笔记1《Bayes theorem, the geometry of changing beliefs》

2. 贝叶斯Bayes定理是怎么想出来的?

看了贝叶斯定理,大多数文章都一步步解释贝叶斯公式,用抽象的实例如计算发病率,计算吸毒率甚至计算渣女的概率解释这个伟大的公式,又为此搞出一堆“先验率”、“后验率”等抽象的词汇解释公式内涵。一个命题还没有说清楚又搞出一些新词汇、新概念反而污染了公式本身的纯粹性和朴实性。
  
 我们试图想象贝叶斯是怎么想出这个定理?都是人类为什么他能想出来,他的思维逻辑怎么形成的,这个问题说明白了对人类从事工作有着重要意义。而不是死记别人公式,用一个个概念骗人,冠冕堂皇的说成“术语”。
  
 假设有A集合,B集合,A和B有交集,A+B是全集,这就是贝叶斯所知道的已知条件。贝叶斯喜欢琢磨,琢磨什么呢?就是A和B都是概率,A∩B这个概率怎么表示,因为当一些人琢磨八股文用毕生精力搏取功名的时候,贝叶斯的追求是怎么用公式表达自然界,越简单越好,至于之后能用到哪里不是他关心的事。。。。
  
 因为A与B有交集,那么B在A里占比多少?A在B里占比多少?先不管他是不是概率,Thomas Bayes给出了第一个抽象表示,即
  
 A∩B/B,交集在B里的占比,反之A∩B/A是交集在A里的占比,再简化表示一下,
  
 A|B=A∩B/B  (1)交集在B里占比
  
 B|A=A∩B/A (2)交集在A里的占比
  
 公式(1)和(2)里有公用项,Thomas Bayes毫不犹豫的抵消公用项以简化公式,即
  
 A|B/(B|A)=A/B   
  
 如以上A,B代指不同事件的概率,即
  
 P(A|B)=P(A)*P(B|A)/P(B) (3)
  
 公式(3)就是大名鼎鼎的贝叶斯定理公式,这个公式在其死后被发现,对条件概率有巨大贡献。
  
 也就是说
  
 P(A),P(B)分别代表两个不同事件的发生概率,贝爷想知道,B事件发生时,A发生的概率P(A|B),该概率等同于P(A)和一个因子结合,这个因子就是P(B|A)/P(B),也就是说,A事件发生时,B发生的概率与P(B)的比。
  
 进一步说,
  
 想计算B事件发生时,A发生的概率可以理解成A本身的概率受一个因子干扰,这个因子可能放大A本身的概率,也可能降低A本身的概率,如果A发生时,B发生概率越大,P(A|B)越大,成正比,反之,P(B)越大,P(A|B)越小,成反比。
  
 所以,女孩去夜店次数越多,是渣女的概率就越大,P(渣女|夜店)=P(渣女)* P(夜店|渣女)/ P(夜店), 关键因子P(夜店|渣女),渣女多出现在夜店这个事实增强了夜店里的女孩是渣女的概率。
  
 那么可以用简短的一句话概括贝爷的定理:
  
 P(A|B)与P(B|A)成正比,与P(B)成反比。

3. 贝叶斯定理

贝叶斯定理可以理解成下面的式子:
  
 后验概率(新信息出现后A发生的概率)=先验概率(A发生的概率)x可能性函数(新信息带出现来的调整)贝叶斯的底层思想就是:
  
 如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率、正向概率)。
  
 可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。

贝叶斯定理

4. 贝叶斯定理

  引入: 
    定义: (英语:Bayes' theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生几率。比如,如果已知某癌症与寿命有关,使用贝叶斯定理则可以透过得知某人年龄,来更加准确地计算出他罹患癌症的几率。———— wiki解释 
    贝叶斯公式: 
   事件B发生的条件下,事件A发生的概率为:        事件A发生的条件下,事件B发生的概率为:        由此可得:        得贝叶斯公式如下:     
   贝叶斯公式:        上式可以理解为:     
   所以贝叶斯的底层思想为:   如果掌握了一个事情的全部信息,就可以计算出一个客观概率(古典概率、正向概率),但是绝大多数决策面临的信息都是不全的,在有限信息的条件下,尽可能预测一个好的结果,也就是在主观判断的基础上,可以 先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数) 。
    问题 :有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。 这颗巧克力来自1号碗的概率是多少? 
   求解问题:
   已知信息:
   应用贝叶斯:
    问题 :假设艾滋病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。 现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大? 
   求解问题:
   已知信息:
   应用贝叶斯定理:
   造成这么不靠谱的误诊的原因,是我们无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。 根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。 所以解决的办法倒也很简单,就是先锁定可疑的样本,比如10000人中检查出现问题的那10个人,再独立重复检测一次,因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。
    问题 :最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。2002年,Paul Graham提出 使用"贝叶斯推断"过滤垃圾邮件 。因为 典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现 ,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。
   不过这里还涉及到一个问题,就是单个关键词的概率(单个条件)无论如何再高,这封邮件仍然有可能不是垃圾邮件,所以在此处应用贝叶斯定理时,我们显然要用到多个条件,也就是计算这个概率:
   Paul Graham 的做法是,选出邮件中 P(垃圾邮件|检测到“X”关键词) 最高的 15个词 ,计算它们的 联合概率 。(如果关键词是第一次出现,Paul Graham 就假定这个值等于 0.4 ,也即认为是negative normal)。
   后续更新……
    参考文章1:(知乎)小白之通俗易懂的贝叶斯定理(Bayes' Theorem)     参考文章2:()贝叶斯公式/贝叶斯法则/贝叶斯定理 

5. 贝叶斯定理

  P(A|B) 是在 B 发生的情况下 A 发生的概率;
     P(A) 是 A 发生的概率;
     P(B|A) 是在 A 发生的情况下 B 发生的概率;
     P(B) 是 B 发生的概率。
   P(B) = P(B丨A)P(A)+P(B丨A')P(A')......这个叫做全概率公式。
   P(A'),A不发生的概率,P(A') = 1- P(A)。
   贝叶斯定理是一种根据已知其他概率的情况,求解概率的方法。贝叶斯定理作为常用的基础算法,在统计学、心理学、社会学、经济学等方面一直有很重要的意义与应用。进入IT时代,贝叶斯定理在计算机科学,特别是在机器学习、工智能方面占有重要的一席之地人。尤其是在数据处理方面,针对事件发生的概率以及事件可信度分析上具有良好的效果。近年来,贝叶斯定理在证券、期货等分析与市场预测方面,得到越来越多的重视与应用。
  
 贝叶斯(1701年—1761年) Thomas Bayes,英国数学家。1701年出生于伦敦,做过神父。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。

贝叶斯定理

6. 贝叶斯定理(转载)

贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中高手几乎都在用到它。
  
 生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家突然意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策 略;Google用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得 的信息;人工智能、机器翻译中大量用到贝叶斯定理。
  
 我将从以下4个角度来科普贝叶斯定理及其背后的思维:
  
  1.贝叶斯定理有什么用? 
  
  2.什么是贝叶斯定理? 
  
  3.贝叶斯定理的应用案例 
  
  4.生活中的贝叶斯思维 
  
  1.贝叶斯定理有什么用? 
  
 英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。
  
 (ps:贝叶斯定理其实就是下面图片中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的使用意义,你才会更有兴趣去学习它。)
                                          
 在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。
  
 在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,比如杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出中奖球的概率是多大。
                                          
 根据频率概率的计算公式,你可以轻松的知道中奖的概率是2/10
  
 如果还不懂怎么算出来的,可以看我之前写的科普概率的回答: 猴子:如何理解条件概率? 
  
 而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。
                                          
 这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的一个直接的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。
  
 然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个问题领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。
  
  为什么贝叶斯定理在现实生活中这么有用呢? 
  
 这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。
  
 比如天气预报说,明天降雨的概率是30%,这是什么意思呢?
  
 我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨。
  
 而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。
  
 同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。
  
 贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出概率。
  
 贝叶斯定理的思考方式为我们提供了明显有效的方法来帮助我们提供能力,以便更好地预测未来的商业、金融、以及日常生活。
  
  总结下第1部分:贝叶斯定理有什么用? 
  
 在有限的信息下,能够帮助我们预测出概率。
  
 所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。
  
  2.什么是贝叶斯定理? 
  
 贝叶斯定理长这样:
                                          
 到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。
  
 其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。
  
 我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他想知道女神是不是喜欢他呢?
  
 谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。
  
 首先,我分析了给定的已知信息和未知信息:
  
 1)要求解的问题:女神喜欢你,记为A事件
  
 2)已知条件:女神经常冲你笑,记为B事件
  
 所以说,P(A|B)是女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。
                                          
 从公式来看,我们需要知道这么3个事情:
  
  1)先验概率 
  
 我 们把P(A)称为'先验概率'(Prior probability),即在不知道B事件的前提下,我们对A事件概率的一个主观判断。这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女 神喜欢一个人的概率,这里我们假设是50%,也就是不能喜欢你,可能不喜欢还你的概率都是一半。
  
  2)可能性函数 
  
 P(B|A)/P(B)称为'可能性函数'(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。
  
 可 能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率/主观判断),但是当你学 习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数/调整因子),最后重新理解了“人工 智能”这个信息(后验概率)
  
 如果'可能性函数'P(B|A)/P(B)>1,意味着'先验概率'被增强,事件A的发生的可能性变大;
  
 如果'可能性函数'=1,意味着B事件无助于判断事件A的可能性;
  
 如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小
  
 还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑。所以我估计出'可能性函数'P(B|A)/P(B)=1.5(具体如何估计,省去1万字,后面会有更详细科学的例子)
  
  3)后验概率 
  
 P(A|B)称为'后验概率'(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。
  
 带入贝叶斯公式计算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%
  
 因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的'先验概率'一下子提高到了75%的'后验概率'。
                                          
 在得到预测概率后,小鹿自信满满的发了下面的表白微博:无图
  
 稍后,果然收到了女神的回复。预测成功。无图
  
 现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的最关键思想了:
  
 我们先根据以往的经验预估一个'先验概率'P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。
  
 因此,贝叶斯定理可以理解成下面的式子:
  
  后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整) 
                                          
  贝叶斯的底层思想就是: 
  
 如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。
  
 可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
  
 如果用图形表示就是这样的:
                                          
 其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的信念值,完全不受其他环境影响。
  
  3.贝叶斯定理的应用案例 
  
 前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。
  
 为了后面的案例计算,我们需要先补充下面这个知识。
  
  1.全概率公式 
  
  这个公式的作用是计算贝叶斯定理中的P(B)。 
  
 假定样本空间S,由两个事件A与A'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。
                                          
 这时候来了个事件B,如下图:
                                          
 全概率公式:
                                          
 它的含义是,如果A和A'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。
  
 看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。
  
  案例1:贝叶斯定理在做判断上的应用 
  
 有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
                                          
 然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。
  
 问题:这颗巧克力来自1号碗的概率是多少?
  
 好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。
  
  第1步,分解问题 
  
 1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?
  
 来自1号碗记为事件A1,来自2号碗记为事件A2
  
 取出的是巧克力,记为事件B,
  
 那么要求的问题就是P(A1|B),即取出的是巧克力,来自1号碗的概率
  
 2)已知信息:
  
 1号碗里有30个巧克力和10个水果糖
  
 2号碗里有20个巧克力和20个水果糖
  
 取出的是巧克力
  
  第2步,应用贝叶斯定理 
                                          
 1)求先验概率
  
 由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)
  
 这个概率就是'先验概率',即没有做实验之前,来自一号碗、二号碗的概率都是0.5。
  
 2)求可能性函数
  
 P(B|A1)/P(B)
  
 其中,P(B|A1)表示从一号碗中(A1)取出巧克力(B)的概率。
  
 因为1号碗里有30个水果糖和10个巧克力,所以P(B|A1)=30/(30+10)=75%
  
 现在只有求出P(B)就可以得到答案。根据全概率公式,可以求得P(B)如下图:
                                          
 图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。
  
 同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。
  
 而P(A1)=P(A2)=0.5
  
 将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%
  
 所以,可能性函数P(A1|B)/P(B)=75%/62.5%=1.2
  
 可能性函数>1.表示新信息B对事情A1的可能性增强了。
  
 3)带入贝叶斯公式求后验概率
  
 将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%
  
 这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。
                                          
  现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单: 
  
  第1步. 分解问题 
  
 简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。
  
 1)要求解的问题是什么?
  
 识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)
  
 2)已知条件是什么?
  
  第2步.应用贝叶斯定理 
  
 第3步,求贝叶斯公式中的2个指标
  
 1)求先验概率
  
 2)求可能性函数
  
 3)带入贝叶斯公式求后验概率

7. 贝叶斯定理

如果两事件A,B独立,则P(A|B) = P(AB)/P(B) = P(A)

贝叶斯定理

8. 贝叶斯定理的贝叶斯

贝叶斯(1701年—1761年) Thomas Bayes,英国数学家。1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。1763年由Richard Price整理发表了贝叶斯的成果《An Essay towards solving a Problem in the Doctrine of Chances》 ,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。

最新文章
热门文章
推荐阅读