趣味贝叶斯推理
以下文章来源于子楠 ,作者子楠
[
子楠 .坚持原创!坚持输出最靠谱的知识信息! 真心疼你,这么晚才来。
](#)
关于贝叶斯推理,我们曾有过很多介绍例如 贝叶斯分析解码谁是卧底的游戏
贝叶斯理论在医学数据分析中的应用 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 而下面的例子来源于在巡洋舰工作的子楠,原题为 “小学生都能理解的贝叶斯公式”
班主任:你们两个在干什么?班长小红,给我过来,叙述一下事情经过!
小红,过来,现在我是小白,你是小明,说一下你们为什么吵架!
好的老师!
“小明好坏好坏的,他莫名其妙过来,什么前提条件都不给,上来就是一句“我是你爸爸”所以我飞起就是一巴掌:你个SB,你的50%的概率建立在已经验证了“基于我们俩其中有一个人是对方爸爸”这个假定条件下,是个后验概率,我的1/70亿的概率基于还没有验证上面哪个假定条件的前提下,属于先验概率,拿后验概率和先验概率样本都不一样来比,你说你四不四潵?????
说到这里,小红继续说:
这时候我实在看不下去了,一会儿我是你爸爸,一会儿全世界有一个人是你爸爸的,这么长,还让不让人吵架了。于是我就上去劝说了一下:
要不这样,我们把你们想要证明的“我是你爸爸”作为结论Y。你们的目的是证明结论Y的合理性,也就是概率,那么,你们要提出一些假设X,我们才能知道你们在假设空间X以下的概率instead of 而不是1除以无穷等于0。
然后呢,你们俩逗逼都是在从人的范畴里找符合定义,所以我们简单认为你们是基于个体为人这个单位个体的均匀先验分布假设这个分布为C,为某一个常数,(就打算是为1吧,反正待会儿要约掉)。
辣么在我们不知道具体数字的时候,我们给这个概率一个标志,既然是在假设空间X中Y的概率,辣么就称之为P(Y,x)。设若你们的所有假设在同一个假设空间C中,那么C就可以约掉,现在我们就考虑X单独发生的概率为P(x),Y单独发生的概率为P(Y),辣么x和Y同时发生的概率,就等于Y和x同时在一个共同的假设空间C发生的概率。也就是说,在假设空间x中,Y发生的概率,乘以假设空间x发生的概率,就等于反过来,在假设空间Y中,X发生的概率,乘以假设空间Y。
即:这就是你们的最佳假设。
然后你们的最佳假设,我们来算算P(Y,x),由于你们认定的全空间为C,那么:
P(Y)=1/C
P(x)=1/C
P(x,Y)=1/X(X为所有x的数量,也就是x所在的假设空间的容量大小)
辣么,就可以算出:
P(Y,x)=1/X
小红说到这里,小明很生气,辣么,如果我们的假设条件建立在相同的假设空间下,岂不是又是概率一样咯。那我如何向小白证明我是你爸爸呢?
难道我们的友好讨论,就仅仅演变成了提出更多的假设吗?这岂不是和小孩子吵架一样了么一点都不科学!
这里面这个: ς 表示的就是你们假设的杂音量。一般而言,你们这些正太瞎扯淡的噪音满足正态分布。
所以现在我们就要讨论下一个问题了,在描述了足以确认我是你爸爸的条件下,才能最大化证明假设我是你爸爸的正确性,那么,如何找到这个最大可能性呢?
所以我们做个最大似然假设,hmax,假设满足hmax要提出i个在区间I里的使用x符合要求的基本假设h,那么,这个hmax的概率就可以简单地假设为:
也就是说使表达式最大时的参数。
由于我们这里的正确假设为h,那么就可以认为大Y是有一堆小y组成的,其中y=h(x)+ς ,我们可以吧提到一边去,得到ς =y-h(x)。那么,由于满足高斯分布,所以得到嘛,看不懂?
看不懂无所谓,不影响。反正要约掉的,由于我们求的是最大值而不是具体值,求得是使该公式最大的时候的参数,所以就可以把杂七杂八的都约了,得到:找到令这个函数式最小的参数。
所以说,你们要证明自己是对方爸爸,就要找到令你的论据,应对与你的假设空间,得到的差值的最小时的论据,这样才能最有可能证明自己是对方爸爸!!!!接下来小红又继续说了。然而,你们对于我是你爸爸这个结果的描述(x)越多,得到的杂音根据公式也会越大,也就是说,对于我是你爸爸这条信息的置信度也就越低。相对应的,之前你们也说了,自己提出的假定条件越少,得到我是你爸爸这个结论的概率也会越低。所以,我们要找到一个在证明“我是你爸爸”时,最优的描述。
既然要得到的是,最优的描述,那么我们可以理解为,已经验证的条件下(验证以后发现)这个描述是最优描述,就是验证后概率最大的描述。假设条件为x,则描述得到的概率(最大后验公式),简单写为:P(Y,x)P(x)。
我们的目标就是令这个概率最大对吧?MAX:P(Y,x)P(x)嘛……既然我们的目标是“描述”,那么也就是关于“信息”的处理,那么就参考一下香农的信息论:(维基百科上搜信息论)
论:(信息论:维基百科)嘛……我也懒得看,所以我就随便抓了一个叫做熵的东西过来,熵嘛,这样定义的:意思就是概率为p的事情包含的信息量,log的底数取决于信息量的单位,比如比特什么的……嘛。这里管不到。
然后我就就看我们要max的公式嘛,P(Y,x)P(x),取个对数(底是什么随便你)比如我们这里用log,就变成了使最小。
也就是min: I(P(Y,x))+I(P(x))
翻译成人话就是,使描述的信息熵,对于描述:“结论Y由x的假定条件”,以及"x的假定条件",总信息量最短的描述,就是最优描述,简称最短信息描述。
以小明和小白的观点就是:要达到证明我是你爸爸最准确,就得让“描述在某条件下,我是你爸爸”的信息,加上“描述某条件的信息”,总体来说最小。
嗯,这个最短信息描述在玄学界还有个别名,叫做奥卡姆剃刀……
老师,我说完了。
班主任(一脸懵逼):
小明和小白:所以我俩就合伙揍了她一顿。
最后放一个广告:
菅 2017-02-24 11:37:10
风趣化语言+生活化场景,并没有使数学概念看起来更易懂,反倒因引入过多角色和因素而使阅读体验变得混沌~希望改正
痴痴呵呵2017-02-24 11:12:15
趣味不等于文字中各处夹杂:SB、懵逼、装逼
属金鱼的拇指姑娘2017-02-24 09:30:16
看了两段就看不下去了
Henry Vazyme2017-02-24 12:09:05
遗憾没能成功阅读完毕,个人直观感觉,文中“你、我、你们、我们……”这些人称代词指称略显混乱,妨碍了本文阅读的连贯性和趣味性
方向2017-02-24 08:15:34
我居然硬着头皮看完了…
大鹏2017-02-24 08:32:49
虽然 但是 一脸懵逼
Valkyrie2017-02-24 08:38:09
那我可能连小学生都不如了
王靖文2017-02-24 20:38:48
前一部分看得懂,后一部分也明白,但是要看看参考书籍温习一下了/发呆
谢为恒2017-02-25 14:16:05
前面看起来比较有趣,但是设定太多,读下去变得辛苦。
木申2017-02-25 10:55:21
怎么和大牛学习呀?有一个学习网站吗?