读《救命的数学》,教会我们如何生活中的用好数学思维

“The Math of Life and Death”是一本五星的数学科普书,讨论大数据给我们带来的便捷和困惑。作者是牛津大学数学博士,全书浅显易懂,案例生动有趣,通过一个个的故事,娓娓道来概率在生活中无处不在的应用,从金字塔骗局到基因检测的局限,从法庭中曾经对数字解读错误引来的误判,到数学家如何用数学模型来证明疫苗的必要。

/pic/1_iaZCrlXj3sQAgfIYKucbZRG2OkbTBQ.jpg

下面的例子,是我基于书中的例子,以及相关的知识进行的再阐述,从中可以看到该书的有趣及有用之处。

婚前产检的目的是为了避免生下来的孩子,患有隐性遗传病。由于人的基因是二倍体,如果将基因比做电脑中的程序,那人体内就有一套备份,因此对于某些符合孟德尔遗传的疾病,即使你体内的基因中一份出错了,只要另一份没错,那这就不会对你的生活有任何影响,但若是你在遇到了同样携带一份在这个位置上出错基因的Ta,那么生下来的宝宝,就有可能有四分之一的概率,体内两份基因都错了,从而让宝宝患上先天遗传性疾病。

假设你和爱人在市场上,购买了消费级的基因检测产品,结果发现你们都是长岛型掌跖角化症(Nagashima-type Palmoplantar Keratosis)这个单基因疾病的致病突变携带者,这种病会让双手双足的皮肤红斑,增厚及多汗。虽然没有想象中严重,但是你肯定不希望自己的孩子有四分之一的几率患上这种遗传病。
你咨询了给你提供基因检测的公司,问他们检测的准确率多少,他们回复99%,即100人中,有1个人可能没有携带致病突变,但被误检为携带突变,你接着在互联网上查出,该致病基因突变出现的概率是0.000516,于是你拿出纸笔,开始计算:
假设一万人检查,那么由于检测不准确而被错误检出携带该致病突变的人是100个,而真正携带该致病突变,按照概率,预期只有5.16,就按5人计算,那么我真正携带该致病突变的概率应该是5/(100+5),只有5%。
不过有一个问题,上述的计算中,你用到的0.000516这个人群中携带该致病突变的概率,是基于欧美人群的。然而根据对中国人群的分析,在中国人中,该致病基因突变出现的概率是0.011,这和欧美人群中的频率,差了近20倍。按照上述逻辑再算一次,你会得到截然不同的结果:即110/(100+110)=52.4%的致病基因携带概率,这时你应该做的,就是去做准确度更高,成本也更高的临床级基因检测,从而提升检测的准确度。
通过上面的例子,可以说明,通过大样本的群体遗传学研究所得到的人群特异性位点差异,所具有的现实意义。类似的逻辑,可以用来判定该不该进行全人群的癌症早筛,这样的筛选肯定会有误检的可能,如果让太多没有癌症的人,进行进一步的检测,那无论从经济上,还是对个人造成的伤害上,都是得不偿失的。更恰当的做法,是通过流行病学的研究,找出高危人群。最好是能通过AI,以最低的成本,给出个人的预估风险,再推荐那些确实有风险的人,去采样进行进一步检测。
将上文例子的经验一般化,当我们再基于拿到新的信息做出一项判断时,要衡量判断出错(假阳性)和没有下判断(假阴性)的概率是多少,再衡量在一般情况下,即新信息没有出现前这一事件原本发生的概率,对于越罕见的事件,越需要确保新信息误判的概率极低,唯有如此,才能避免误判。这也是为何超乎寻常的观点,需要超乎寻常的证据的原因。

更多阅读

预测疫情的数学模型众说纷纭,如何科学的从中获取洞见
模型思维-改变社会科学研究的新范式

傅彩2020-09-17 17:34:20

问他们检测的准确率多少,他们回复99%,即100人中,有1个人可能没有携带致病突变,但被误检为携带突变;这100个人全是检测结果阳性么?

施飞2020-09-16 20:35:54

有点意思,准备看看