模糊的正确

2016-12-04 jude 更多博文 » 博客 » GitHub »

条件概率 贝叶斯定理 统计

原文链接 http://judes.me/life/2016/12/04/simplify-bayes-theorem.html
注:以下为加速网络访问所做的原文缓存,经过重新格式化,可能存在格式方面的问题,或偶有遗漏信息,请以原文为准。


在《对“伪心理学”说不》一书的第 10 章中,有这样一个例子:

如果在每 1000 人中有 1 个人携带艾滋病的病毒(HIV), 再假设有一种检查可以百分百地诊断出真的携带该病毒的人; 最后,假设这个检查有 5% 的可能性,把没有携带者说成是有。 也就是说,这项检查在没有携带 HIV 的人中,也会错误地检测出有 5% 的人是携带病毒者。 假设我们随便找一个人来进行这项检查,得到了呈阳性反应,亦即此人为 HIV 携带者。 假定我们不知道这个人的患病史,那么他真的是 HIV 携带者的概率是多少呢?

如果凭直觉大概会猜答案是 95% 。

如果知道这是一道典型的条件概率题目,大概会认真对待:翻开书本,复习一下条件概率,然后套公式(贝叶斯定理):

首先找准事件:

设 H 为携带 HIV 事件

设 N 为没有携带 HIV 事件

设 + 为检测为阳性事件

然后可以得到:

P(H) = 0.1%
P(N) = 1 - P(H) = 99.9%

携带者接受检测,并检测出阳性的概率:

P(+|H) = 100%

没有携带者接受检测,并检测出阳性的概率:

P(+|N) = 5%

问题是 P(H|+) 等于多少

由贝叶斯定理得到:

P(H|+) = P(+,H) / P(+) = P(+|H) * P(H) / P(+) 
 = P(+|H) * P(H) / (P(+,H) + P(+,N)) 
 = P(+|H) * P(H) / (P(+|H) * P(H) + P(+|N) * P(N)) 
 = 1 * 0.1% / (1 * 0.1% + 5% * 99.9%)
 ≈ 0.01963

那么新的问题又来了,如果没学过(或者忘记了)条件概率,有没有办法得出“正确的”答案呢?

办法还是有的,有一种很简单的办法,能得到大致正确的答案。

关键思路是:把概率化作统计。

还记得题目问的是什么吗?一个检测呈阳性的人真实患病的概率有多大。这个问题可以略为简化一下,看成是真实患病的人占被检出阳性的人的比例有多大

  • 首先随机找到 10,000 个人,根据条件,我们可以假设其中有 10 人患有艾滋病;

  • 让这 10,000 人接受检查,那么这患病的 10 人一定会被检出阳性;

  • 被检出阳性的人一共有多少呢?除去那真实患病的 10 人,还有不患病的 9990 人,他们当中被检出阳性的人数是 9990 * 5% ≈ 500 (要是算是 499.5 的话,得到的答案跟前面的方法是一样的)

  • 那么这个比例就是: 10 / (10 + 500) ≈ 0.01961

这个简单的方法并不总能都得到正确答案,但足以用来评估大概数字,做出正确决策(起码不会猜 95% ^_^ )。实际上这个方法得到的概率只会比正确答案要高,不会低。

最后再来一个例子展示怎样使用这个简单的方法帮助我们做出正确判断:

近来发生的多起恐怖活动中,某教人士所占比例非常大,导致人们大都信仰某教的人抱有成见:信仰某教的人很有可能是恐怖份子。问题来了,信仰某教的人是恐怖份子的概率有多大呢? 已知的条件有:1, 假设恐怖份子都信仰某教 ;2, 全球有 1/100 人口信仰某教;3, 恐怖份子人数占全球人口 1/10,000 。

按照“把概率化作统计”的思路:

  • 假设全球有 100,000 人口,那么当中的恐怖份子有 10 人,信仰某教的人数是 1,000 ,所以得到信仰某教的人是恐怖份子的概率只有 10 / 1,000 = 1%

  • 考虑到信仰某教的实际人口比例比 1/100 要高,而恐怖份子则要比 1/10,000 低,所以这种成见是没有数据支持的。

重要 本文所述的简单方法,出自《x的奇幻之旅》

参考