贝叶斯定理是统计学中非常重要的一个定理,以贝叶斯定理为基础的统计学派在统计学世界里占据着重要的地位,和概率学派从事件的随机性出发不同,贝叶斯统计学更多地是从观察者的角度出发,事件的随机性不过是观察者掌握信息不完备所造成的,观察者所掌握的信息多寡将影响观察者对于事件的认知。
推导
条件概率:
$$ P\left( A\mid B \right) =\frac{P\left( A\cap B \right)}{P\left( B \right)} $$
若A和B是两个相互独立的两个事件,那么:
$$ P\left( A\mid B \right) =\frac{P\left( A\cap B \right)}{P\left( B \right)}=\frac{P\left( A \right) P\left( B \right)}{P\left( B \right)}=P\left( A \right) $$
由条件概率推出全概率公式
$$ P\left( A \right) =P\left( A\cap B \right) +P\left( A\cap B^C \right) \\ \downarrow \\ P\left( A \right) =P\left( A\mid B \right) P\left( B \right) +P\left( A\mid B^C \right) P\left( B^C \right) $$
贝叶斯公式:
$$ P\left( A\mid B \right) =\frac{P\left( A\cap B \right)}{P\left( B \right)}=\underset{\text{由条件概率得}}{\underbrace{\frac{P\left( B|A \right) P\left( A \right)}{P\left( B \right)}}}=\underset{\text{由全概率公式得}}{\underbrace{\frac{P\left( B|A \right) P\left( A \right)}{P\left( B\mid A \right) P\left( A \right) +P\left( B\mid A^C \right) P\left( A^C \right)}}} $$
说明
贝叶斯逻辑就是先假定一个初始概率,然后根据新出现的证据不断调整概率。换言之,通过新获得的观察结果来更正对概率的判断
$$ P\left( A\mid B \right) =\frac{P\left( B|A \right) P\left( A \right)}{P\left( B\mid A \right) P\left( A \right) +P\left( B\mid A^C \right) P\left( A^C \right)} $$
- 先验概率$P(A)$:在考虑观测数据前,能表达不确定量p的概率分布
- 后验概率$P(A \mid B)$:在考虑和给出相关数据或证据后得到的条件概率
- 可能性函数函数$P(B\mid A)/P(B)$:用于在已知某些观测得到结果时,对先验概率进行修正的函数。
应用
在举例之前,先容许我给大家介绍一个令人震惊的事实,几乎所有人都会无意识的将两个事件的后验概率混淆,即:
$$ P\left( A\mid B \right) =P\left( B\mid A \right) $$
假设A为一个人真正得病的事件,B为检查结果为阳性(有病)的事件。
$P(A\mid B)$为在检查结果为阳性的情况下,实际有病的概率
$P(B\mid A)$为在有病的情况下,检查结果为有病的概率
注意,他们之间有很大的区别!!
例1:
假设某种疾病在所有人群中的感染率是0.1%,医院现有的技术对于该疾病检测准确率为 99%(已知患病情况下, 99% 的可能性可以检查出阳性;正常人 99% 的可能性检查为正常),如果从人群中随机抽一个人去检测,医院给出的检测结果为阳性,那么这个人实际得病的概率是多少?
$$ P\left( A\mid B \right) =\frac{P\left( B|A \right) P\left( A \right)}{P\left( B\mid A \right) P\left( A \right) +P\left( B\mid A^C \right) P\left( A^C \right)} $$
$P(A)=0.001$,被检测者患病的概率
$P(A^C)=0.999$,被检测者未患病的概率
$P(B\mid A)=0.99$,被检测者在患病情况下检查结果为阳性的概率
$P(B\mid A^C)=0.01$,被检测者在未患病情况下检查结果为阳性的概率
代入公式得
$$ P\left( A\mid B \right) ==\frac{0.99\times 0.001}{0.99\times 0.001+0.01\times 0.999}=0.0901639 $$
所以可以得出,虽然检查结果为阳性,可是他真正得病的概率竟然还是小于10%的。
例2:
一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
$$ P\left( A\mid B \right) =\frac{P\left( B|A \right) P\left( A \right)}{P\left( B \right)} $$
$P(A)=2/(20\times 365)$,当晚发生入侵的概率
$P(B\mid A)=0.9$,当晚发生入侵后狗叫的概率
$P(B)=3/7$,当晚狗叫的概率
$$ P\left( A\mid B \right) ==\frac{0.9\times \text{2/}\left( 20\times 365 \right)}{\text{3/}7}=0.000575342 $$
所以,在狗叫的时候发生入侵的概率不到千分之一。