베이즈 통계학 맛보기
조건부확률
조건부확률 P(A | B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.
-
theta: 모수 (데이터가 관찰될 확률)
사후확률: 데이터를 관찰했을 때 이 가설이 성립할 확률 (데이터 관측 이후 측정한 확률이라 사후확률임)
사전확률: 모델링 이전에 사전에 주어진 확률로 이해할 것. (데이터 분석 전 타겟에 대한 모수나 가설 등 미리 설정한 값.)
가능도: 현재 주어진 파라미터(모수)가정에서 이 데이터가 관찰될 확률
Evidence: 데이터 전체의 분포
ex) COVID-99의 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제 걸리지 않았을 때 오검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다는 결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precision)을 구하는 문제임.
사전확률 P(theta) = 10% = 0.1
- 가능도 P(D given theta) = 99% = 0.99, 오탐율 = 1% = 0.01
- evidence P(D) = sum(P(D given theta) P(theta)) = 0.99 0.1 + 0.01 * 0.9 = 0.108
- So, P(theta given D) = 0.1 * (0.99 / 0.108) ~= 0.916
COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때, 진짜 COVID-99에 걸렸을 확률은?
- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
조건부 확률은 유용한 통계적 해석을 제공하지만, 인과관계(Causality)를 추론할 때 함부로 사용해서는 안된다.
- 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
- 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다. 제거하지 않았을 때는 가짜연관성(spurious correlation)이 나온다.