용어사전을 쉽게 설명하기

베이즈 정리 (Bayes' Theorem, Bayes' Rule)

폴 (케이김) 2021. 3. 21. 17:24

베이즈 정리는 통계에 의한 정보가 있고,

이 정보를 감안하여 특정 사건이 발생할 확률을 구할 때 사용한다.

 

예를 들어,

전체 인구 중 1%가 유전 질환을 겪는다는 통계 정보가 있고,

유전 질환을 진단하는 검사는 95%의 정확도를 갖는다고 할 때-

유전 질환을 검사한 A가 양성이 나왔습니다.

A가 실제로 유전 질환을 가졌을 확률은?

 

x = 0.95 x 0.01 / 0.95 x 0.01 + 0.05 x 0.95

x = 0.16 이 나오고,

A가 유전 질환을 가졌을 확률은 16.1% 이다.

 

베이즈 정리 원리는 특정 경우의 확률은

그렇지 않은 확률과 합쳐서 100%를 갖기 때문에

분모를 특정 경우와 특정 경우가 아닌 경우를 합쳐서 만들고

분자를 특정 경우로 나눈다.

 

즉,

전체 인구 중 1% 가 유전 질환을 겪는다. = 0.01

유전 질환 검사의 정확도는 95% = 0.95

0.01 x 0.95 = 0.0095

 

나머지 인구 99% 는 유전 질환을 안 겪는다. = 0.99

유전 질환 검사의 오판 확률 5% = 0.05

0.99 x 0.05 = 0.0495

 

0.0095 + 0.0495 = 0.059

 

0.0095 / 0.059 = 0.161...

0.161 x 100 = 16.1%

 

좀 더 쉽게 풀어쓰면,

전체 인구가 1000명일 때,

통계에 의해서 1%인 10명이 유전 질환을 겪는다는 정보가 있고 <- 1% 는 결과값이 고정

이 1%를 판별하기 위한 검사 방법이 95% 의 정확도를 가지므로,

10 명 중, 유전 질환 검사를 했을 때,

9.5 명이 유전 질환에 걸렸다는 판정이 나온다.

 

반대로

건강한 사람 990명을

검사했을 때, 95% 정확도에 의해

49.5 명은 유전 질환이 있다는 판정이 나온다. (5%는 부정확하게 나옴)

 

문제는

실제로 유전 질환을 겪을 확률을 구하는 것이기 때문에

9.5 + 49.5 를 더하고     // = 95% 검사 정확성에 의해 전체 인구 중 양성 판정을 받을 확률의 합

여기서 9.5 를 분자로 나누면   // 전체 인구 중 1%만 유전 질환이 있으므로, 양성 판정 확률의 합

실제로 유전 질환을 겪을 확률이 구해진다.

.

.

.

 

또 다른 예시로,

서울의 인구는 남성이 55%, 여성이 45% 로 구성되어 있고,

남성의 45%는 키가 170cm 이상, 여성은 4%가 170cm 이상이라고 할 때-

임의로 한 사람을 선택했을 때

이 사람의 키가 170cm 이상이었다. 이 사람이 여성일 확률은?

 

x = 0.04 x 0.45 / (0.45 x 0.55) + (0.04 x 0.45)

x = 0.067...

 

6.7% 확률로 이 사람은 여성이다.

 

베이즈 정리는 과거의 데이터에서 뽑은 특정 확률 정보를 가지고 있을 때,

특정 경우에 속하는 케이스가 나올 확률을 구할 수 있다.

LIST