점점 미쳐가는 개발 일기

확률(Probability)과 우도(가능도, Likelihood) 본문

통계 이론

확률(Probability)과 우도(가능도, Likelihood)

Sangwoo Seo 2024. 2. 1. 10:01

확률(Probability)과 우도(Likelihood)는 통계학에서 사용되는 두 가지 기본적인 개념이다. 이 두 개념은 비슷해 보일 수 있지만, 사용되는 맥락과 의미가 다르다.

확률(Probability)

확률은 미래에 어떤 사건이 일어날 가능성을 수치적으로 표현한 것이다. 특정 조건 하에서 사건이 발생할 기대를 나타내며, 이는 실험을 반복했을 때 얼마나 자주 해당 사건이 발생하는지를 이야기한다.

 

  • 정의: 어떤 사건 $ A $의 확률 $ P(A) $는 0과 1사이의 값으로, 사건 $ A $가 일어날 가능성을 나타낸다.
  • 범위: 0은 사건이 절대 일어나지 않을 것을, 1은 사건이 확실히 일어날 것을 의미한다.
  • 예시: 동전을 던졌을 때 앞면이 나올 확률은 $ P(앞면) = 0.5 $이다.

우도(가능도, Likelihood)

우도는 관찰된 데이터가 주어진 모델 또는 매개변수에 의해 얼마나 잘 설명될 수 있는지를 나타낸다. 데이터가 이미 주어져 있고, 이 데이터가 특정 모델이나 매개변수 집합으로부터 생성되었을 가능성을 평가한다.

 

  • 정의: 매개변수 $ \theta $에 대한 데이터 $ X $의 우도 $ L(\theta; X) $는 관찰된 데이터 $ X $가 모델 매개변수 $ \theta $에 의해 생성될 확률을 나타낸다.
  • 범위: 우도는 확률과 달리 0 이상의 어떤 값도 가질 수 있으며, 확률 분포를 이루지 않는다.
  • 예시: 동전 10번 던져서 7번 앞면이 나왔다고 가정하고, 동전의 앞면이 나올 확률을 $ \theta $라고 할 때, 관찰한 데이터(7번의 앞면)가 주어진 $ \theta $에 대해 얼마나 그럴듯한지를 나타내는 우도 함수는 이항 분포를 사용하여 $ L(\theta; 7번의 앞면) = \theta^7(1-\theta)^3 $로 나타낼 수 있다.

확률과 우도를 표현하는 그래프

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# 확률의 예시: 동전 던지기의 확률 분포를 나타내는 그래프
# 앞면이 나올 확률 p = 0.5
p_head = 0.5
# 동전을 10번 던질 때 앞면이 나올 횟수에 대한 확률 분포
x = np.arange(0, 11)  # 0번부터 10번 앞면이 나올 수 있는 경우
prob = binom.pmf(x, n=10, p=p_head)  # 이항 분포의 확률 질량 함수

# 우도의 예시: 동전을 10번 던져서 7번 앞면이 나왔을 때의 우도 함수
theta = np.linspace(0, 1, 100)  # 앞면이 나올 확률의 가능한 값
likelihood = theta**7 * (1 - theta)**3  # 우도 함수

# 확률 그래프
plt.figure(figsize=(14, 5))

# 확률 그래프
plt.subplot(1, 2, 1)
plt.stem(x, prob, basefmt=" ") # , use_line_collection=True
plt.title('Probability Distribution of Coin Flips')
plt.xlabel('Number of Heads')
plt.ylabel('Probability')
plt.ylim(0, 0.3)

# 우도 그래프
plt.subplot(1, 2, 2)
plt.plot(theta, likelihood, label='Likelihood function')
plt.title('Likelihood of Observing 7 Heads')
plt.xlabel('Probability of Heads (theta)')
plt.ylabel('Likelihood')
plt.ylim(0, 0.2)

plt.tight_layout()
plt.show()

왼쪽 그래프는 동전을 10번 던졌을 때 앞면이 나올 횟수의 확률 분포를 나타낸다. 동전에서 앞면이 나올 확률은 0.5이고, 이를 바탕으로 이항 분포를 사용하여 각각의 횟수에 대한 확률을 계산한 것이다. 그래프에서 볼 수 있듯이, 앞면이 5번 나올 확률이 가장 높으며, 0번 또는 10번 모두 나올 확률은 가장 낮다.

오른쪽 그래프는 동전을 10번 던져서 실제로 7번 앞면이 나왔을 때, 이 결과가 관찰될 우도를 나타낸다. 우도 함수는 앞면이 나올 확률($ \theta $)을 변수로 하여, 7번의 앞면이 나올 가능성을 평가한다. $ \theta $ 가 0.7 근처에서 우도가 최대가 되는 것을 볼 수 있으며, 이는 관찰된 데이터가 $ \theta = 0.7 $인 동전에서 나왔을 가능성이 가장 높다는 것을 나타낸다.

'통계 이론' 카테고리의 다른 글

표본공간과 확률변수  (0) 2022.09.29