본문 바로가기
Mathematics

최대우도법(MLE)

by BaekDaBang 2024. 4. 1.

1. 정의

최대우도법(Maximum Likelihood Estimation, 이하 MLE)은 모수적인 데이터 밀도 추정 방법으로써, 파라미터 $\theta =  \theta_1, ...,  \theta_m$으로 구성된 어떤 확률밀도함수 $P(x|\theta)$에서 관측된 표본 데이터 집합을 $x = (x_1, x_2, ..., x_n)$이라 할때, 이 표본들에서 파라미터 $\theta =  \theta_1, ...,  \theta_m$를 추정하는 방법이다.

 

$x = {1, 4, 5, 6, 9}$와 같이 5개의 데이터를 얻었다고 가정한다.

아래의 그림에서 데이터$x$는 주황색 곡선과 파란색 곡선 중 어떤 곡선으로부터 추출되었을 확률이 높을까?

 

획득한 데이터들의 분포가 주황색 곡선의 중심에 더 일치하는 것 처럼 보이기 때문에, 파란색 곡선 보다는 주황색 곡선에서 이 데이터들을 얻었을 가능성이 더 커보인다.

 

데이터를 관찰함으로써 이 데이터가 추출되었을 것으로 생각되는 분포의 특성을 추정할 수 있음을 알 수 있다. 여기서는 추출된 분포가 정규분포라고 가정했고, 우리는 분포의 특성 중 평균을 추정하려고 했다.

 

2. Likelihood Function

주황색 후보 분포에 대해 각 데이터들의 likelihood 기여도를 점선의 높이로 나타냄

 

수치적으로 likelihood를 계산하기 위해서는 각 데이터 샘플에서 후보 분포에 대한 높이(likelihood 기여도)를 계산해서 전부 곱한 것(계산된 높이를 더해주지 않고 곱해주는 것은 모든 데이터들의 추출이 독립적으로 연달아 일어나는 사건이기 때문)을 이용할 수 있다.

* Likelihood : 얻은 데이터가 해당 분포로부터 나왔을 확률

 

생각해볼 수 있는 모든 후보군에 대해 likelihood를 계산하고, 비교하면 얻은 데이터를 가장 잘 설명할 수 있는 확률분포를 얻는다.

 

아래와 같이 전체 표본집합의 결합확률밀도 함수를 likelihood function이라고 한다.

 

$P(x|\theta) = \prod_{k=1}^{n}P(x_k|\theta)$

 

위 식의 결과값이 가장 커지는 $\theta$를 추정치 $\widehat{\theta }$로 본다.

위 식을 likelihood function이라 하고, 보통은 자연로그를 이용해 아래와 같이 log-likelihood function $L(\theta|x)$를 이용한다.

 

$L(x|\theta) = log(P(x|\theta)) = \sum_{i=1}^{n}log(P(x_i|\theta))$

 

3. Likelihood function의 최대값을 찾는 방법

MLE는 likelihood 함수의 최대값을 찾는 방법이다.

 

log함수는 단조증가 함수이기 때문에, likelihood function의 최대값과 log-likelihood function의 최대값을 찾으나 두 경우 모두 최대값을 갖는 정의역의 함수 입력값을 동일하다.

 

보통은, 계산의 편의를 위해 log-likelihood의 최대값을 찾는다.

 

미분계수를 이용해, 함수의 최대값을 찾는다. 즉, 찾고자하는 파라미터 $\theta에 대하여 다음과 같이 편미분하고 그 값이 0이 되도록 하는 를 찾는 과정을 통해 likelihood 함수를 최대화 시켜줄 수 있는 를 찾을 수 있다.

 

$\frac{\partial }{\partial \theta} = \frac{\partial }{\partial \theta} log(P(x|\theta))= \sum_{i=1}^{n}\frac{\partial }{\partial \theta}log(P(x_i|\theta))$

 

4. Reference

 

최대우도법(MLE) - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io