1. 정의
최대우도법(Maximum Likelihood Estimation, 이하 MLE)은 모수적인 데이터 밀도 추정 방법으로써, 파라미터 $\theta = \theta_1, ..., \theta_m$으로 구성된 어떤 확률밀도함수 $P(x|\theta)$에서 관측된 표본 데이터 집합을 $x = (x_1, x_2, ..., x_n)$이라 할때, 이 표본들에서 파라미터 $\theta = \theta_1, ..., \theta_m$를 추정하는 방법이다.
$x = {1, 4, 5, 6, 9}$와 같이 5개의 데이터를 얻었다고 가정한다.
아래의 그림에서 데이터$x$는 주황색 곡선과 파란색 곡선 중 어떤 곡선으로부터 추출되었을 확률이 높을까?
획득한 데이터들의 분포가 주황색 곡선의 중심에 더 일치하는 것 처럼 보이기 때문에, 파란색 곡선 보다는 주황색 곡선에서 이 데이터들을 얻었을 가능성이 더 커보인다.
데이터를 관찰함으로써 이 데이터가 추출되었을 것으로 생각되는 분포의 특성을 추정할 수 있음을 알 수 있다. 여기서는 추출된 분포가 정규분포라고 가정했고, 우리는 분포의 특성 중 평균을 추정하려고 했다.
2. Likelihood Function
수치적으로 likelihood를 계산하기 위해서는 각 데이터 샘플에서 후보 분포에 대한 높이(likelihood 기여도)를 계산해서 전부 곱한 것(계산된 높이를 더해주지 않고 곱해주는 것은 모든 데이터들의 추출이 독립적으로 연달아 일어나는 사건이기 때문)을 이용할 수 있다.
* Likelihood : 얻은 데이터가 해당 분포로부터 나왔을 확률
생각해볼 수 있는 모든 후보군에 대해 likelihood를 계산하고, 비교하면 얻은 데이터를 가장 잘 설명할 수 있는 확률분포를 얻는다.
아래와 같이 전체 표본집합의 결합확률밀도 함수를 likelihood function이라고 한다.
$P(x|\theta) = \prod_{k=1}^{n}P(x_k|\theta)$
위 식의 결과값이 가장 커지는 $\theta$를 추정치 $\widehat{\theta }$로 본다.
위 식을 likelihood function이라 하고, 보통은 자연로그를 이용해 아래와 같이 log-likelihood function $L(\theta|x)$를 이용한다.
$L(x|\theta) = log(P(x|\theta)) = \sum_{i=1}^{n}log(P(x_i|\theta))$
3. Likelihood function의 최대값을 찾는 방법
MLE는 likelihood 함수의 최대값을 찾는 방법이다.
log함수는 단조증가 함수이기 때문에, likelihood function의 최대값과 log-likelihood function의 최대값을 찾으나 두 경우 모두 최대값을 갖는 정의역의 함수 입력값을 동일하다.
보통은, 계산의 편의를 위해 log-likelihood의 최대값을 찾는다.
미분계수를 이용해, 함수의 최대값을 찾는다. 즉, 찾고자하는 파라미터 $\theta에 대하여 다음과 같이 편미분하고 그 값이 0이 되도록 하는 를 찾는 과정을 통해 likelihood 함수를 최대화 시켜줄 수 있는 를 찾을 수 있다.
$\frac{\partial }{\partial \theta} = \frac{\partial }{\partial \theta} log(P(x|\theta))= \sum_{i=1}^{n}\frac{\partial }{\partial \theta}log(P(x_i|\theta))$
4. Reference
'Mathematics' 카테고리의 다른 글
Markov Chain (마르코프 체인) (0) | 2024.04.02 |
---|---|
Bayes’ theorem (베이즈 정리) (0) | 2024.04.02 |
모집단(Population), 모수(Population Parameter), 표본(Sample) (1) | 2024.04.01 |
가능도(Likelihood)와 확률(Probability) (1) | 2024.03.27 |
정규분포(Normal distribution) (0) | 2024.03.27 |