"Marginalize"는 통계학과 확률론에서 주로 사용되는 말로, 하나 또는 그 이상의 변수의 확률분포를 얻기 위해 다변수 확률 분포에서 일부 변수의 영향을 "제거"하는 과정을 의미한다. 이 과정은 다변수 시스템에서 특정 변수에만 집중하고자 할 때 사용된다.
예를 들어, 두 변수 $X$와 $Y$가 있는 결합 확률 분포 $P(X,Y)$가 있다고 가정해보자. 만약 변수 $Y$에 대해서만 관심이 있고, $X$의 영향을 무시하고자 한다면, $X$에 대해 marginalization을 수행하여 $Y$의 주변 확률 분포(marginal probability distribution) $P(Y)$를 다음과 같이 계산할 수 있다.
이 식은 모든 가능한 $X$의 값에 대해 결합 확률을 합산하여 $Y$의 확률만을 남기는 것을 의미한다. 연속 변수의 경우, 합산(summation)대신 적분(integral)을 사용한다.
Marginalization은 데이터의 차원을 줄이고, 특정 변수의 효과를 고려하지 않고 다른 변수의 분포를 분석할때 사용한다. 또한 조건부 확률을 계산할 때 기저가 되는 결합 분포에서 필요한 주변 분포를 얻기 위해 사용된다. 예를 들어 $P(Y|X)$를 계산하기 위해 $P(X)$의 주변 분포가 필요할 수 있다.
'Mathematics' 카테고리의 다른 글
Mahalanobis distance (마할라노비스 거리) (0) | 2024.05.14 |
---|---|
Similarity Measure (기본적인 유사도 측정법) (0) | 2024.05.14 |
Markov Chain (마르코프 체인) (0) | 2024.04.02 |
Bayes’ theorem (베이즈 정리) (0) | 2024.04.02 |
최대우도법(MLE) (0) | 2024.04.01 |