Processing math: 100%
본문 바로가기
Mathematics

Marginalize

by BaekDaBang 2024. 11. 10.

"Marginalize"는 통계학과 확률론에서 주로 사용되는 말로, 하나 또는 그 이상의 변수의 확률분포를 얻기 위해 다변수 확률 분포에서 일부 변수의 영향을 "제거"하는 과정을 의미한다. 이 과정은 다변수 시스템에서 특정 변수에만 집중하고자 할 때 사용된다.

 

예를 들어, 두 변수 XY가 있는 결합 확률 분포 P(X,Y)가 있다고 가정해보자. 만약 변수 Y에 대해서만 관심이 있고, X의 영향을 무시하고자 한다면, X에 대해 marginalization을 수행하여 Y의 주변 확률 분포(marginal probability distribution) P(Y)를 다음과 같이 계산할 수 있다.

이 식은 모든 가능한 X의 값에 대해 결합 확률을 합산하여 Y의 확률만을 남기는 것을 의미한다. 연속 변수의 경우, 합산(summation)대신 적분(integral)을 사용한다.

 

Marginalization은 데이터의 차원을 줄이고, 특정 변수의 효과를 고려하지 않고 다른 변수의 분포를 분석할때 사용한다. 또한 조건부 확률을 계산할 때 기저가 되는 결합 분포에서 필요한 주변 분포를 얻기 위해 사용된다. 예를 들어 P(Y|X)를 계산하기 위해 P(X)의 주변 분포가 필요할 수 있다.