Study81 Markov Decision Process (MDP) MDP(마코프 결정 과정, Markov Decision Process)는 강화학습 및 의사결정 문제를 수학적으로 모델링하기 위한 프레임워크로, 에이전트가 환경과 상호작용하며 최적의 행동 전략(policy)을 학습하도록 돕습니다. 주요 구성 요소는 다음과 같습니다.상태 집합 $S$에이전트가 처한 환경의 모든 가능한 상황들의 모임입니다.예: 체스판의 각 배치, 로봇의 위치, 문장 생성 단계에서의 “프롬프트+이전 응답” 등.행동 집합 $A$에이전트가 각 상태에서 취할 수 있는 가능한 행동들의 집합입니다.예: 체스 기물 한 수 두기, 로봇을 한 칸 이동하기, LLM이 다음 단어를 생성하기 등.전이 확률 $P(s' \mid s, a)$상태 $s$에서 행동 $a$를 취했을 때 다음 상태가 $s'$가 될 확률입니다... 2025. 7. 31. Marginalize "Marginalize"는 통계학과 확률론에서 주로 사용되는 말로, 하나 또는 그 이상의 변수의 확률분포를 얻기 위해 다변수 확률 분포에서 일부 변수의 영향을 "제거"하는 과정을 의미한다. 이 과정은 다변수 시스템에서 특정 변수에만 집중하고자 할 때 사용된다. 예를 들어, 두 변수 $X$와 $Y$가 있는 결합 확률 분포 $P(X,Y)$가 있다고 가정해보자. 만약 변수 $Y$에 대해서만 관심이 있고, $X$의 영향을 무시하고자 한다면, $X$에 대해 marginalization을 수행하여 $Y$의 주변 확률 분포(marginal probability distribution) $P(Y)$를 다음과 같이 계산할 수 있다.이 식은 모든 가능한 $X$의 값에 대해 결합 확률을 합산하여 $Y$의 확률만을 남기는 것.. 2024. 11. 10. Feature Extract : CV [2D 이미지 데이터를 활용한 이미지 분류] (7) 1. 데이터셋 불러오기[Empty Module #1] load_datasetcsv 파일로 구성된 2D 이미지 데이터를 numpy 형태로 가져오기# -------------------------------------# [Empty Module #1] 학습데이터, 평가데이터 불러오기 # -------------------------------------# -------------------------------------# load_dataset(path, split): #경로 설정train_path = 'train_csv_v2'test_path = 'test_csv_v2'label_path = 'Label2Names.csv'#train, test에 대해 load_dataset 함수 실행train_image.. 2024. 6. 11. 앙상블-배깅 (구현) 예측기의 성능을 향상시키기 위해 여러 개의 훈련 데이터셋 각각을 이용하여 학습시킨 예측기를 결합하여 예측하는 방법을 배깅(Bagging)방식 배깅방식은 특히 가지치기가 이루어지지 않은 결정트리와 같이 훈련데이터셋의 훈련샘플의 작은 변화에 민감하게 영향을 받는 예측기들을 개선할 때 유용한 방식 회귀문제에 대한 결정트리 예측기의 경우를 예로 들어 배깅방식을 설명하면 다음과 같다. 훈련데이터셋 $\mathcal D$가 어떤 분포를 따르는 랜덤집합이라하고, $\mathcal D_1,\cdots,\mathcal D_n$가 동일한 분포에 iid라 하자. 각 $\mathcal D_i\, (1\le i \le n)$를 훈련데이터셋으로 학습시킨 예측기를 $g_{\mathcal D_i}\, (1\le i \le n)$.. 2024. 6. 11. 이전 1 2 3 4 ··· 21 다음