본문 바로가기

분류 전체보기96

Feature Extract : CV [2D 이미지 데이터를 활용한 이미지 분류] (7) 1. 데이터셋 불러오기[Empty Module #1] load_datasetcsv 파일로 구성된 2D 이미지 데이터를 numpy 형태로 가져오기# -------------------------------------# [Empty Module #1] 학습데이터, 평가데이터 불러오기 # -------------------------------------# -------------------------------------# load_dataset(path, split): #경로 설정train_path = 'train_csv_v2'test_path = 'test_csv_v2'label_path = 'Label2Names.csv'#train, test에 대해 load_dataset 함수 실행train_image.. 2024. 6. 11.
앙상블-배깅 (구현) 예측기의 성능을 향상시키기 위해 여러 개의 훈련 데이터셋 각각을 이용하여 학습시킨 예측기를 결합하여 예측하는 방법을 배깅(Bagging)방식 배깅방식은 특히 가지치기가 이루어지지 않은 결정트리와 같이 훈련데이터셋의 훈련샘플의 작은 변화에 민감하게 영향을 받는 예측기들을 개선할 때 유용한 방식  회귀문제에 대한 결정트리 예측기의 경우를 예로 들어 배깅방식을 설명하면 다음과 같다.  훈련데이터셋 $\mathcal D$가 어떤 분포를 따르는 랜덤집합이라하고, $\mathcal D_1,\cdots,\mathcal D_n$가 동일한 분포에 iid라 하자. 각 $\mathcal D_i\, (1\le i \le n)$를 훈련데이터셋으로 학습시킨 예측기를 $g_{\mathcal D_i}\, (1\le i \le n)$.. 2024. 6. 11.
Decision Tree (구현) 결정 트리(Decision Tree)는 스무고개 게임과 유사하여 룰 기반의 프로그램에 적용되는 `if`, `else`를 자동으로 찾아내(분할 규칙) 예측을 위한 알고리즘 결국 결정트리를 생성하는 것은 주어진 특성공간을 분할 규칙에 따라 분할하는 것과 같음  학습 데이터 $D=\{(x_i,y_i)|1\le i \le m\}$의 특성벡터 $x_i\, (1\le i \le m)$를 포함하는 특성공간  $\mathcal X$를 어떤 분할 규칙(splitting rule)에 따라 겹치지 않는 작은 영역 $\mathcal R_i$로 나눔 $$\mathcal X = \mathcal R_1 \cup \mathcal R_2 \cup \cdots \cup \mathcal R_N$$ 회귀문제인지 분류문제인지에 따라, 임의.. 2024. 6. 11.
Linear Classification (구현) 경사 하강법(Gradient Descent)를 이용하여 선형 분류 문제를 해결 레이블이 $1$, $0$인 두 개의 클래스에 대한 분류문제에서 샘플이 특정 클래스에 속할 확률을 추정하는 지도학습의 한 가지 (Binary case) 선형회귀 모델과 같이 입력 특성의 가중치의 합(편향 포함) ${\beta}^{\rm T} x = \beta_0+\beta_1 x_1+\cdots +\beta_nx_n$을 계산한 다음 시그모이드 함수(sigmoid) $\sigma(t)=\dfrac{1}{1+\exp(-t)}$를 취한 값 $\sigma({\beta}^{\rm T} x)$를 ${\rm P}(Y=1|X=x)$에 대한 추정값 $\hat p(x)$로 추정하는 모델.즉, 모델 파라미터 ${\beta}=(\beta_0,\cdo.. 2024. 6. 11.