본문 바로가기

Ensemble6

앙상블-배깅 (구현) 예측기의 성능을 향상시키기 위해 여러 개의 훈련 데이터셋 각각을 이용하여 학습시킨 예측기를 결합하여 예측하는 방법을 배깅(Bagging)방식 배깅방식은 특히 가지치기가 이루어지지 않은 결정트리와 같이 훈련데이터셋의 훈련샘플의 작은 변화에 민감하게 영향을 받는 예측기들을 개선할 때 유용한 방식  회귀문제에 대한 결정트리 예측기의 경우를 예로 들어 배깅방식을 설명하면 다음과 같다.  훈련데이터셋 $\mathcal D$가 어떤 분포를 따르는 랜덤집합이라하고, $\mathcal D_1,\cdots,\mathcal D_n$가 동일한 분포에 iid라 하자. 각 $\mathcal D_i\, (1\le i \le n)$를 훈련데이터셋으로 학습시킨 예측기를 $g_{\mathcal D_i}\, (1\le i \le n)$.. 2024. 6. 11.
앙상블(Ensemble) [센서데이터를 이용한 행동분류] (2) 0. Overview(1) Task스마트폰에 장착된 자이로센서와 가속도 센서의 1D 센서 데이터(자이로, 가속도)를 사용하여 사람의 행동 유형을 분류 예측1D 센서 데이터를 Feature 로 기술할 수 있습니다.좋은 Feature를 만들수록 분류 성능이 향상됨을 알 수 있습니다.스마트폰은 다양한 센서로 이뤄져있으며, 대표적으로는 가속도 센서와 자이로 센서가 있습니다. 가속도 센서(Accelerometer)는 X,Y,Z 축에 대한 가속도를 측정하는 센서이며, 스마트폰의 움직임을 알 수 있습니다. 다음으로는 자이로 센서(Gyroscope)는 물체의 회전속도를 측정하는 센서이며, 스마트폰의 기울임을 알 수 있습니다. 이외에도 다양한 센서가 존재하지만 해당 실습문제에서는 이 두가지 센서를 활용하게 됩니다.(2).. 2024. 6. 9.
앙상블(Ensemble) (1) 1. 앙상블 학습(1) 목적여러 분류기를 하나로 연결하여 개별 분류기보다 더 좋은 일반화 성능을 달성하는 것(2) 방법여러 분류 알고리즘 사용: 다수결 투표(Voting)하나의 분류 알고리즘을 여러 번 이용: 배깅(Bagging), 부스팅(Boosting)(3) 종류다수결 투표 (Majority Voting)동일한 학습 데이터 사용배깅(Bagging)알고리즘 수행마다 서로 다른 학습 데이터 샘플링하여 사용병렬적 처리부스팅(Boosting)샘플 뽑을 때 이전 모델에서 잘못 분류된 데이터를 재학습에 사용 또는 가중치 사용순차적 처리2. 배깅 (Bagging)(1) 배깅알고리즘마다 별도의 학습 데이터를 추출(샘플링)하여 모델 구축에 사용부트스트랩(Bootstrap) 사용- 학습 데이터 샘플링 시 복원 추출(중.. 2024. 6. 9.
의사결정나무(Decision Tree) (3) 1. 회귀나무입력 데이터(변수 값)의 결과 예측- 데이터가 도달한 끝 노드 데이터들의 평균으로 결정불순도 측정 방법- 제곱 오차 합 (the sum of the squared errors)- 오차 = 실제 값 - 예측 값성능 평가 방법- 예측 모델 평가 방법 : RMSE 2. 앙상블 (Ensemble)(1) 앙상블- 여러 모델(의사결정나무, KNN, LDA, 로지스틱 등)을 함께 사용- 설명보다는 예측이 중요할 경우 사용- 예측 알고리즘을 조합하여 예측 성능을 향상- 랜덤포레스트(Random Forest), Boosted Trees (2) Random ForestBoostrap 사용- 데이터로부터 복원 추출(뽑은 표본 원복)을 이용하여 여러 샘플을 추출Forest 생성- 무작위로 예측 변수를 선택하여 모.. 2024. 6. 9.