본문 바로가기
Computer Science/Machine Learning

의사결정나무(Decision Tree) (3)

by BaekDaBang 2024. 6. 9.

1. 회귀나무

입력 데이터(변수 값)의 결과 예측

- 데이터가 도달한 끝 노드 데이터들의 평균으로 결정

불순도 측정 방법

- 제곱 오차 합 (the sum of the squared errors)

- 오차 = 실제 값 - 예측 값

성능 평가 방법

- 예측 모델 평가 방법 : RMSE

 

2. 앙상블 (Ensemble)

(1) 앙상블

- 여러 모델(의사결정나무, KNN, LDA, 로지스틱 등)을 함께 사용

- 설명보다는 예측이 중요할 경우 사용

- 예측 알고리즘을 조합하여 예측 성능을 향상

- 랜덤포레스트(Random Forest), Boosted Trees

좋은 의사결정나무들을 모아서 숲을 만듦

 

(2) Random Forest

Boostrap 사용

- 데이터로부터 복원 추출(뽑은 표본 원복)을 이용하여 여러 샘플을 추출

Forest 생성

- 무작위로 예측 변수를 선택하여 모델 구축

- 의사결정나무는 예측 변수 선택시 기준 지표를 사용하였으나 랜덤포레스트에서는 무작위로 선택함

앙상블 결과 집합

- 분류문제 → 투표

- 예측문제 → 평균화

나무 구조이지만 숲이 되면서 해석 가능한 모델의 장점은 사라짐

그러나 결과 분석을 통해 설명 변수 중 중요한 변수 판별 가능