decision4 Decision Tree (구현) 결정 트리(Decision Tree)는 스무고개 게임과 유사하여 룰 기반의 프로그램에 적용되는 `if`, `else`를 자동으로 찾아내(분할 규칙) 예측을 위한 알고리즘 결국 결정트리를 생성하는 것은 주어진 특성공간을 분할 규칙에 따라 분할하는 것과 같음 학습 데이터 $D=\{(x_i,y_i)|1\le i \le m\}$의 특성벡터 $x_i\, (1\le i \le m)$를 포함하는 특성공간 $\mathcal X$를 어떤 분할 규칙(splitting rule)에 따라 겹치지 않는 작은 영역 $\mathcal R_i$로 나눔 $$\mathcal X = \mathcal R_1 \cup \mathcal R_2 \cup \cdots \cup \mathcal R_N$$ 회귀문제인지 분류문제인지에 따라, 임의.. 2024. 6. 11. 의사결정나무(Decision Tree) (3) 1. 회귀나무입력 데이터(변수 값)의 결과 예측- 데이터가 도달한 끝 노드 데이터들의 평균으로 결정불순도 측정 방법- 제곱 오차 합 (the sum of the squared errors)- 오차 = 실제 값 - 예측 값성능 평가 방법- 예측 모델 평가 방법 : RMSE 2. 앙상블 (Ensemble)(1) 앙상블- 여러 모델(의사결정나무, KNN, LDA, 로지스틱 등)을 함께 사용- 설명보다는 예측이 중요할 경우 사용- 예측 알고리즘을 조합하여 예측 성능을 향상- 랜덤포레스트(Random Forest), Boosted Trees (2) Random ForestBoostrap 사용- 데이터로부터 복원 추출(뽑은 표본 원복)을 이용하여 여러 샘플을 추출Forest 생성- 무작위로 예측 변수를 선택하여 모.. 2024. 6. 9. 의사결정나무(Decision Tree) (2) 1. 재귀적 분할 알고리즘 2. 분류 나무 : CART- Breiman 등이 개발- 종류 : 분류 나무, 회귀 나무- 분리 : 이진 분할- 가지치기 (교차 타당도) : 학습 데이터로 나무 생성, 검증용 데이터로 가지치기- 불순도 알고리즘 : Gini index (불확실성) 는 낮아지는게 좋음 3. 분류 나무 : C4.5(1) C4.5, C5.0- Quinlan 등이 개발- 종류: 분류 나무, 회귀 나무- 분리: 다중 분할- 불순도 알고리즘: 엔트로피(불확실성), 정보이론, 정보이론 이득률- 가지치기 (교차 타당도) : 학습 데이터만 이용하여 나무 성장 및 가지치기 수행- 정보 이론 → 엔트로피$log_2로 계산하지 않는 이유$ → bit 수로 정보 계산$-log_2로 계산하는 이유$ : $log_2(1/.. 2024. 6. 9. 의사결정나무(Decision Tree) (1) 1. 의사결정나무(1) 정의- 학습 데이터를 분석하여 데이터에 내재되어 있는 패턴을 새롭게 관측된 데이터를 예측 및 분류하는 모델- 개념적으로 질문을 던져서 대상을 좁혀 나가는 '스무고개'와 비슷한 개념- 목적(Y)과 자료(X)에 따라 적절한 분리 기준과 정지 규칙을 지정하여 의사결정나무를 생성- 의사결정방식 과정의 표현법이 나무와 같다고 해서 의사결정나무라 불림- 의사결정 규칙을 나무 모델로 표현(2) 의사결정나무의 장점- 이해하기 쉽고 적용하기 쉬움- 의사결정과정에 대한 설명(해석) 가능- 중요한 변수 선택에 유용 (상단에서 상용된 설명 변수가 중요한 변수)- 데이터의 통계적 가정이 필요 없음 (ex. LDA 가정: 데이터 정규성)(3) 의사결정나무의 단점- 좋은 모형을 만들기 위해 많은 데이터가 필.. 2024. 6. 9. 이전 1 다음