본문 바로가기

전체 글110

Linear Regression : Multi Linear Regression (1) 1. 다중선형회귀(Multiple Linear Regression) 수치형 설명변수 X와 연속형 숫자로 이루어진 종속변수 Y간의 관계를 선형으로 가정하고, 이를 가장 잘 표현할 수 있는 회귀계수를 데이터로부터 추정하는 모델이다. 2. 다중선형회귀 모델 방정식 3. 회귀 계수 결정법 : Direct Solution 선형회귀 계수들은 실제값(Y)과 모델 예측값(Y')의 차이, 오차제곱합(Sum of squares for error, $SSE = \sum (y_i - y'_i) ^{2}$)을 최소로 하는 값을 회귀 계수로 선정한다. 최적의 계수들은 회귀 계수에 대해 미분한 식을 0으로 놓고 풀면 명시적인 해를 구할 수 있다. $\overrightarrow{\beta } = (X^{T}X)^{-1}X_T\ove.. 2024. 3. 23.
KNN(K-Nearest Neighbors) [자동차 가격 예측] (5) 0. Dataset import numpy as np import pandas as pd train_data = pd.read_csv("/kaggle/input/2023-ml-w4p2/train.csv") test_data = pd.read_csv("/kaggle/input/2023-ml-w4p2/test.csv") # 불필요한 정보 ID 빼기 x_train = train_data.iloc[:,:-1] y_train = train_data.iloc[:,-1] x_test = test_data 1. Label Map # 범주형 데이터 수치형 데이터로 변환 from sklearn import preprocessing le = preprocessing.LabelEncoder() train['model'] = .. 2024. 3. 23.
KNN(K-Nearest Neighbors) [재배환경 별 작물 종류 예측] (4) 0. Dataset import numpy as np import pandas as pd train_data = pd.read_csv("/kaggle/input/2023-ml-w4p1/train.csv") test_data = pd.read_csv("/kaggle/input/2023-ml-w4p1/test.csv") x_train = train_data.iloc[:,:-1] y_train = train_data.iloc[:,-1] x_test = test_data Train Data Test Data 1. Label map label_map = list() for label in y_train: if label not in label_map: label_map.append(label) y_train_la.. 2024. 3. 23.
KNN(K-Nearest Neighbors) [영화 평점 예측] (3) KNN 회귀 KNN 회귀를 이용한 영화 평점 예측 평이 좋다” vs “평이 나쁘다” 레이블로 분류하는 게 아니라 실제 IMDb(인터넷 영화 데이터베이스) 등급(별점)을 예측 from sklearn.neighbors import KNeighborsRegressor regressor = KNeighborsRegressor(n_neighbors=3, weights="distance") # uniform: 단순평균(default) / distance: 가중평균 training_points = [ [0.5, 0.2, 0.1], [0.9, 0.7, 0.3], [0.4, 0.5, 0.7] ] training_labels = [5.0, 6.8, 9.0] regressor.fit(training_points, train.. 2024. 3. 22.