본문 바로가기

Computer Science71

Linear Regression : Logistic Regression (2) 1. 로지스틱 함수 (Logistic Function) Sigmoid Function S-커브 함수로, 실제 많은 자연, 사회현상에서는 특정 변수에 대한 확률값이 선형이 아닌 S-커브 형태를 따르는 경우가 많다. x값으로 어떤 값이든 받을 수가 있지만, 출력 결과(y)는 항상 0에서 1 사이 값이 된다. 누적분포함수(cumulative distribution function, 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수) 요건을 충족한다. 2. 승산 (Odds) $odds = \frac{P(A)}{P(A_c)} = \frac{P(A)}{1-P(A)}$ 임의의 사전 A가 발생하지 않을 확률 대비 일어날 확률의 비율이다. P(A)가 1에 가까울수록 승산은 커지고, 반대로 P(A)가 0이.. 2024. 3. 24.
Linear Regression : Multi Linear Regression (1) 1. 다중선형회귀(Multiple Linear Regression) 수치형 설명변수 X와 연속형 숫자로 이루어진 종속변수 Y간의 관계를 선형으로 가정하고, 이를 가장 잘 표현할 수 있는 회귀계수를 데이터로부터 추정하는 모델이다. 2. 다중선형회귀 모델 방정식 3. 회귀 계수 결정법 : Direct Solution 선형회귀 계수들은 실제값(Y)과 모델 예측값(Y')의 차이, 오차제곱합(Sum of squares for error, $SSE = \sum (y_i - y'_i) ^{2}$)을 최소로 하는 값을 회귀 계수로 선정한다. 최적의 계수들은 회귀 계수에 대해 미분한 식을 0으로 놓고 풀면 명시적인 해를 구할 수 있다. $\overrightarrow{\beta } = (X^{T}X)^{-1}X_T\ove.. 2024. 3. 23.
KNN(K-Nearest Neighbors) [자동차 가격 예측] (5) 0. Dataset import numpy as np import pandas as pd train_data = pd.read_csv("/kaggle/input/2023-ml-w4p2/train.csv") test_data = pd.read_csv("/kaggle/input/2023-ml-w4p2/test.csv") # 불필요한 정보 ID 빼기 x_train = train_data.iloc[:,:-1] y_train = train_data.iloc[:,-1] x_test = test_data 1. Label Map # 범주형 데이터 수치형 데이터로 변환 from sklearn import preprocessing le = preprocessing.LabelEncoder() train['model'] = .. 2024. 3. 23.
KNN(K-Nearest Neighbors) [재배환경 별 작물 종류 예측] (4) 0. Dataset import numpy as np import pandas as pd train_data = pd.read_csv("/kaggle/input/2023-ml-w4p1/train.csv") test_data = pd.read_csv("/kaggle/input/2023-ml-w4p1/test.csv") x_train = train_data.iloc[:,:-1] y_train = train_data.iloc[:,-1] x_test = test_data Train Data Test Data 1. Label map label_map = list() for label in y_train: if label not in label_map: label_map.append(label) y_train_la.. 2024. 3. 23.