Linear Regression : Logistic Regression (2)

1. 로지스틱 함수 (Logistic Function)

Sigmoid Function
S-커브 함수로, 실제 많은 자연, 사회현상에서는 특정 변수에 대한 확률값이 선형이 아닌 S-커브 형태를 따르는 경우가 많다.
x값으로 어떤 값이든 받을 수가 있지만, 출력 결과(y)는 항상 0에서 1 사이 값이 된다.
누적분포함수(cumulative distribution function, 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수) 요건을 충족한다.

2. 승산 (Odds)

$odds = \frac{P(A)}{P(A_c)} = \frac{P(A)}{1-P(A)}$

임의의 사전 A가 발생하지 않을 확률 대비 일어날 확률의 비율이다.
P(A)가 1에 가까울수록 승산은 커지고, 반대로 P(A)가 0이라면 승산은 0이다.

3. 이항 로지스틱 회귀

Y가 범주형일 경우, 회귀모델을 적용할 수 없다.

데이터는 크게 범주형과 수치형으로 나뉩니다.

먼저, 범주형 데이터란 숫자로 측정하고 표시하는 것이 불가능한 자료를 의미합니다. 즉, 질적자료라고도 부를 수 있어요! 이러한 범주형 데이터는 데이터 간의 순위를 매길 수 있는지의 여부에 따라 2가지 속성으로 나눠지는데요. 데이터 간의 순위를 매길 수 없는 경우를 명목형 데이터라고 부릅니다. ‘성별’은 남자와 여자가 있으며, 이 둘의 순위를 매길 수 없기 때문에 명목형 데이터에 포함되죠. 성별 데이터 이외에도 사람들의 혈액형(A/B/AB/O)과 MBTI(16가지), 지역(서울/제주/부산 등)도 명목형 데이터가 될 수 있습니다. 반대로, 데이터 간의 순위를 순서대로 매길 수 있는 경우를 순서형 데이터라고 부르는데요. ‘학점’은 A등급부터 F등급 형태로 숫자가 아니기 때문에 측정이 불가능하지만, 가장 높은 A등급과 가장 낮은 F등급으로 순서를 매길 수 있기 때문에 순서형 데이터에 포함되죠. 학점 데이터 이외에도 만족도(상/중/하)와 선호 등급(선호/보통/혐오)이 순서형 데이터가 될 수 있어요!

그렇다면 이번에는 수치형 데이터를 알아볼까요? 수치형 데이터는 숫자로 측정하고 표시하는 것이 가능한 자료를 의미합니다. 즉, 양적자료라고도 부를 수 있어요! 이러한 수치형 데이터는 데이터와 데이터 사이에 끊어짐이 있는지의 여부에 따라 2가지 속성으로 나눠지는데요. 데이터와 데이터 사이에 끊어짐이 있는 경우, 즉 소수점 형태로 표현되지 못하는 것을 이산형 데이터라고 부릅니다. 에이블레터에서는 오늘 발행한 <통린이의 역습>까지 총 6건의 데이터 뉴스레터를 발행했는데요. 이러한 ‘뉴스레터 발행건수’는 6.5건과 같이 소수점 형태로 표현할 수 없기 때문에 이산형 데이터에 포함됩니다! 뉴스레터 발행건수 이외에도 여러분이 지금까지 마신 커피 캔의 수, 사고 발생 건수 등이 이산형 데이터가 될 수 있어요. 마지막으로 데이터와 데이터 사이에 끊어짐이 없이 연속적으로 이어진 경우, 즉 소수점 형태로 표현할 수 있는 것을 연속형 데이터라고 부릅니다. ‘몸무게’는 같은 50kg대여도 50.0부터 50.9 사이에 소수점 형태로 엄청나게 많은 숫자들을 표현할 수 있기 때문에 연속형 데이터에 포함되는데요. 몸무게 데이터 이외에도 사람들의 키나 길이, 매출 등이 연속형 데이터가 될 수 있어요!

데이터라고 다 같지 않다고요?🤨 : "디지털"한 일잘러 되는 비법

<통린이의 역습>이 궁금하다면, 여기 클릭!🐥오늘도 어김없이 돌아온 <통린이의 역습> 2️⃣번째 시간! 통린이(통계 왕초보🐥) 여러분은 성별 데이터와 몸무게 데이터에 어떤 차이점이 있는지

ablearn.kr

(Y를 확률식으로 바꾸기)

(Y를 승산으로 바꾸기)

(Y승산에 로그 취하기)

x가 주어졌을 때 범주 1일 확률을 p(x), 위 식 우변을 a로 치환해 정리하면,

4. 이항 로지스틱 회귀의 결정 경계

이항 로지스틱 모델은 범주 모델을 모르는 입력 벡터 x를 넣으면 범주 1에 속할 확률을 반환하며, 범주 1로 분류하는 판단 기준은 아래와 같다.

범주가 두개 뿐임으로, 위 식 좌변을 p(x)로 치환하면,

마찬가지로 $\beta_Tx < 0$이면 데이터 범주를 0으로 분류하게 되며, 로지스틱 결정 경계(decision boundary)는 $\beta_T = 0$인 하이퍼플레인(hyperplane)이다.

4. 다항 로지스틱 회귀

5. 다항 로지스틱 회귀와 소프트맥스

'Study > Machine Learning' 카테고리의 다른 글

Linear Regression : Logistic Regression [Wine] (4) (0)	2024.03.24
Linear Regression : Logistic Regression [Iris] (3) (0)	2024.03.24
Linear Regression : Multi Linear Regression (1) (0)	2024.03.23
KNN(K-Nearest Neighbors) [자동차 가격 예측] (5) (0)	2024.03.23
KNN(K-Nearest Neighbors) [재배환경 별 작물 종류 예측] (4) (1)	2024.03.23