본문 바로가기

Computer Science/Machine Learning43

데이터 전처리 [통신사 고객 이탈 예측 문제] (3) 1. Data Preprocessing(1) Train과 Test 데이터 자료형 확인train.info()test.info() (2) Churny_train, y_test에 들어갈 자료로, label encoder를 이용하여 labeling해준다.x_train = train.drop(['Churn'], axis=1)y_train = train['Churn']x_test = testle = LabelEncoder()y_train = le.fit_transform(y_train)y_train = pd.DataFrame(y_train) (3) index, Unnamed: 0, customerID예측에 영향을 끼치지 않는 정보로 삭제x_train = x_train.iloc[:,3:]x_test = x_test... 2024. 6. 9.
데이터 전처리 [이직을 희망하는 직원 예측 문제] (2) 1. Data Preprocessing(1) Train과 Test 데이터의 자료형 확인train.info()test.info()(2) index, enrolled_id, city예측에 영향을 끼치지 않는 정보로 삭제# index, enrollee_id, city 지우기x_train = x_train.iloc[:,3:]x_test = x_test.iloc[:,3:] (3) gender, relevent_experience, enrolled_university, education_level, major_discipline, company_type, training_hours자료형이 object로, label encoder를 이용하여 labeling 진행# genderle = LabelEncoder()x_tr.. 2024. 6. 9.
데이터 전처리 (1) 1. 데이터 전처리 정의(1) 정의데이터의 품질을 올리는 과정 (2) 데이터 전처리 과정데이터 실수화- 컴퓨터가 이해할 수 있는 값으로의 변환불완전한 데이터 제거- NULL, NA, NAN 값의 제거잡음 섞인 데이터 제거- 가격 데이터에 있는 (-) 값 제거- 연령 데이터 중 과도하게 큰 값 제거모순된 데이터 제거- 남성 데이터 중 주민번호가 '2'로 시작하는 경우불균형 데이터 해결- 과소표집(undersampling)- 과대표집(oversampling) 2. 데이터 전처리 기법데이터 실수화 (Data Verctorization)범주형 데이터, 텍스트 자료, 이미지 자료 등을 실수로 구성된 형태로 전환하는 것데이터 정제 (Data Cleaning)없는 데이터는 채우고, 잡음 데이터는 제거하고, 모순 데이.. 2024. 6. 9.
군집화(Clustering) (1) 1. 군집화(Clustering)(1) 개념유사한 속성을 갖는 데이터를 묶어 전체 데이터를 몇 개의 군집으로 나누는 것(2) 좋은 군집화의 기준동일한 군집에 소속된 데이터는 서로 유사할수록 좋음 (inter-class similarity)상이한 군집에 소속된 데이터는 서로 다를수록 좋음 (intra-class similarity)(3) 분류(classification) vs 군집화(clustering)분류- 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제- 지도학습(supervised learning)군집화- 사전 정의된 범주가 없는 데이터로부터 최적의 그룹을 찾아가는 문제- 비지도학습(unsupervised learning) 2. 군집화 적용 사례유사 문서 군집화- 스포츠, 경제, 기술.. 2024. 6. 8.