본문 바로가기

Computer Science/Machine Learning43

Feature Extract : Speech [음악 장르 분류] (3) 0. Overview(1) 목적본 프로젝트를 통해 음성 데이터를 handcrafted feature로 기술하는 법을 알 수 있다.기술한 feature를 활용하여 음악의 장르를 분류할 수 있다. (2) 데이터셋음성/음악 데이터 다루기 - 장르 분류기본 텀프로젝트에서는 음악 데이터에 대한 양질의 handcrafted feature를 추출하여 총 10가지의 음악 장르를 분류하는 것을 목표로 합니다.1) 음성 데이터 사전 지식음성 데이터 활용음성 데이터는 인공지능 스피커에서의 음성 인식, 유튜브 자막 생성을 위한 오디오 캡셔닝 등 다양한 분야에 활용되고 있습니다. 음성 분야의 최신 기술 동향을 살펴보면, 음성 데이터로부터 handcrafted feature를 추출하여 이를 인공지능 신경망의 입력으로 사용하는 추.. 2024. 6. 10.
Feature Extract : NLP [한국어 텍스트 데이터를 활용한 영화 리뷰 분류] (2) preds = clf.predict(x_test_tfidf)​########################################################################################### Empty Module #6# 입력: BoW 형태로 변환된 (N, M) 크기의 데이터# 출력: 등장 빈도가 적은 단어들을 제외한 (N, m) 크기의 더 작은 데이터# 힌트# 1. 먼저 전체 데이터에서 각 단어가 등장한 횟수를 세어보세요.# 2. 그 다음, 등장 횟수가 50회 미만인 단어들을 찾습니다.# 3. 해당 단어들을 데이터에서 제거하는 코드를 작성합니다.# 4. 설계를 잘 하고 구현을 시작해야 어렵지 않습니다.######################################.. 2024. 6. 10.
Feature Extract : NLP [한국어 텍스트 데이터를 활용한 영화 리뷰 분류] (1) 0. Overview(1) 목적자연어 텍스트 데이터, 특히 한국어 데이터를 머신러닝에 활용할 수 있는 벡터 형태의 데이터로 가공하는 과정을 학습한다.같은 데이터를 두 가지 주어진 방법으로 가공하는 과정을 통해, 여러가지 방법론을 비교하고 선택하는 과정을 경험한다.(2) 데이터셋본 데이터셋은 네이버 영화 서비스에 사용자들이 남긴 리뷰들로 구성되었습니다.데이터셋에는 길이 제한이 없는 리뷰글과, 해당 리뷰가 영화에 대한 긍정적 리뷰인지, 혹은 부정적 리뷰인지의 여부가 포함되어 있습니다.자연어(Natrual Language) 데이터, 그 중에서도 우리가 사용하는 한국어 데이터를 전처리하여 텍스트 데이터를 머신러닝을 적용하는 과정을 통해, 데이터 전처리와 특징 추출의 과정을 배워보시길 바랍니다.(3) 자연어 처리.. 2024. 6. 10.
차원 축소(Dimension Reduction) : 기타 (4) 1. Randomized PCA, Kernelized PCA(1) 랜덤 PCA의 개념- 자료의 크기 또는 특성변수의 크기가 매우 크면 주성분 W를 구하기 위한 SVD 계산이 불가능하거나 시간이 많이 소요됨- 이런 경우 Randomized PCA 가 유용- Randomized PCA는 QR 분해를 이용하여 행렬의 SVD를 수행함(2) 커널 PCA 개념- PCA는 선형 변환이고 Kernelized PCA는 비선형 변환임- SVM의 커널트릭을 PCA에서도 사용- 특성 변수 x를 비선형 h(x)로 번환한 후 이에 대해 PCA를 하여 차원 축소를 하는 방법임 2024. 6. 9.