본문 바로가기

전체 글110

Feature Extract : NLP [한국어 텍스트 데이터를 활용한 영화 리뷰 분류] (1) 0. Overview(1) 목적자연어 텍스트 데이터, 특히 한국어 데이터를 머신러닝에 활용할 수 있는 벡터 형태의 데이터로 가공하는 과정을 학습한다.같은 데이터를 두 가지 주어진 방법으로 가공하는 과정을 통해, 여러가지 방법론을 비교하고 선택하는 과정을 경험한다.(2) 데이터셋본 데이터셋은 네이버 영화 서비스에 사용자들이 남긴 리뷰들로 구성되었습니다.데이터셋에는 길이 제한이 없는 리뷰글과, 해당 리뷰가 영화에 대한 긍정적 리뷰인지, 혹은 부정적 리뷰인지의 여부가 포함되어 있습니다.자연어(Natrual Language) 데이터, 그 중에서도 우리가 사용하는 한국어 데이터를 전처리하여 텍스트 데이터를 머신러닝을 적용하는 과정을 통해, 데이터 전처리와 특징 추출의 과정을 배워보시길 바랍니다.(3) 자연어 처리.. 2024. 6. 10.
전이학습(Transfer Learning) [수화 이미지 분류] (4) 1. Dataset & Data Loader(1) Custom Datasetimport torchvisionfrom PIL import Imageclass Custom_dataset(torch.utils.data.Dataset): def __init__(self, paths, split=None, transform=None): self.paths = paths self.split = split self.transform = transform self.image = [] self.label = [] if self.split.upper() == 'TRAIN' or self.split.upper() =.. 2024. 6. 9.
전이학습(Transfer Learning) [개, 고양이 분류] (3) 1. Label Maplabel_map = { 'cat' : 0, 'dog' : 1} 2. Dataset & Data Loader(1) Custom Datasetclass CustomDataset(torch.utils.data.Dataset): def __init__(self, root_path, split, transform, label_map): self.split = split.upper() self.root_path = root_path self.transform = transform self.label_map = label_map self.image = [] self.label = [] .. 2024. 6. 9.
전이학습(Transfer Learning) (2) 5. 적합한 전이학습 수준 선택하기전이학습의 적합한 수준을 결정하는 중요한 요소목표 데이터셋의 크기 (많음 또는 적음) : 목표 데이터셋의 크기가 작다면 많은 층을 학습시키기 어렵고 새로운 데이터에 대해 과적합을 일으키기 쉬움. 이런 경우에는 미세 조정 범위를 줄이고 원 데이터셋의 의존도를 높여야 함원 도메인과 목표 도메인의 유사성 : 해결하려는 문제가 자동차와 배를 분류하는 것이라면 비슷한 특징을 다수 포함하는 이미지넷 데이터셋으로도 충분함. 반면 새로운 문제가 엑스레이 사진에서 폐암 병변을 찾아내는 것이라면 도메인이 전혀 달라지므로 미세 조정 범위가 넓어져야 함 전이학습의 적합한 수준을 결정하는 네 가지 시나리오목표 데이터셋의 크기가 작고, 원 도메인과 목표 도메인이 유사목표 데이터셋의 크기가 크고,.. 2024. 6. 9.