본문 바로가기

전체 글97

(RAG) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksLarge pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still limarxiv.org0. AbstractPretrained LLM은 사실의 지식을 매개변수에 저장하고, downstream NLP 작업에서 미.. 2024. 11. 3.
Feature Extract : CV [2D 이미지 데이터를 활용한 이미지 분류] (7) 1. 데이터셋 불러오기[Empty Module #1] load_datasetcsv 파일로 구성된 2D 이미지 데이터를 numpy 형태로 가져오기# -------------------------------------# [Empty Module #1] 학습데이터, 평가데이터 불러오기 # -------------------------------------# -------------------------------------# load_dataset(path, split): #경로 설정train_path = 'train_csv_v2'test_path = 'test_csv_v2'label_path = 'Label2Names.csv'#train, test에 대해 load_dataset 함수 실행train_image.. 2024. 6. 11.
앙상블-배깅 (구현) 예측기의 성능을 향상시키기 위해 여러 개의 훈련 데이터셋 각각을 이용하여 학습시킨 예측기를 결합하여 예측하는 방법을 배깅(Bagging)방식 배깅방식은 특히 가지치기가 이루어지지 않은 결정트리와 같이 훈련데이터셋의 훈련샘플의 작은 변화에 민감하게 영향을 받는 예측기들을 개선할 때 유용한 방식  회귀문제에 대한 결정트리 예측기의 경우를 예로 들어 배깅방식을 설명하면 다음과 같다.  훈련데이터셋 $\mathcal D$가 어떤 분포를 따르는 랜덤집합이라하고, $\mathcal D_1,\cdots,\mathcal D_n$가 동일한 분포에 iid라 하자. 각 $\mathcal D_i\, (1\le i \le n)$를 훈련데이터셋으로 학습시킨 예측기를 $g_{\mathcal D_i}\, (1\le i \le n)$.. 2024. 6. 11.
Decision Tree (구현) 결정 트리(Decision Tree)는 스무고개 게임과 유사하여 룰 기반의 프로그램에 적용되는 `if`, `else`를 자동으로 찾아내(분할 규칙) 예측을 위한 알고리즘 결국 결정트리를 생성하는 것은 주어진 특성공간을 분할 규칙에 따라 분할하는 것과 같음  학습 데이터 $D=\{(x_i,y_i)|1\le i \le m\}$의 특성벡터 $x_i\, (1\le i \le m)$를 포함하는 특성공간  $\mathcal X$를 어떤 분할 규칙(splitting rule)에 따라 겹치지 않는 작은 영역 $\mathcal R_i$로 나눔 $$\mathcal X = \mathcal R_1 \cup \mathcal R_2 \cup \cdots \cup \mathcal R_N$$ 회귀문제인지 분류문제인지에 따라, 임의.. 2024. 6. 11.