본문 바로가기

분류 전체보기96

(DDPM) Denoising Diffusion Probabilistic Models 0. Abstract 확산 확률 모델과 랑게빈 역학과의 노이즈 제거 점수 매칭 사이의 새로운 연결에 따라 설계된 가중 가변 바운드에 대한 훈련을 통해 최상의 결과를 얻을 수 있으며, 우리 모델은 자동 회귀 디코딩의 일반화로 해석할 수 있는 점진적 손실 압축 해제 방식을 자연스럽게 인정한다. 1. Introduction DDPM은 주어진 이미지에 time에 따른 상수의 파라미터를 갖는 작은 가우시안 노이즈를 time에 대해 더해나가는데, image가 destroy하게 되면 결국 noise의 형태로 남는다. (normal distribution을 따르는) 이런 상황에서 normal distribution에 대한 noise가 주어졌을 때, image를 어떻게 복원할 것인가에 대한 문제로, 주어진 noise에서.. 2024. 3. 20.
🦩 Flamingo: a Visual Language Model for Few-Shot Learning Flamingo: a Visual Language Model for Few-Shot Learning Building models that can be rapidly adapted to novel tasks using only a handful of annotated examples is an open challenge for multimodal machine learning research. We introduce Flamingo, a family of Visual Language Models (VLM) with this ability. We propo arxiv.org 0. Abstract Flamingo의 주요 아키텍쳐 발전 (1) 사전 학습된 강력한 시각 전용 모델과 언어 전용 모델을 연결 (2) .. 2024. 3. 20.
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations t arxiv.org 1. Abstract VATT는 트랜스포머 아키텍처를 사용해, 레이블이 없.. 2024. 3. 4.
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 0. Abstrct 대규모 모델을 사전 학습할수록 모든 모델 파라미터를 재학습하는 전체 미세 조정은 실현 가능성이 낮아진다. 사전 학습된 모델 .. 2024. 2. 28.