본문 바로가기

분류 전체보기96

RUBi: Reducing Unimodal Biases for Visual Question Answering RUBi: Reducing Unimodal Biases in Visual Question Answering Visual Question Answering (VQA) is the task of answering questions about an image. Some VQA models often exploit unimodal biases to provide the correct answer without using the image information. As a result, they suffer from a huge drop in performance whe arxiv.org 0. Abstract 일부 VQA 모델은 image 정보를 사용하지 않고, 정답을 도출하기 위해 unimodal bias를 이용.. 2024. 2. 28.
Show and Tell: A Neural Image Caption Generator Show and Tell: A Neural Image Caption Generator Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this paper, we present a generative model based on a deep recurrent architecture that com arxiv.org 0. Abstract CV와 기계번역을 결합하여, 심층 반복 아키텍처에 기반한 생성 모델 훈련 이미지가 주어졌을 때 목표 설명 문장의 가능성을 최대화.. 2024. 2. 28.
(ViT) AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep arxiv.org 0. Abstract 트랜스포머 아키텍처는 자연어 처리 작업의 사실상의 표준이 되었지만, 컴퓨터 비전.. 2024. 2. 28.
(AlexNet) ImageNet Classification with Deep Convolutional Neural Networks https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html 1. Introduction - AlexNet 이전의 객체 인식 모델은 대부분 고전적인 ML 모델 - 수만개 정도의 작은 데이터셋(NORB, Caltech-101/256, CIFAR-10/100)을 사용 - 수십만 개의 완전 분할 된 이미지로 구성된 LabelMe 등장 - 1500만 개 이상의 고해상도 이미지로 구성된 ImageNet 등장 - 등장한 데이터셋을 처리하기 위해, 높은 학습 역량을 가진 모델 필요 - 사용되지 않은 데이터에 대해서 추론을 할 수 있는 사전 지식을 담아내야 함 → 이에 논문은 컨볼루션 신경망(CNN) 모델.. 2024. 2. 28.