전체 글110 (ViT) AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep arxiv.org 0. Abstract 트랜스포머 아키텍처는 자연어 처리 작업의 사실상의 표준이 되었지만, 컴퓨터 비전.. 2024. 2. 28. (AlexNet) ImageNet Classification with Deep Convolutional Neural Networks https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html 1. Introduction - AlexNet 이전의 객체 인식 모델은 대부분 고전적인 ML 모델 - 수만개 정도의 작은 데이터셋(NORB, Caltech-101/256, CIFAR-10/100)을 사용 - 수십만 개의 완전 분할 된 이미지로 구성된 LabelMe 등장 - 1500만 개 이상의 고해상도 이미지로 구성된 ImageNet 등장 - 등장한 데이터셋을 처리하기 위해, 높은 학습 역량을 가진 모델 필요 - 사용되지 않은 데이터에 대해서 추론을 할 수 있는 사전 지식을 담아내야 함 → 이에 논문은 컨볼루션 신경망(CNN) 모델.. 2024. 2. 28. 이전 1 ··· 25 26 27 28 다음