https://youtu.be/LBqfClEnV2U


- Transformer를 Vision에 적용한 모델이 ViT
- 이미지를 16x16 patch로 분할한 후 Transformer를 적용함.

- ViT는 이미지를 patch로 쪼갠 후에 그것을 linear로 변환 시킨 후에 positional encoding 더하고, 그렇게 만들어진 것을 transformer의 encoder에 input으로 넣는다.

- Resnet 보다 성능이 좋았다고 함.
- 하지만 모델 훈련하는데, 큰 비용이 듬.

- ViT는 아주 큰 데이터셋에서만 기존 모델들 보다 잘 동작 했음.
- ViT는 spatial locality를 활용하지 않음. spatial locality를 모델이 스스로 깨우쳤다고 하는데, 그게 가능하려면 아주 큰 데이터셋이 필요함.

- ViT의 position embedding 결과