https://youtu.be/bAQ0p2Pepm8
https://youtu.be/lcsAcBBDa-c
- 이전에는 Image에 대한 Multimodal을 봤고 이번에는 Video에 대해 보겠다.
- 이미지와 달리 video에는 sequence가 있다.
- 비디오, 텍스트 pair 데이터는 유튜브나 동영상 자막(ASR) 등을 이용해서 수집한다.
- VideoBERT는 BERT에 Video를 적용함
- 특정 장면과 말이 관련이 있다는 가정으로 학습
- 말을 안 하는 영상도 있고, 뮤직비디오 같은 경우는 텍스트와 영상이 관련 없기 때문에 요리 영상을 이용해서 학습 함
- 이미지는 Faster R-CNN을 이용해서 Mask를 씌워서 할 수 있지만, Video에서는 특정 frame을 mask 씌우고 할 수가 없음. —video의 frame에 mask를 씌우면 계산량이 너무 많아짐
- 그래서 clustering을 돌림.
- 그랬더니 mask 된 프레임에 클러스터된 다름 프레임을 집어 넣게 됨. 그런데 맥락은 맞음
- 이것은 마치 말에서도 단어가 여러 의미를 갖고 있는 것과 비슷하게 mask 된 프레임에 맥락에 맞는 다른 영상의 frame을 가져옴
- 픽셀 단위로 영상을 채우는 것은 못하지만 다른 영상의 것을 가져옴
- VL-BERT와 비슷하게 텍스트와 Video의 Frame을 같이 집어 넣음
- Visual 정보와 텍스트 정보가 관련 있는지를 학습