시각적 이해를 위한 머신러닝/ Multimodal Learning II

Cap 2023-01-04 13-54-22-167.jpg

Cap 2023-01-04 13-55-11-605.jpg

Cap 2023-01-04 13-55-51-022.jpg

Cap 2023-01-04 13-57-16-842.jpg

VideoBERT는 BERT에 Video를 적용함
- 특정 장면과 말이 관련이 있다는 가정으로 학습
- 말을 안 하는 영상도 있고, 뮤직비디오 같은 경우는 텍스트와 영상이 관련 없기 때문에 요리 영상을 이용해서 학습 함

Cap 2023-01-04 13-58-52-954.jpg

이미지는 Faster R-CNN을 이용해서 Mask를 씌워서 할 수 있지만, Video에서는 특정 frame을 mask 씌우고 할 수가 없음. —video의 frame에 mask를 씌우면 계산량이 너무 많아짐
- 그래서 clustering을 돌림.
- 그랬더니 mask 된 프레임에 클러스터된 다름 프레임을 집어 넣게 됨. 그런데 맥락은 맞음
- 이것은 마치 말에서도 단어가 여러 의미를 갖고 있는 것과 비슷하게 mask 된 프레임에 맥락에 맞는 다른 영상의 frame을 가져옴
픽셀 단위로 영상을 채우는 것은 못하지만 다른 영상의 것을 가져옴

Cap 2023-01-04 14-02-07-710.jpg