https://youtu.be/ryHvvWLVH9w
비디오 예측
비디오는 주로 action에 초점을 맞춤. 그걸 하려면 당연히 object 인식도 해야 함.
응용 예는 비디오 검색
또 다른 예는 비디오 추천
Video와 option으로 script가 주어지고 (아니면 음성 인식으로 script를 구성) 영상에 대해 질문을 하면 답을 줌
질문에 따라 내용을 봐야 할 수도 있고, 장면을 봐야 할 수도 있음.
Video 생성하는 task