시각적 이해를 위한 머신러닝/ Video Classification II

Cap 2023-09-02 13-45-09-168.jpg

Cap 2023-09-02 13-50-04-928.jpg

기존의 2d 이미지에 더해 시간 단위로 이미지를 여러 장 묶어서 conv를 돌린다.
- padding을 추가하면 input-output의 크기를 같게 맞출 수 있음

Cap 2023-09-02 13-52-14-936.jpg

추가로 채널이 추가되기 때문에 최종적으로 3d conv의 filter는 총 4개의 차원을 갖는다. (seq, height, width, channel) 순서는 정하는 곳마다 다름.

Cap 2023-09-02 13-53-55-222.jpg

3d conv 크기 계산 예
- padding을 정수를 주면 시간, 공간에 모두 같은 값이 적용되고, (1, 0, 0) 처럼 주면 시간에만 1을 주는 식으로 설정된다.

Cap 2023-09-02 13-56-00-733.jpg

Cap 2023-09-02 13-56-49-527.jpg

Cap 2023-09-02 13-59-03-837.jpg

Cap 2023-09-02 13-59-18-099.jpg