https://youtu.be/5Z4ge437IWo

- 정지된 이미지를 처리하기 위해 2d conv를 썼던 것처럼, video를 처리하기 위해 3d conv를 사용할 수 있다.

- 기존의 2d 이미지에 더해 시간 단위로 이미지를 여러 장 묶어서 conv를 돌린다.
- padding을 추가하면 input-output의 크기를 같게 맞출 수 있음

- 추가로 채널이 추가되기 때문에 최종적으로 3d conv의 filter는 총 4개의 차원을 갖는다. (seq, height, width, channel) 순서는 정하는 곳마다 다름.

- 3d conv 크기 계산 예
- padding을 정수를 주면 시간, 공간에 모두 같은 값이 적용되고, (1, 0, 0) 처럼 주면 시간에만 1을 주는 식으로 설정된다.

- 3D CNN 모델 아키텍쳐
- 알렉스 넷이 등장하기 전에 했던 시도. 당시 컴퓨팅 파워의 한계로 주목 못 받고 잊혀짐


