https://youtu.be/-iwEKM56BpU
(review 생략)

- RNN을 이용해서 video를 처리하는 방법을 배워보자

- LRCN 모델은 CNN을 통해 feature를 뽑고 그걸 RNN에 넣어서 돌리는 모델.
- CNN은 CaffeNet을 쓰고, RNN은 LSTM을 씀.
- 최종적으로 classifier를 달아서 label을 예측 함.

- Beyond Short Snippets은 2014년 이전 모델들은 16 frame 정도만 가지고 했었기 때문에, 최대 5분까지 처리할 수 있는 video 처리를 함
- 대신 1초에 1장씩 뽑아서 처리.
- 추가로 optical flow feature도 사용함

- Conv로 feature를 뽑아서, Conv pooling, Late pooling, Slow pooling, local pooling, Time-Domain Conv 등을 해 봄.
- 결과적으로는 별 차이 없었지만 Conv Pooling을 제일 나았다.

- multi layer로 LSTM도 써 봄. 이것 저것 방법을 시도 함.