1 Introduction

이전 강의 노트에서 현실의 점을 변환하는 방법을 논의했다. 카메라의 extrinsic과 intrinsic 속성을 사용하여 3d 세계를 디지털 이미지로 바꾼다. 우리는 calibration rig의 알려진 구조와 그에 대응하는 이미지를 사용하여 이러한 카메라의 속성을 추론할 수 있는 방법을 살펴보았다. 이 시간에 우리는 관련된 문제를 살핀다. 단일 이미지와 이미지를 촬영한 카메라의 속성이 주어지면 3d 세계의 알려진 구조를 복구할 수 있는가? 그 다음 더 일반적으로 단일 이미지에서 어떤 정보를 추론될 수 있는지를 논의한다.

2 Transformations in 2D

이미지에서 학습하는 방법을 더 잘 이해하려면 우선 2d 공간의 다양한 변형에 관해 알아야 한다.

Isometric transformation은 거리를 보존하는 변환이다. 가장 기본적인 형식에서 isometry는 rotation $R$과 translation $t$로 설명된다. 따라서 수학적으로 다음처럼 정의된다.

$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix} $$

여기서 $[x' \quad y' \quad 1]^\top$는 isometric transformation 후에 달성된 점이다.

Similarity transformation은 shape을 보존하는 변환이다. 직관적으로 isometric transfomation과 scaling이 가능한 모든 작업을 수행할 수 있다. 수학적으로 다음처럼 표기된다.

$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} SR & t \\ 0 & 1 \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix}, S = \begin{bmatrix} s & 0 \\ 0 & s\end{bmatrix} $$

이것이 shape을 보존하므로 그들은 또한 길이와 각도의 비율을 보존한다. 모든 isometric transformation이 $s=1$인 similarity transformation의 특별한 형식임에 유의하라. 그러나 그 반대는 성립하지 않는다.

Affine transformation은 점, 직선, 평행성을 보존하는 변환이다. 어떤 벡터 $v$에 대해 affine transformation $T$는 다음과 같이 정의된다.

$$ T(v) = Av + t $$

여기서 $A$는 $\mathbb{R}^n$의 선형 변환이다. homogeneous 좌표에서 affine transformation은 종종 다음과 같이 작성된다.

$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} A & t \\ 0 & 1 \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix} $$

위의 방정식에서 모든 similarities(그리고 따라서 isometric)이 affinities의 특별한 경우임을 쉽게 볼 수 있다.

Projective transformation 또는 homographies는 line을 line으로 매핑하는 임의의 변환이지만 평행성을 보존할 필요가 없다. homogeneous 좌표계에서 projective transformation은 다음처럼 표현된다.

$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} A & t \\ v & b \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix} $$

이 형식이 affine transformation을 더 일반화한 것임을 볼 수 있다. 추가 자유도는 $v$를 추가하여 추가된다.