이전 강의 노트에서 현실의 점을 변환하는 방법을 논의했다. 카메라의 extrinsic과 intrinsic 속성을 사용하여 3d 세계를 디지털 이미지로 바꾼다. 우리는 calibration rig의 알려진 구조와 그에 대응하는 이미지를 사용하여 이러한 카메라의 속성을 추론할 수 있는 방법을 살펴보았다. 이 시간에 우리는 관련된 문제를 살핀다. 단일 이미지와 이미지를 촬영한 카메라의 속성이 주어지면 3d 세계의 알려진 구조를 복구할 수 있는가? 그 다음 더 일반적으로 단일 이미지에서 어떤 정보를 추론될 수 있는지를 논의한다.
이미지에서 학습하는 방법을 더 잘 이해하려면 우선 2d 공간의 다양한 변형에 관해 알아야 한다.
Isometric transformation은 거리를 보존하는 변환이다. 가장 기본적인 형식에서 isometry는 rotation $R$과 translation $t$로 설명된다. 따라서 수학적으로 다음처럼 정의된다.
$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix} $$
여기서 $[x' \quad y' \quad 1]^\top$는 isometric transformation 후에 달성된 점이다.
Similarity transformation은 shape을 보존하는 변환이다. 직관적으로 isometric transfomation과 scaling이 가능한 모든 작업을 수행할 수 있다. 수학적으로 다음처럼 표기된다.
$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} SR & t \\ 0 & 1 \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix}, S = \begin{bmatrix} s & 0 \\ 0 & s\end{bmatrix} $$
이것이 shape을 보존하므로 그들은 또한 길이와 각도의 비율을 보존한다. 모든 isometric transformation이 $s=1$인 similarity transformation의 특별한 형식임에 유의하라. 그러나 그 반대는 성립하지 않는다.
Affine transformation은 점, 직선, 평행성을 보존하는 변환이다. 어떤 벡터 $v$에 대해 affine transformation $T$는 다음과 같이 정의된다.
$$ T(v) = Av + t $$
여기서 $A$는 $\mathbb{R}^n$의 선형 변환이다. homogeneous 좌표에서 affine transformation은 종종 다음과 같이 작성된다.
$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} A & t \\ 0 & 1 \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix} $$
위의 방정식에서 모든 similarities(그리고 따라서 isometric)이 affinities의 특별한 경우임을 쉽게 볼 수 있다.
Projective transformation 또는 homographies는 line을 line으로 매핑하는 임의의 변환이지만 평행성을 보존할 필요가 없다. homogeneous 좌표계에서 projective transformation은 다음처럼 표현된다.
$$ \begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} A & t \\ v & b \end{bmatrix}\begin{bmatrix} x \\ y \\ 1\end{bmatrix} $$
이 형식이 affine transformation을 더 일반화한 것임을 볼 수 있다. 추가 자유도는 $v$를 추가하여 추가된다.