web.stanford.edu

1 Introduction

이전에 우리는 일반적인 카메라 calibration 절차 또는 single view metrology를 사용하여 하나 이상의 view에서 카메라의 intrinsic과 extrinsic 파라미터를 계산하는 방법을 보았다. 이 과정을 통해 하나의 이미지에서 3d 세계에 관한 속성을 유도할 수 있었다. 그러나 일반적으로 단일 이미지만으로 3d 세계의 전체 구조를 복구하는 것은 불가능하다. 이것을 3d를 2d로 매핑하는 것의 내재적 모호함 때문이다. 일부 정보는 단순히 손실된다.

예컨대 그림 1에서 처음에 그 사람이 Pisa의 Learning Tower를 들고 있는 것으로 오해할 수 있다. 하지만 주의 깊게 관찰하면 이것이 사실이 아니라 단지 서로다른 depth를 이미지 평면에 투영하여 생긴 착시일 뿐임을 알 수 있다. 그러나 이 장면을 완전히 다른 각도에서 볼 수 있다면 이 착시는 즉각 사라지고 즉시 올바른 장면 레이아웃을 계산할 수 있다.

Cap 2024-06-17 07-40-08-125.jpg

이 강의 노드의 초점은 여러 카메라가 존재할 때 geometry의 지식이 매우 도움이 될 수 있음을 보이는 것이다. 구체적으로 우리는 먼저 2가지 viewpoint에 관여하는 geometry를 정의한 다음, 이 geometry가 우리를 둘러싼 세계를 더 잘 이해하는데 어떻게 도움이 될 수 있는지를 설명한다.

2 Epipolar Geometry

여러 view geometry에서 종종 여러 카메라, 3d 점과 각 카메라의 이미지 평면에서 그 점의 투영 사이에 흥미로운 관계가 존재한다. 카메라, 3d 점과 해당하는 관측치를 연결하는 geometry를 stereo 쌍의 epipolar geometry라고 부른다.

그림 2에 나온대로 표준 epipolar geometry 설정은 동일한 3d 점 $P$를 관찰하는 2대의 카메라가 포함된다. 각 이미지 평면에서의 $P$의 투영은 각각 $p$와 $p'$에 위치한다. 카메라 중심은 $O_1$과 $O_2$에 있으며 이들 사이의 직선을 baseline이라 부른다. 두 카메라 중심과 $P$에 의해 정의된 평면을 epipolar plane이라 부른다. baseline이 두 이미지 평면과 교차하는 지점을 epipole $e$와 $e'$라 부른다. 마지막으로 epipolar 평면과 두 이미지 평면의 교차로 정의되는 선을 epipolar line이라 부른다. epipolar line은 이미지 평면에서 각각의 epipole에서 baseline을 교차하는 속성을 갖는다.

Cap 2024-06-17 07-43-50-815.png

Cap 2024-06-17 07-44-07-387.jpg

epipolar geometry의 흥미로운 경우는 그림 4에 보여진다. 이것은 이미지 평면이 서로 평행할 때 발생한다. 이미지 평면이 서로 평행하면 중심 $O_1, O_2$를 결합하는 baseline이 이미지 평면과 평행하기 때문에 epipole $e$와 $e'$는 무한대에 위치한다. 이 경우의 또 다른 중요한 byproduct(부산물)은 epipolar line이 각 이미지 평면의 축과 평행하다는 것이다. 이 경우는 특히 유용하며 이미지 rectification에 대한 후속 섹션에서 더 상세히 커버된다.

Cap 2024-06-17 07-44-17-491.png

그러나 현실 상황에서 3d 위치 $P$의 정확한 위치는 주어지지 않고, 한 이미지 평면에서 그것의 투영만 $p$로 결정할 수 있다. 또한 카메라 location, orientation, camera matrix를 알 수 있다. 이 지식을 사용하여 무엇을 할 수 있는가? 카메라 위치 $O_1, O_2$와 이미지 점 $p$를 알면 epipolar plane을 정의할 수 있다. 그러면 이 epipolar plane을 사용하여 epipolar line을 결정할 수 있다. 정의에 따라 $P$의 두 번째 이미지에 대한 투영 $p'$은 반드시 두 번째 이미지의 epipolar line 상에 위치해야 한다. 따라서 epipolar geometry의 기본 이해를 통해 장면의 3d 구조를 모르더라도 이미지 쌍 사이의 강력한 제약조건을 만들 수 있다.

이제 점과 epipolar line을 view에 걸쳐 seamless 매핑하는 방법을 개발해 보겠다. 원래의 epipolar geometry framework(그림 5)에서 주어진 설명을 취하면, 추가로 $M$과 $M'$을 각각 3d 점을 해당 2d 이미지 평면 위치로 매핑하는 카메라 projection matrix로 정의할 수 있다.

Cap 2024-06-17 07-45-30-326.png

world reference system이 첫 번째 카메라와 연관되어 있고, 두 번째 카메라는 먼저 rotation $R$ 한 다음 translation $T$만큼 offset되어 있다고 가정하자. 이것은 카메라 projection 행렬을 다음과 같이 지정한다.

$$ \begin{aligned} M &= K\begin{bmatrix} I & 0 \end{bmatrix} \\ M' &= K'\begin{bmatrix} R^\top & -R^\top T \end{bmatrix} \end{aligned} \tag{1} $$

3 The Essential Matrix