web.stanford.edu

1 State estimation

인공 에이전트가 실시간 decision making을 믿을 만하게 수행하는데는 환경의 현재 상태를 아는 것이 핵심이다. state estimation에서 우리는 다양한 센서 소스(multi-modal 인지)에서 측정을 지속적으로 결합하여 현재 시점에서 시스템의 latent state를 추론하는데 초점을 맞춘다.

우선 확률론적 관점에서 이산 시간 동적 시스템을 살핀다. 그림 1은 graphical model 형식에서 Partially Observable Markov Decision Process(POMDP)을 시각화 한다.

Cap 2024-06-19 11-26-52-390.jpg

유향 edge는 조건부 종속 관계를 나타낸다. $x_t \in \mathbb{R}^n$은 시간 $t$에서 상태이고 이전 상태 $x_{t-1}$에만 의존한다. $z_t \in \mathbb{R}^k$는 시간 $t$에서 상태에 의존하는 센서 관측이다. $u_t \in \mathbb{R}^m$은 시간 $t$에서 적용된 control input을 나타낸다. 예컨대 어떤 환경에 위치한 인공 에이전트의 상태는 position, orientation, linear, angular velocity 또는 이것들의 결합일 수 있다. 유사하게 상태에서 유도된 측정값은 로봇 position과 movement에 의존하는 환경의 카메라 이미지 또는 Lidar 측정일 수 있다.

측정과 control input이 알려지지만, hidden state 이력 $x_{0:t}$는 알려지지 않는다. 우리는 시스템이 확률적 방법으로 진화하고 그 관찰도 확률적이라고 가정한다. 그러므로 우리는 상태 $X_t$와 관찰 $Z_t$를 가능한 값으로 취할 수 있는 확률 변수 $x_t$와 $z_t$로 모델링한다. 표기의 단순화를 위해 $p(X_t = x_t)$를 $p(x_t)$로 작성한다. 유사하게 $Z_t$도.

state estimator의 목표는 이용 가능한 데이터(측정과 control input의 기록)과 상태 전이와 관찰에 대한 알려진 모델이 주어지면 상태 $x_t$의 posterior 확률 분포를 계산 또는 근사하는 것이다. 구체적으로 측정과 control input의 시퀀스가 주어지면 상태가 취할 수 있는 모든 가능한 값에 확률을 할당하는 상태의 posterior 분포 $p(x_t|z_{1:t}, u_{1:t})$를 알기를 원한다. posterior는 또한 시간 $t$에서 state의 값에 대한 belief라고도 불리며 $\text{bel}(t)$라고 표현된다. 확률적 공식화는 state에 대한 정확한 값을 제공하지 않지만 state가 무엇일 수 있는지데 대한 불확실성을 정량화할 수 있게 해준다.

그림 1의 graphical model을 사용하여 동적 시스템을 표현하여 state가 complete하다고 가정한다. 이 가정은 2가지 핵심 속성을 이끈다. 첫째, 우리는 시스템이 Markovian이라고 가정한다. 즉 현재 상태 $x_t$는 전체 이력 $z_{1:t-1}$이 아닌 오직 이전 상태 $x_{t-1}$와 이전 control input $u_{t-1}$만 의존한다. 이것은 다음처럼 표현할 수 있다.

$$ p(x_t|x_{0:t-1}, z_{1:t-1}, u_{1:t}) = p(x_t|x_{t-1}, u_t) \tag{1} $$

이것은 또한 transition model이라 부른다. 현재 $x_{t-1}$에 (원문에는 $x_{t+1}$ 나오는데 오타로 보임) 있고 control input $u_t$가 주어질 때 상태 $x_t$로 전환될 가능성을 나타낸다.

들째, 현재 측정 값 $z_t$는 오직 현재 상태 $x_t$에만 의존한다고 가정한다. 즉 $z_t$는 모든 이전 상태 $x_{0:t-1}$와 측정 $z_{1:t-1}$과 control input $u_{1:t}$에 조건부 독립이다. 이것은 다음처럼 표현할 수 있다.

$$ p(z_t|x_{0:t}, z_{1:t-1}, u_{1:t}) = p(z_t|x_t) \tag{2} $$

이것은 또한 measurement model이라 부른다. 이것은 상태 $x_t$가 주어질 때 측정값 $z_t$가 얼마나 가능성 있는지를 나타낸다.

2 Bayes filter

recursive filter는 상태 posterior를 추정하기 위해 지속적으로 새로운 측정을 ingests(섭취하다). 그림 2 참조. 각 time step $t$에서 우리는 이전 posterior $p(x_{t-1}|z_{1:t-1}, u_{0:t-1})$와 새로운 control input $u_{t-1}$과 새로운 측정값 $z_t$만 사용하여 새로운 posterior $p(x_t|z_{1:t}, u_{0:t})$를 계산한다. 따라서 recursive filter의 복잡도는 시간 관점에서 상수이다. 이것은 이력의 크기에 의존하지 않고 실시간 추론에 적합하다.

Cap 2024-06-19 11-27-05-563.png

2.1 Conditional probability review

결합 확률 분포를 $p(A, B) = p(A|B)p(B)$로 분해할 수 있다. 여기서 $A$와 $B$는 확률 변수이다. 결합 분포가 또 다른 확률 변수 $C$에 조건화되면, 조건을 $p(A, B|C) = p(A|B,C)p(B|C)$와 같이 전달할 수 있다. 분포를 $p(A) = \int_B p(A, B)dB$로 marginalize 할 수 있다. 이전과 유사하게 $p(A|C) = \int_B p(A, B|C) dB$를 갖는다. 우리는 결합 분포를 2가지 별개의 방법으로 분해할 수 있다. 결과는 Bayes rule이다. $p(A|B)p(B) = p(B|A)p(A)$