Definition

$\bold{x}_t$가 시스템의 상태에 관한 관련된 모든 정보를 포착한다고 가정하자. 이것은 주어진 과거가 미래를 예측하는 것에 대한 충분 통계량(sufficient statistic)이라는 뜻이다. 즉

$$ p(\bold{x}{t+\tau}|\bold{x}t,\bold{x}{1:t-1}) = p(\bold{x}{t+\tau}|\bold{x}_t) $$

모든 $\tau \ge 0$에 대해 이것은 Markov assumption이라고 부른다.
이 경우에 모든 유한 길이의 시퀀스에 대해 결합 분포를 다음과 같이 작성할 수 있다.

$$ p(\bold{x}_{1:T}) = p(\bold{x}_1)p(\bold{x}_2|\bold{x}_1)p(\bold{x}_3|\bold{x}_2)p(\bold{x}_4|\bold{x}_3)... = p(\bold{x}1) \prod{t=2}^T p(\bold{x}t|\bold{x}{t-1}) $$

이것을 Markov chain 또는 Markov model이라 부른다.

Parameterization

Markov transition kernels

조건부 분포 $p(\bold{x}t|\bold{x}{t-1})$은 transition function(전이 함수), transition kernel(전이 커널) 또는 Markov kernel이라 한다. 이것은 주어진 시간 $t-1$의 상태에 대해 시간 $t$의 상태에 대한 조건부 분포이다. 따라서 이것은 다음 두 조건을 만족한다.

$$ \begin{aligned} p(\bold{x}t|\bold{x}{t-1}) &\ge 0 \\ \int_{\bold{x} \in \mathcal{X}} dx \ p(\bold{x}t=\bold{x}|\bold{x}{t-1})&=1 \end{aligned} $$

전이 함수 $p(\bold{x}t|\bold{x}{1:t-1})$가 시간에 독립이면 모델은 homogeneous, stationary 또는 time-invariant라고 한다.
- 이것은 같은 파라미터가 여러 변수에서 공유되기 때문에 parameter 묶음의 예이다. 이 가정을 통해 고정된 수의 파라미터를 사용하여 임의의 수의 변수를 모델링할 수 있다.

Markov transition matrices

변수가 이산이라고 가정한다. 따라서 $X_t \in \{1,...,K\}$. 이것은 finite-state Markov chain이라고 부른다.
- 이 경우에 조건부 분포 $p(X_t|X_{t-1})$는 transition matrix(전이 행렬)이라 부르는 $K \times K$ 행렬 $\bold{A}$로 작성될 수 있다.
- 여기서 $A_{ij} = p(X_t = j|X_{t-1} = i)$는 상태 $i$에서 상태 $j$로 가는 확률이고, 행렬의 각 행의 합은 1이다. $\sum_j A_{ij} = 1$.
- 따라서 이것을 stochastic matrix라고 부른다.
고정된 유한-상태 마르코프 체인은 stochastic automaton과 동등하다. 이런 automata를 시각화 하기 위해 노드로 상태를 표현하고 화살표로 적법한 전이, 즉 $\bold{A}$의 0이 아닌 요소를 나타내는 방향성 그래프를 그리는 것이 일반적이다. 이것을 state transition diagram이라고 한다. 아래 그림 참조.
- arc와 관련된 가중치는 확률이다.

Cap 2023-12-14 10-05-15-348.png

예컨대 2-state chain 다음과 같고

$$ \bold{A} = \begin{pmatrix} 1 - \alpha & \alpha \\ \beta & 1 - \beta \end{pmatrix} $$

3-state chain은 다음과 같다.