대각합(Trace)
- 행렬의 대각합(trace)는 정사각행렬 $\bold{A} \in M_{n \times n}(F)$에서만 정의 가능하다.
- $n \times n$ 행렬 $\bold{A}$의 대각합(trace)는 모든 대각성분의 합이고 $\text{tr}(\bold{A})$로 표기한다.
$$
\text{tr}(\bold{A}) = \sum_{i=1}^{n} A_{ii}
$$
- 대각합은 다음의 속성을 갖는다. 여기서 $\bold{A}, \bold{B} \in \mathbb{R}^{n \times n}$는 정사각 행렬이고 $c \in \mathbb{R}$는 스칼라이다.
- 마지막의 $\lambda_i$는 행렬 $\bold{A}$의 고유값을 의미한다. 행렬의 trace는 고윳값들의 합과 같다.
$$
\begin{aligned} \text{tr}(\bold{A}) &= \text{tr}(\bold{A}^\top) \\ \text{tr}(\bold{A} + \bold{B}) &= \text{tr}(\bold{A}) + \text{tr}(\bold{B}) \\ \text{tr}(c\bold{A}) &= c \cdot \text{tr}(\bold{A}) \\ \text{tr}(\bold{A}\bold{B}) &= \text{tr}(\bold{B}\bold{A}) \\ \text{tr}(\bold{A}) &= \sum_{i=1}^{n} \lambda_i \ (\text{where } \lambda_i \text{ are the eigenvalues of } \bold{A})\end{aligned}
$$
- 정사각 행렬 $\bold{A, B, C} \in \mathbb{R}^{n \times n}$에 대해 다음이 성립하는데, 이것을 순환 순열 속성(cyclic permutation property)라 한다.
$$
\text{tr}(\bold{ABC}) = \text{tr}(\bold{BCA}) = \text{tr}(\bold{CAB})
$$
- 이를 이용하여 스칼라 내적 $\bold{x}^\top\bold{A}\bold{x}$을 작성해서 trace trick을 유도할 수 있다. —벡터는 열 혹은 행이 $1$인 행렬로 볼 수 있다.
$$
\bold{x}^\top \bold{A} \bold{x} = \text{tr}(\bold{x}^\top \bold{A} \bold{x}) = \text{tr}(\bold{x}\bold{x}^\top \bold{A})
$$
- 때로 행렬 $\bold{A}$을 추정하는 것은 매우 비쌀 수 있다. 그러나 행렬-벡터 곱 $\bold{A}\bold{v}$를 추정하는 것은 저렴할 수 있다. 이 경우 $\bold{v}$는 $\mathbb{E}[\bold{v}\bold{v}^\top] = \bold{I}$인 확률 벡터로 가정한다. 그러면 다음의 항등식(identity)을 사용하여 몬테 카를로 근사를 $\text{tr}(\bold{A})$에 만들 수 있다. 이것을 Hutchinson trace estimator라고 부른다.
$$
\text{tr}(\bold{A}) = \text{tr}(\bold{A} \mathbb{E}[\bold{v}\bold{v}^\top]) = \mathbb{E}[\text{tr}(\bold{A}\bold{v}\bold{v}^\top)] = \mathbb{E}[\text{tr}(\bold{v}^\top\bold{A}\bold{v})] = \mathbb{E}[\bold{v}^\top\bold{A}\bold{v}]
$$
행렬 노름(matrix norm)
- 행렬의 노름은 여러 형태로 정의가 가능한데, 널리 쓰이는 것은 $p$ 제곱을 $1/p$ 제곱근을 구하는 것이나 —이것은 frobenius 형식이다— 열이나 행에 대해 절대값의 합 중 최대값을 사용하는 방법 등이 있다. 아래는 행렬 노름에 대한 몇 가지 예시이다.
- 행렬 $\bold{A}$의 노름을 어떤 단위 노름(unit norm) 입력을 늘릴 수 있는 최대량으로 정의할 수 있다.
$$
\|\bold{A}\|p = \max{\bold{x} \neq 0} {\|\bold{A} \bold{x}\|_p \over \|\bold{x}\|p} = \max{\|\bold{x}\| = 1}\|\bold{A}\bold{x}\|_p
$$
- $p = 2$인 경우 다음과 같다.
- 여기서 $\lambda_{\max}(\bold{M})$은 $\bold{M}$의 가장 큰 고유값(eigenvalue)이고, $\sigma_i$는 $i$번째 특이값(singular value)이다.
$$
\|\bold{A}\|2 = \sqrt{\lambda{\max}(\bold{A}^\top\bold{A})} = \max_i \sigma_i
$$