2차 형식 미분

벡터와 행렬에 대해 $\bold{v}^\top \bold{Av}$ 형식을 2차 형식(quadratic form)이라고 한다. 동일한 벡터$\bold{v} \in \mathbb{R}^n$ 가 전치 되어 앞, 뒤로 곱해져 있기 때문에 2차 형식의 행렬은 정방행렬 $\bold{A} \in \mathbb{R}^{n\times n}$이 보장된다. 그렇지 않으면 애초에 2차 형식이 아닌 것이다.

이하의 예시에서는 단순성을 위해 $n =2$인 벡터와 행렬에 대해 정리한다.

$$ \bold{v} = \begin{bmatrix} x \\ y\end{bmatrix}, \bold{A} = \begin{bmatrix} a & b \\ c & d \end{bmatrix} $$

2차 형식의 미분은 결국 벡터와 행렬의 각 항목에 대해 편미분을 수행하고 그 결과를 다시 벡터나 행렬 형태로 표현하는 것이 된다. 예컨대 $f(\bold{v}) = \bold{v}^\top \bold{A} \bold{v}$의 $\bold{v}$에 대한 미분 ${d \over d \bold{v}} f(\bold{v})$은 다음처럼 한다.

  1. 우선 벡터와 행렬의 곱셈을 계산

$$ \bold{v}^\top \bold{Av} = \begin{bmatrix} x & y\end{bmatrix} \begin{bmatrix} a & b \\ c & d \end{bmatrix} \begin{bmatrix} x \\ y\end{bmatrix}= ax^2 + (b+c)xy + dy^2 $$

  1. 구해진 식에 대해 $\bold{v}$의 요소별로 편미분

$$ \begin{aligned} {\partial f \over \partial x} &= 2ax + (b+c)y \\ {\partial f \over \partial y} &= (b+c)x + 2dy \end{aligned} $$

  1. 각각의 결과를 벡터 형태로 표현

$$ \nabla f(\bold{v}) = \begin{bmatrix} 2ax + (b+c)y \\ (b+c)x + 2dy \end{bmatrix} = \begin{bmatrix} 2a & b + c \\ b + c & 2d \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = (\bold{A} + \bold{A}^\top)\bold{v} $$

결국 이차 형식의 미분 결과는 $(\bold{A} + \bold{A}^\top) \bold{v}$가 된다. 만일 $\bold{A}$이 대칭행렬이었다면 —$b = c$— 위 결과는 $2\bold{A} \bold{v}$가 된다.

같은 방식으로 $\bold{v}^\top \bold{A}^\top \bold{A} \bold{v}$을 미분하면 다음과 같다. 여기서 $\bold{A}^\top \bold{A}$이 대칭행렬이 되기 때문에 이 둘을 하나로 합칠 수 있다.

$$ (\bold{A}^\top \bold{A} + \bold{AA}^\top) \bold{v} = (\bold{A}^\top \bold{A} + (\bold{A}^\top \bold{A})^\top) \bold{v} = 2\bold{A}^\top \bold{Av} $$

전치한 것 $\bold{v}^\top \bold{A}$ 에 대한 미분 ${d \over d\bold{v}}\bold{v}^\top \bold{A}$은 곱해지는 변수의 전치된 결과가 나온다.

$$ \bold{v}^\top \bold{A} = \begin{bmatrix} x & y\end{bmatrix} \begin{bmatrix} a & b \\ c & d \end{bmatrix} = \begin{bmatrix} ax + cy & bx + dy \end{bmatrix} \\ {\partial f\over \partial x} = \begin{bmatrix} a \\ b \end{bmatrix}, {\partial f\over \partial y} = \begin{bmatrix} c \\ d \end{bmatrix} \Rightarrow \begin{bmatrix} a & c \\ b & d\end{bmatrix} = \bold{A}^\top $$

같은 식으로 $\bold{v}^\top \bold{Ab}$에 대한 미분 ${d \over d\bold{v}}\bold{v}^\top \bold{Ab}$은 $(\bold{Ab})^\top = \bold{b}^\top \bold{A}^\top$이 된다.

$$ \bold{v}^\top \bold{Ab} = \begin{bmatrix} x & y\end{bmatrix} \begin{bmatrix} a & b \\ c & d \end{bmatrix}\begin{bmatrix} e \\ f\end{bmatrix} = \begin{bmatrix} x & y\end{bmatrix} \begin{bmatrix} ae + bf \\ ce + df \end{bmatrix} = (ae+bf)x + (ce+df)y \\ {\partial f \over \partial x} = ae + bf, {\partial f \over \partial y} = ce + df \Rightarrow \begin{bmatrix} ae + bf & ce + df \end{bmatrix} = (\bold{Ab})^\top = \bold{b}^\top \bold{A}^\top $$

만일 $\bold{v}$가 어떤 파라미터 $t$의 함수일 때 $f(t) = \bold{v}$로 표현할 수 있다. 반면 $\bold{A}$은 파라미터 $t$와 무관하다면, 해당 2차 형식을 다음과 같이 $t$로 미분할 수 있다.

$$ \nabla_t(\bold{v}^\top\bold{Av}) = (\nabla_t\bold{v})^\top\bold{Av} + \bold{v}^\top\bold{A}(\nabla_t\bold{v}) $$

이것은 $f(t) = \bold{v}$이므로 위 식을 $f(t)\bold{A}f(t)$로 작성할 수 있고, 여기서 $\bold{A}$는 $t$와 무관한 상수이므로 위 식은 결국 두 함수의 곱이 되며, 함수 곱의 미분이 $(f \cdot g)' = f' \cdot g + f + g'$으로 표현되는 것과 같은 맥락이다.