行列の微分(Matrix Derivative)は行列の微分(Matrix Differential)とも呼ばれ、機械学習、画像処理、最適化などの分野での公式導出に頻繁に使用されます。行列の微分は実際には多変数の微積分の問題であり、単に行列空間に適用されるもので、スカラーの微分の一般化です。その定義は、独立変数の各数値に対して従属変数の各数値を微分することです。
具体的には、A m × n A_{m \times n} A m × n と B p × q B_{p \times q} B p × q が存在すると仮定すると、∂ A ∂ B \frac{\partial A}{\partial B} ∂ B ∂ A は A A A の各値を B B B の各値に対して微分し、最終的に m × n × p × q m \times n \times p \times q m × n × p × q 個の導関数値を得ることになります。これだけの導関数値がある場合、最終的には m × ( n × p × q ) m \times (n \times p \times q) m × ( n × p × q ) の行列として配置されるのか、それとも ( m × n × p ) × q (m \times n \times p) \times q ( m × n × p ) × q の行列として配置されるのかが問題です。行列の微分の鍵は、これらの多くの導関数値をどのように配置するかを規定することにあります。
分布配置の例として、以下のいくつかの行列微分の法則があります。分母配置とは何か?簡単に言えば、分母を基準として、求められる結果が分母の次元と同じであることを望むことです。分母配置の他に分子配置もあります。分子配置と分母配置の微分結果は通常、転置が異なります。
基本法則#
法則 0 :スカラー対スカラーの微分#
略。詳細は高等数学を参照してください。
法則 1 :スカラー対ベクトルの微分#
f f f がスカラーで、x = [ x 1 x 2 ⋯ x p ] T x = \begin{bmatrix} x_1 & x_2 & \cdots & x_p \end{bmatrix}^{T} x = [ x 1 x 2 ⋯ x p ] T が p × 1 p \times 1 p × 1 の列ベクトルであると考えます。すると、
∂ f ∂ x = [ ∂ f ∂ x 1 ∂ f ∂ x 2 ⋯ ∂ f ∂ x p ] T \frac{\partial f}{\partial x}=\begin{bmatrix}\frac{\partial f}{\partial x_1} & \frac{\partial f}{\partial x_2} & \cdots & \frac{\partial f}{\partial x_p}\end{bmatrix}^{T} ∂ x ∂ f = [ ∂ x 1 ∂ f ∂ x 2 ∂ f ⋯ ∂ x p ∂ f ] T
求められた結果の次元は分母 x x x と同じであることがわかります。もし x x x が行ベクトルであれば同様です。
法則 2 :ベクトル対スカラーの微分#
f = [ f 1 f 2 ⋯ f m ] T f = \begin{bmatrix} f_1 & f_2 & \cdots & f_m \end{bmatrix}^{T} f = [ f 1 f 2 ⋯ f m ] T が m × 1 m \times 1 m × 1 の列ベクトルで、x x x がスカラーであると考えます。すると、
∂ f ∂ x = [ ∂ f 1 ∂ x ∂ f 2 ∂ x ⋯ ∂ f m ∂ x ] \frac{\partial f}{\partial x}=\begin{bmatrix}\frac{\partial f_1}{\partial x} & \frac{\partial f_2}{\partial x} & \cdots & \frac{\partial f_m}{\partial x}\end{bmatrix} ∂ x ∂ f = [ ∂ x ∂ f 1 ∂ x ∂ f 2 ⋯ ∂ x ∂ f m ]
この場合、求められた結果の次元は分子 f f f と逆になります。もし f f f が行ベクトルであれば同様です。
法則 3 :ベクトル対ベクトルの微分#
f = [ f 1 f 2 ⋯ f m ] T f = \begin{bmatrix} f_1 & f_2 & \cdots & f_m \end{bmatrix}^{T} f = [ f 1 f 2 ⋯ f m ] T が m × 1 m \times 1 m × 1 の列ベクトルで、x = [ x 1 x 2 ⋯ x p ] T x = \begin{bmatrix} x_1 & x_2 & \cdots & x_p \end{bmatrix}^{T} x = [ x 1 x 2 ⋯ x p ] T が p × 1 p \times 1 p × 1 の列ベクトルであると考えます。すると、
∂ f ∂ x = [ ∂ f 1 ∂ x 1 ∂ f 2 ∂ x 1 ⋯ ∂ f m ∂ x 1 ∂ f 1 ∂ x 2 ∂ f 2 ∂ x 2 ⋯ ∂ f m ∂ x 2 ⋮ ⋮ ⋱ ⋮ ∂ f 1 ∂ x p ∂ f 2 ∂ x p ⋯ ∂ f m ∂ x p ] \frac{\partial f}{\partial x}=\begin{bmatrix}\frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_1} \\ \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial x_p} & \frac{\partial f_2}{\partial x_p} & \cdots & \frac{\partial f_m}{\partial x_p} \end{bmatrix} ∂ x ∂ f = ∂ x 1 ∂ f 1 ∂ x 2 ∂ f 1 ⋮ ∂ x p ∂ f 1 ∂ x 1 ∂ f 2 ∂ x 2 ∂ f 2 ⋮ ∂ x p ∂ f 2 ⋯ ⋯ ⋱ ⋯ ∂ x 1 ∂ f m ∂ x 2 ∂ f m ⋮ ∂ x p ∂ f m
このとき、微分結果の次元は p × m p \times m p × m です。
法則 4 :スカラー対行列の微分#
f f f がスカラーで、x p × q x_{p \times q} x p × q が行列であると考えます。すると、
∂ f ∂ x = [ ∂ f ∂ x 11 ∂ f ∂ x 12 ⋯ ∂ f ∂ x 1 q ∂ f ∂ x 21 ∂ f ∂ x 22 ⋯ ∂ f ∂ x 2 q ⋮ ⋮ ⋱ ⋮ ∂ f ∂ x p 1 ∂ f ∂ x p 2 ⋯ ∂ f ∂ x p q ] \frac{\partial f}{\partial x}=\begin{bmatrix}\frac{\partial f}{\partial x_{11}} & \frac{\partial f}{\partial x_{12}} & \cdots & \frac{\partial f}{\partial x_{1q}} \\ \frac{\partial f}{\partial x_{21}} & \frac{\partial f}{\partial x_{22}} & \cdots & \frac{\partial f}{\partial x_{2q}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial x_{p1}} & \frac{\partial f}{\partial x_{p2}} & \cdots & \frac{\partial f}{\partial x_{pq}} \end{bmatrix} ∂ x ∂ f = ∂ x 11 ∂ f ∂ x 21 ∂ f ⋮ ∂ x p 1 ∂ f ∂ x 12 ∂ f ∂ x 22 ∂ f ⋮ ∂ x p 2 ∂ f ⋯ ⋯ ⋱ ⋯ ∂ x 1 q ∂ f ∂ x 2 q ∂ f ⋮ ∂ x pq ∂ f
同様に、求められた結果は分母 x x x の次元と一致し、p × q p \times q p × q です。
法則 5 :行列対ベクトルの微分#
f m × n f_{m \times n} f m × n が行列で、x x x がスカラーであると考えます。すると、
∂ f ∂ x = [ ∂ f 11 ∂ x ∂ f 21 ∂ x ⋯ ∂ f m 1 ∂ x ∂ f 21 ∂ x ∂ f 22 ∂ x ⋯ ∂ f m 2 ∂ x 2 q ⋮ ⋮ ⋱ ⋮ ∂ f n 1 ∂ x ∂ f n 2 ∂ x ⋯ ∂ f n m ∂ x ] \frac{\partial f}{\partial x}=\begin{bmatrix}\frac{\partial f_{11}}{\partial x} & \frac{\partial f_{21}}{\partial x} & \cdots & \frac{\partial f_{m1}}{\partial x} \\ \frac{\partial f_{21}}{\partial x} & \frac{\partial f_{22}}{\partial x} & \cdots & \frac{\partial f_{m2}}{\partial x_{2q}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{n1}}{\partial x} & \frac{\partial f_{n2}}{\partial x} & \cdots & \frac{\partial f_{nm}}{\partial x} \end{bmatrix} ∂ x ∂ f = ∂ x ∂ f 11 ∂ x ∂ f 21 ⋮ ∂ x ∂ f n 1 ∂ x ∂ f 21 ∂ x ∂ f 22 ⋮ ∂ x ∂ f n 2 ⋯ ⋯ ⋱ ⋯ ∂ x ∂ f m 1 ∂ x 2 q ∂ f m 2 ⋮ ∂ x ∂ f nm
求められた結果は分子と逆になり、n × m n \times m n × m です。
その他:ベクトルと行列の間、及び行列と行列の間の微分#
自変数と従変数がどちらもスカラーでない場合、行列の微分の本質的な議論に基づいて、多くの導関数が配置されることが難しくなることが必然的に生じます。例えば、一般的な場合、f m × n f_{m \times n} f m × n と x p × q x_{p \times q} x p × q があると仮定すると、微分後に m × n × p × q m \times n \times p \times q m × n × p × q 個の導関数結果を得ることになります。この場合、これらの導関数には通常、2 つの定義方法があります。
第一の定義#
前述の法則に従い、∂ f ∂ x \frac{\partial f}{\partial x} ∂ x ∂ f を f f f の各スカラーに対して x x x に対して微分し、それを行列 f f f の元の位置に戻すと解釈します。つまり、∂ f i j ∂ x \frac{\partial f_{ij}}{\partial x} ∂ x ∂ f ij を f i j f_{ij} f ij に置き換え、最終的に m p × n q mp \times nq m p × n q の導関数行列を得ます。
第二の定義(主流)#
この定義は、行列対行列の微分問題をベクトル対ベクトルの微分に還元します。つまり、行列に対してまずベクトル化処理を行い、その後微分します:
∂ f ∂ x = ∂ v e c ( f ) ∂ v e c ( x ) \frac{\partial f}{\partial x}=\frac{\partial vec(f)}{\partial vec(x)} ∂ x ∂ f = ∂ v ec ( x ) ∂ v ec ( f )
ここで、ベクトル化の実現方法は列ベクトル化と行ベクトル化に分かれます。列ベクトル化を例にとると、f m × n f_{m \times n} f m × n と x p × q x_{p \times q} x p × q をそれぞれ f m n × 1 f_{mn \times 1} f mn × 1 と x p q × 1 x_{pq \times 1} x pq × 1 にベクトル化し、法則 3 を用いて微分を行い、次元が p q × m n pq \times mn pq × mn の導関数結果を得ます。
有用な公式#
以下の公式において、A m × 1 A_{m \times 1} A m × 1 と x m × 1 x_{m \times 1} x m × 1 は列ベクトルであり、B m × m B_{m \times m} B m × m は行列です。以下の 3 つの公式は文末に証明があります。
番号 公式 1 ∂ x T A ∂ x = ∂ A T x ∂ x = A \frac{\partial{x^{T}A}}{\partial{x}} = \frac{\partial{A^{T}x}}{\partial{x}} = A ∂ x ∂ x T A = ∂ x ∂ A T x = A 2 ∂ x T x ∂ x = x \frac{\partial{x^{T}x}}{\partial{x}} = x ∂ x ∂ x T x = x 3 ∂ x T B x ∂ x = ( B + B T ) x \frac{\partial{x^{T}Bx}}{\partial{x}} = (B + B^{T})x ∂ x ∂ x T B x = ( B + B T ) x
以下の公式は行列のトレースに関する公式です。ここで、 a a a はスカラーであり、 A A A , B B B , C C C は 3 つの行列です。
番号 公式 1 t r ( a ) = a tr(a) = a t r ( a ) = a 2 t r ( A ) = t r ( A T ) tr(A) = tr(A^T) t r ( A ) = t r ( A T ) 3 t r ( A B ) = t r ( B A ) tr(AB) = tr(BA) t r ( A B ) = t r ( B A ) 4 t r ( A B C ) = t r ( C A B ) = t r ( B C A ) tr(ABC) = tr(CAB) = tr(BCA) t r ( A BC ) = t r ( C A B ) = t r ( BC A ) 5 ∂ t r ( A B ) ∂ A = B T \frac{\partial{tr(AB)}}{\partial{A}} = B^T ∂ A ∂ t r ( A B ) = B T 6 ∂ t r ( A B A T C ) ∂ A = C A B + C T A B T \frac{\partial{tr(ABA^{T}C)}}{\partial{A}} = CAB + C^{T}AB^{T} ∂ A ∂ t r ( A B A T C ) = C A B + C T A B T
一部公式の証明#
次のように定義します:
A m × 1 = [ A 1 A 2 ⋯ A m ] T A_{m \times 1} = \begin{bmatrix} A_1 & A_2 & \cdots & A_m \end{bmatrix} ^ {T} A m × 1 = [ A 1 A 2 ⋯ A m ] T
B m × m = B m × m = [ B 11 B 12 ⋯ B 1 m B 21 B 22 ⋯ B 2 m ⋮ ⋮ ⋱ ⋮ B m 1 B m 2 ⋯ B m m ] B_{m \times m} = B_{m \times m} = \begin{bmatrix} B_{11} & B_{12} & \cdots & B_{1m} \\ B_{21} & B_{22} & \cdots & B_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ B_{m1} & B_{m2} & \cdots & B_{mm} \end{bmatrix} B m × m = B m × m = B 11 B 21 ⋮ B m 1 B 12 B 22 ⋮ B m 2 ⋯ ⋯ ⋱ ⋯ B 1 m B 2 m ⋮ B mm
x m × 1 = [ x 1 x 2 ⋯ x m ] T x_{m \times 1} = \begin{bmatrix} x_1 & x_2 & \cdots & x_m \end{bmatrix} ^ {T} x m × 1 = [ x 1 x 2 ⋯ x m ] T
公式 1#
∂ x T A ∂ x = ∂ A T x ∂ x = A \frac{\partial{x^{T}A}}{\partial{x}} = \frac{\partial{A^{T}x}}{\partial{x}} = A ∂ x ∂ x T A = ∂ x ∂ A T x = A
A m × 1 A_{m \times 1} A m × 1 と x m × 1 x_{m \times 1} x m × 1 が列ベクトルであるため、x T A = A T x = ∑ i = 1 m A i x i x^{T}A = A^{T}x = \sum_{i=1}^{m}{A_{i}x_{i}} x T A = A T x = ∑ i = 1 m A i x i はスカラーであるため、法則 1 を用いて計算できます。
∂ x T A ∂ x = ∂ A T x ∂ x \frac{\partial{x^{T}A}}{\partial{x}} = \frac{\partial{A^{T}x}}{\partial{x}} ∂ x ∂ x T A = ∂ x ∂ A T x
= [ ∂ ∑ i = 1 m A i x i ∂ x 1 ∂ ∑ i = 1 m A i x i ∂ x 2 ⋯ ∂ ∑ i = 1 m A i x i ∂ x m ] = \begin{bmatrix} \frac{\partial{\sum_{i=1}^{m}{A_{i}x_{i}}}}{\partial{x_1}} \\ \frac{\partial{\sum_{i=1}^{m}{A_{i}x_{i}}}}{\partial{x_2}} \\ \cdots \\ \frac{\partial{\sum_{i=1}^{m}{A_{i}x_{i}}}}{\partial{x_m}} \end{bmatrix} = ∂ x 1 ∂ ∑ i = 1 m A i x i ∂ x 2 ∂ ∑ i = 1 m A i x i ⋯ ∂ x m ∂ ∑ i = 1 m A i x i
= [ A 1 A 2 ⋯ A m ] = \begin{bmatrix} A_1 \\ A_2 \\ \cdots \\ A_m \end{bmatrix} = A 1 A 2 ⋯ A m
= A = A = A
公式 2#
同様に公式 1
公式 3#
∂ x T B x ∂ x = ( B + B T ) x \frac{\partial{x^{T}Bx}}{\partial{x}} = (B + B^{T})x ∂ x ∂ x T B x = ( B + B T ) x
問題の条件から、 x T B x x^{T}Bx x T B x はスカラーであるため、元の式はスカラー対列ベクトルの微分であり、法則 1 を用いて計算できます。
∂ x T B x ∂ x \frac{\partial{x^{T}Bx}}{\partial{x}} ∂ x ∂ x T B x
= [ ∂ ∑ i = 1 m ∑ j = 1 m B i j x i x j ∂ x 1 ∂ ∑ i = 1 m ∑ j = 1 m B i j x i x j ∂ x 2 ⋯ ∂ ∑ i = 1 m ∑ j = 1 m B i j x i x j ∂ x m ] = \begin{bmatrix} \frac{\partial{\sum_{i=1}^{m}{\sum_{j=1}^{m}{B_{ij}x_{i}x_{j}}}}}{\partial{x_1}} \\ \frac{\partial{\sum_{i=1}^{m}{\sum_{j=1}^{m}{B_{ij}x_{i}x_{j}}}}}{\partial{x_2}} \\ \cdots \\ \frac{\partial{\sum_{i=1}^{m}{\sum_{j=1}^{m}{B_{ij}x_{i}x_{j}}}}}{\partial{x_m}} \end{bmatrix} = ∂ x 1 ∂ ∑ i = 1 m ∑ j = 1 m B ij x i x j ∂ x 2 ∂ ∑ i = 1 m ∑ j = 1 m B ij x i x j ⋯ ∂ x m ∂ ∑ i = 1 m ∑ j = 1 m B ij x i x j
導関数の法則により:
∂ f ( x ) g ( x ) ∂ x = ∂ f ( x ) x g ( x ) + f ( x ) ∂ g ( x ) ∂ x \frac{\partial{f(x)g(x)}}{\partial{x}} = \frac{\partial{f(x)}}{x}g(x) + f(x)\frac{\partial{g(x)}}{\partial{x}} ∂ x ∂ f ( x ) g ( x ) = x ∂ f ( x ) g ( x ) + f ( x ) ∂ x ∂ g ( x )
したがって、元の式は次のように続きます:
= [ ∑ i = 1 m B i 1 x i + ∑ j = 1 m B 1 j x j ∑ i = 1 m B i 2 x i + ∑ j = 1 m B 2 j x j ⋯ ∑ i = 1 m B i m x i + ∑ j = 1 m B m j x j ] = \begin{bmatrix} \sum_{i=1}^{m}{B_{i1}x_i} + \sum_{j=1}^{m}{B_{1j}x_j} \\ \sum_{i=1}^{m}{B_{i2}x_i} + \sum_{j=1}^{m}{B_{2j}x_j} \\ \cdots \\ \sum_{i=1}^{m}{B_{im}x_i} + \sum_{j=1}^{m}{B_{mj}x_j} \end{bmatrix} = ∑ i = 1 m B i 1 x i + ∑ j = 1 m B 1 j x j ∑ i = 1 m B i 2 x i + ∑ j = 1 m B 2 j x j ⋯ ∑ i = 1 m B im x i + ∑ j = 1 m B mj x j
= [ ∑ i = 1 m B i 1 x i ∑ i = 1 m B i 2 x i ⋯ ∑ i = 1 m B i m x i ] + [ ∑ j = 1 m B 1 j x j ∑ j = 1 m B 2 j x j ⋯ ∑ j = 1 m B m j x j ] = \begin{bmatrix} \sum_{i=1}^{m}{B_{i1}x_i} \\ \sum_{i=1}^{m}{B_{i2}x_i} \\ \cdots \\ \sum_{i=1}^{m}{B_{im}x_i} \end{bmatrix} + \begin{bmatrix} \sum_{j=1}^{m}{B_{1j}x_j} \\ \sum_{j=1}^{m}{B_{2j}x_j} \\ \cdots \\ \sum_{j=1}^{m}{B_{mj}x_j} \end{bmatrix} = ∑ i = 1 m B i 1 x i ∑ i = 1 m B i 2 x i ⋯ ∑ i = 1 m B im x i + ∑ j = 1 m B 1 j x j ∑ j = 1 m B 2 j x j ⋯ ∑ j = 1 m B mj x j
= [ B 11 B 21 ⋯ B m 1 B 12 B 22 ⋯ B m 2 ⋮ ⋮ ⋱ ⋮ B 1 m B 2 m ⋯ B m m ] [ x 1 x 2 ⋮ x m ] + [ B 11 B 12 ⋯ B 1 m B 21 B 22 ⋯ B 2 m ⋮ ⋮ ⋱ ⋮ B m 1 B m 2 ⋯ B m m ] [ x 1 x 2 ⋮ x m ] = \begin{bmatrix} B_{11} & B_{21} & \cdots & B_{m1} \\ B_{12} & B_{22} & \cdots & B_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ B_{1m} & B_{2m} & \cdots & B_{mm} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix}+ \begin{bmatrix} B_{11} & B_{12} & \cdots & B_{1m} \\ B_{21} & B_{22} & \cdots & B_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ B_{m1} & B_{m2} & \cdots & B_{mm} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix} = B 11 B 12 ⋮ B 1 m B 21 B 22 ⋮ B 2 m ⋯ ⋯ ⋱ ⋯ B m 1 B m 2 ⋮ B mm x 1 x 2 ⋮ x m + B 11 B 21 ⋮ B m 1 B 12 B 22 ⋮ B m 2 ⋯ ⋯ ⋱ ⋯ B 1 m B 2 m ⋮ B mm x 1 x 2 ⋮ x m
= ( A T + A ) x = ( A + A T ) x = (A^{T} + A)x = (A + A^{T})x = ( A T + A ) x = ( A + A T ) x