共分散行列

分散

1次元の確率変数$X$$n$回サンプルした結果、 $x\in R^{1 \times n}$ が得られたとき、分散の不偏推定量は、

$$ \sigma_x^2 = \frac{1}{n-1} \sum (x_i - \mu_x)^2 $$

です。ただし、 $\mu_x = \frac{1}{n} \sum x_i$ は平均です。

共分散

2つの確率変数 $X$$Y$の組を同時に$n$回サンプルした結果、$x, y\in R^{1 \times n}$が得られたとき、$x$$y$の共分散は、

$$ \sigma_{x,y}^2 = \frac{1}{n-1} \sum (x_i - \mu_x)(y_i - \mu_y) $$
です。ポイントは $(x_i,y_i)$ がペアになっていることと、次元の違う変数の組に対してスカラー値として定義されることです。

共分散行列

$d$次元の確率変数 $X$$n$回サンプルした結果、 $x \in R^{d \times n}$ が得られたとき、 $i$行ベクトルを $x_{i,:}$とすれば、2つの次元の組についての共分散は、

$$ \sigma_{x_{i,:}, x_{j,:}} = \frac{1}{n-1} \sum_{k=1}^n (x_{i,k} - \mu_{x,i})(x_{j,k} - \mu_{x,j})^T $$

です。ただし、 $\mu_{x,i}$は各行の平均を並べた列ベクトル$\mu_x \in R^{1\times d}$$i$番目の成分です。これを各次元の組み合わせについて考え、 $i$$j$列成分が 次元$i$$j$の共分散である行列が共分散行列 $\Sigma$ です。

$$ \Sigma_{i,j} = \sigma_{x_{i,:}, x_{j,:}} $$

行列全体は、全行について考えればいいので、

$$ \Sigma = \frac{1}{n-1} \sum_{k=1}^n (x_{:,k} - \mu_x)(x_{:,k} - \mu_x)^T $$

と書けます。