分散
1次元の確率変数$X$
を$n$
回サンプルした結果、 $x\in R^{1 \times n}$
が得られたとき、分散の不偏推定量は、
$$
\sigma_x^2 = \frac{1}{n-1} \sum (x_i - \mu_x)^2
$$
です。ただし、 $\mu_x = \frac{1}{n} \sum x_i$
は平均です。
共分散
2つの確率変数 $X$
、 $Y$
の組を同時に$n$
回サンプルした結果、$x, y\in R^{1 \times n}$
が得られたとき、$x$
と$y$
の共分散は、
$$
\sigma_{x,y}^2 = \frac{1}{n-1} \sum (x_i - \mu_x)(y_i - \mu_y)
$$
です。ポイントは $(x_i,y_i)$
がペアになっていることと、次元の違う変数の組に対してスカラー値として定義されることです。
共分散行列
$d$
次元の確率変数 $X$
を $n$
回サンプルした結果、 $x \in R^{d \times n}$
が得られたとき、 $i$
行ベクトルを $x_{i,:}$
とすれば、2つの次元の組についての共分散は、
$$
\sigma_{x_{i,:}, x_{j,:}} = \frac{1}{n-1} \sum_{k=1}^n (x_{i,k} - \mu_{x,i})(x_{j,k} - \mu_{x,j})^T
$$
です。ただし、 $\mu_{x,i}$
は各行の平均を並べた列ベクトル$\mu_x \in R^{1\times d}$
の $i$
番目の成分です。これを各次元の組み合わせについて考え、 $i$
行 $j$
列成分が 次元$i$
、 $j$
の共分散である行列が共分散行列 $\Sigma$
です。
$$
\Sigma_{i,j} = \sigma_{x_{i,:}, x_{j,:}}
$$
行列全体は、全行について考えればいいので、
$$
\Sigma = \frac{1}{n-1} \sum_{k=1}^n (x_{:,k} - \mu_x)(x_{:,k} - \mu_x)^T
$$
と書けます。