相互情報量の上限と下限

2つの離散確率変数$X$、$Y$の相互情報量 $I(X;Y)$ は次の式で定義されます。

$$ I(X;Y) := \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} $$

2つの確率変数が独立なとき $\log \frac{p(x,y)}{p(x,y)}=0$ なので相互情報量は $I(X;Y)=0$ となりますが、これが下限であること、すなわち

$$ I(X;Y) \geq 0 $$

はJensenの不等式を使って以下のように示すことができます。

まず相互情報量はふたつの確率分布$p(x)$、$q(x)$の間のKullback-Leibler情報量:

$$ D(p(x)||q(x)) = \sum_x p(x) \log \frac{p(x)}{q(x)} $$

を使って、

確率分布 $p(x,y)$$p(x)p(y)$

また、