信息论 | 4 参数估计
7 Fisher information and Cramér–Rao inquality
考虑参数估计问题. 设独立同分布的随机变量 \(X=(X_1,\dots,X_n)\), 分布密度为 \[ f(x,\theta) = \prod_{i=1}^n f(x_i,\theta), \] 其中 \(\theta\in\R^d\) 是参数. 设该参数的一个估计量为 \[ \hat\theta = \phi(X_1,\dots,X_n). \] 该估计是无偏的, 如果 \(\operatorname{E}(\phi(X))=\theta\). 对于无偏估计, 我们还想衡量估计的波动程度 (协方差), 即均方误差 / 经验风险 \[ R(\theta,\phi) := \operatorname{Cov}(\phi(X)). \]
7.1 Fisher information
Fisher information 衡量了随机向量 \(X\) (样本) 中包含的关于 \(\theta\) 的信息量的大小.
得分函数 (score) 定义为对数似然函数关于 \(\theta\) 的偏导数 (\(d\) 维随机向量
\[ S(X,\theta) := \pdv\theta \ln f(X,\theta), \] (假设 \(f(x,\theta)\) 满足某些正则化约束) 得分函数的期望为零, \[ \Align{ \operatorname{E}(S(X,\theta)) &= \int_{\R^n} S(x,\theta) f(x,\theta) \dd{x} \\ &= \int_{\R^n} \frac1{f(x,\theta)} \pqty{\pdv{\theta}f(x,\theta)} f(x,\theta) \dd{x} \\ &= \pdv\theta \int_{\R^n} f(x,\theta) \dd{x} \\ &= 0. } \] Fisher 信息 (Fisher information) 定义为得分函数的协方差: \[ I(\theta) := \operatorname{Cov}(S(X,\theta)) = \operatorname{E}\bigl[S(X,\theta)S(X,\theta)\T\bigr]. \]
Theorem (Fisher 信息的等价定义) Fisher 信息等于 Hessian 的负期望, \[ I(\theta) = -\operatorname{E}\bqty{ \pdv[2]{}{\theta}{\theta\T} \ln f(X,\theta) }. \]
Pf 因为 \(\operatorname{E}(S(X,\theta))\equiv0\), 有 \[ \Align{ 0 &= \pdv{\theta\T} \operatorname{E}(S(X,\theta)) \\ &= \pdv{\theta\T} \int_{\R^n} \pdv{\theta}[\ln{f(x,\theta)}] f(x,\theta) \dd{x} \\ &= \int_{\R^n} \pdv[2]{}{\theta}{\theta\T}[\ln{f(x,\theta)}] f(x,\theta) \dd{x} + \int_{\R^n} \pdv{\theta}\ln{f(x,\theta)} \cdot \underbrace{\pdv{\theta\T}f(x,\theta)} _\mathclap{ f(x,\theta) \cdot \pdv{\theta^{\scriptsize\textsf{T}}} \ln f(x,\theta) } \dd{x} \\ &= \operatorname{E}\bqty{\pdv[2]{}{\theta}{\theta\T} \ln f(X,\theta)} + I(\theta). } \]
几何上看, 当 \(d=1\) 时, \(\partial^2/\partial\theta^2\ln f(x,\theta)\) 是对数似然函数 (视作关于 \(\theta\) 的函数) 图像的曲率, 因此 \(I(\theta)\) 就是所有对数似然函数图像的曲率的平均值.
7.2 Cramér–Rao inquality
均方误差的一个下界是 Fisher 信息的逆. 在叙述定理之前先给出随机向量协方差的 Cauchy 不等式: \[ \operatorname{Cov}(X) \geq \operatorname{Cov}(X,Y) \operatorname{Cov}(Y)^{-1} \operatorname{Cov}(Y,X), \] 其中对称矩阵空间上的偏序关系 \(\geq\) 定义为: \(A\geq B\) 若 \(A-B\) 为半正定矩阵.
Theorem (Cramér–Rao 不等式) 设 \(\phi(X)\) 是参数 \(\theta\) 的无偏估计, 则 \[ \operatorname{Cov}(\phi(X)) \geq I(\theta)^{-1}. \]
Pf 记 \(\Sigma:=\operatorname{Cov}(\phi(X),S(X,\theta))\) 为 \(d\) 阶方阵. 根据 Cauchy 不等式, 有 \[ \Align{ \operatorname{Cov}(\phi(X)) &\geq \Sigma \operatorname{Cov}(S(X,\theta))^{-1} \Sigma\T \\ &= \Sigma I(\theta)^{-1} \Sigma\T } \] 计算 \[ \Align{ \Sigma &= \operatorname{E}(\phi(X)S(X,\theta)\T) \\ &= \int_{\R^n} \phi(x) \pdv{\theta\T}[\ln{f(x,\theta)}] \cdot f(x,\theta)\dd{x} \\ &= \int_{\R^n} \phi(x)\pdv{\theta\T}f(x,\theta) \dd{x} \\ &= \pdv{\theta\T} \int_{\R^n} \phi(x)f(x,\theta) \dd{x} \\ &= \pdv{\theta\T} \operatorname{E}(\phi(X)) \\ &= \vphantom{\pdv{\theta}} I, } \] 代入原不等式即得.
下面看一个例子. 设样本 \((X_1,\dots,X_n)\sim\textsf{iid}\,N(\mu,\sigma^2)\), 方差 \(\sigma^2\) 已知. 样本关于 \(\mu\) 的得分函数为 \[ \Align{ S(X,\mu) &= \pdv{\mu} \ln\!\bqty{\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(X_i-\mu)^2}{2\sigma^2}) } \\ &= \pdv{\mu} \bqty{ -n\ln(\sqrt{2\pi}\sigma) -\frac{1}{2\sigma^2} \sum_{i=1}^n (X_i-\mu)^2 } \\ &= \frac{1}{\sigma^2} \sum_{i=1}^n (X_i-\mu). } \] 因此 \(S(X,\mu)\sim N(0,\frac{n}{\sigma^2})\), Fisher 信息 \[ I(\mu) = \operatorname{Var}(S(X,\mu)) = \frac{n}{\sigma^2}. \] 均值的一个无偏估计为 \[ \phi(X) = \bar{X} := \frac1n\sum_{i=1}^n X_i, \] 其方差为 \[ \operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n} = \frac{1}{I(\mu)}, \] 所以 \(\bar{X}\) 是最小方差的无偏估计.
本文认为对行向量求导得到行向量; 对列向量求导得到列向量; 参数 \(\theta\in\R^d\) 是列向量.↩︎