优化采样

1. 费雪信息

nn个独立同分布(i.i.d)的观测样本X1,X2,,XnX_1,X_2,\cdots,X_n,它们服从概率分布f(X,θ)f(X,\theta),其中θ\theta为概率分布表达式中的一个未知参数,它是一个标量。由于这nn次观测互相独立,则运用概率的乘法公式,可计算出在参数θ\theta的条件下,从分布中经随机抽样得到上述nn个样本的概率:

(1)p(Xθ)=f(X1,θ)f(X2,θ)f(Xn,θ)=i=1nf(Xi,θ)p(X|\theta)=f(X_1,\theta)\cdot f(X_2,\theta)\cdots f(X_n,\theta)=\prod_{i=1}^{n}f(X_i,\theta) \tag{1}

我们将这个概率称为似然函数(likelihood),即

(2)L(X,θ)=i=1nf(Xi,θ),i=1,2,,nL(X,\theta)=\prod_{i=1}^{n}f(X_i,\theta),i=1,2,\cdots,n \tag{2}

所谓极大似然估计(MLE),就是指参数的估计值要让似然函数取得最大值。

将似然函数对θ\theta求一阶导数,令导数等于00,解该方程得到似然函数的极值点,即参数θ\theta的MLE估计值θ^\hat{\theta}。由于似然函数是连乘的形式,为了导数计算的方便,我们考虑先将其取对数,得:

(3)ln(L(X,θ))=i=1nln(f(Xi,θ))ln(L(X,\theta))=\sum_{i=1}^{n}\ln(f(X_i,\theta)) \tag{3}

再将上式对θ\theta求一阶导数,称为似然函数的Score,则Score为:

(4)S(X,θ)=ln(f(X,θ))θS(X,\theta)=\frac{\partial \ln(f(X,\theta))} {\partial \theta} \tag{4}

所谓的MLE过程,就是解方程:

(5)S(X,θ)=i=1nln(f(Xi,θ))θ=0S(X,\theta)=\sum_{i=1}^{n} \frac{\partial \ln(f(X_i,\theta))}{\partial \theta}=0 \tag{5}

可以发现:

(6)E(S(X,θ))=1ni=1nln(f(Xi,θ))θ=0E(S(X,\theta))= \frac{1}{n}\sum_{i=1}^{n} \frac{\partial \ln(f(X_i,\theta))}{\partial \theta}=0 \tag{6}

我们将1ni=1n(XiXˉ)k\frac{1}{n} \sum_{i=1}^{n}(X_i- \bar{X})^k称为XiX_ikk阶中心距(central moment),显然二阶中心矩就是方差,则Score的方差为:

(7)Var(S(X,θ))=1ni=1n(ln(f(Xi,θ))θ)2=E(S(X,θ)2)Var(S(X,\theta))= \frac{1}{n}\sum_{i=1}^{n} (\frac{\partial ln(f(X_i,\theta))}{\partial \theta})^2=E(S(X,\theta)^2) \tag{7}

上述表达式就是观测数据XX的费雪信息(Fisher Information),记为I(θ)I(\theta)

至此,我们得到了似然函数、Score函数、费雪信息的数学意义:
(1)似然函数是给定参数θ\theta后,变量XX的条件概率;
(2)Score函数是对数似然函数的一阶导数;
(3)费雪信息是MLE估计方程的方差,即:

(8)I(θ)=Var(S(X,θ))I(\theta)=Var(S(X,\theta)) \tag{8}

通过观察,可以发现费雪信息I(θ)I(\theta)的表达式是将S(Xi,θ)S(X_i,\theta)求和之后再求方差的形式;而对于2个独立样本XXYY,有

(9)Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y) \tag{9}

我们称为“和的方差等于方差之和”。也就是说I(θ)I(\theta)实际上是一个求和的形式。当独立观测的次数nn越多时,费雪信息就越大,即得到的关于总体参数θ\theta信息越多,对其估计越准确,这也是符合常理的。

2. 费雪信息矩阵

以上,我们使用费雪信息反映了对一个参数θ\theta的MLE的准确度。当总体分布中含有多个参数时,我们需要将费雪信息扩展成二维的费雪信息矩阵。

当有mm个未知参数θ1,θ2,,θm\theta_1,\theta_2,\cdots,\theta_m时,1个观测值所能提供的信息量的期望是一个m×mm \times m矩阵:

(10)I(θ)=[Iij(θ)]mmI(\theta)=\left [ I_{ij}(\theta) \right ]_{m}^{m} \tag{10}

其中:

(11)Iij(θ)=E(ln(f(X,θ))θiln(f(X,θ))θj)=E(2ln(f(X,θ))θiθj)I_{ij}(\theta)=E(\frac{\partial ln(f(X,\theta))}{\partial \theta_i} \cdot\frac{\partial ln(f(X,\theta))}{\partial \theta_j})=-E(\frac{\partial^2 \ln(f(X,\theta))}{\partial \theta_i \cdot \partial \theta_j}) \tag{11}