1. 费雪信息
有n个独立同分布(i.i.d)的观测样本X1,X2,⋯,Xn,它们服从概率分布f(X,θ),其中θ为概率分布表达式中的一个未知参数,它是一个标量。由于这n次观测互相独立,则运用概率的乘法公式,可计算出在参数θ的条件下,从分布中经随机抽样得到上述n个样本的概率:
p(X∣θ)=f(X1,θ)⋅f(X2,θ)⋯f(Xn,θ)=i=1∏nf(Xi,θ)(1)
我们将这个概率称为似然函数(likelihood),即
L(X,θ)=i=1∏nf(Xi,θ),i=1,2,⋯,n(2)
所谓极大似然估计(MLE),就是指参数的估计值要让似然函数取得最大值。
将似然函数对θ求一阶导数,令导数等于0,解该方程得到似然函数的极值点,即参数θ的MLE估计值θ^。由于似然函数是连乘的形式,为了导数计算的方便,我们考虑先将其取对数,得:
ln(L(X,θ))=i=1∑nln(f(Xi,θ))(3)
再将上式对θ求一阶导数,称为似然函数的Score,则Score为:
S(X,θ)=∂θ∂ln(f(X,θ))(4)
所谓的MLE过程,就是解方程:
S(X,θ)=i=1∑n∂θ∂ln(f(Xi,θ))=0(5)
可以发现:
E(S(X,θ))=n1i=1∑n∂θ∂ln(f(Xi,θ))=0(6)
我们将n1∑i=1n(Xi−Xˉ)k称为Xi的k阶中心距(central moment),显然二阶中心矩就是方差,则Score的方差为:
Var(S(X,θ))=n1i=1∑n(∂θ∂ln(f(Xi,θ)))2=E(S(X,θ)2)(7)
上述表达式就是观测数据X的费雪信息(Fisher Information),记为I(θ)。
至此,我们得到了似然函数、Score函数、费雪信息的数学意义:
(1)似然函数是给定参数θ后,变量X的条件概率;
(2)Score函数是对数似然函数的一阶导数;
(3)费雪信息是MLE估计方程的方差,即:
I(θ)=Var(S(X,θ))(8)
通过观察,可以发现费雪信息I(θ)的表达式是将S(Xi,θ)求和之后再求方差的形式;而对于2个独立样本X和Y,有
Var(X+Y)=Var(X)+Var(Y)(9)
我们称为“和的方差等于方差之和”。也就是说I(θ)实际上是一个求和的形式。当独立观测的次数n越多时,费雪信息就越大,即得到的关于总体参数θ信息越多,对其估计越准确,这也是符合常理的。
2. 费雪信息矩阵
以上,我们使用费雪信息反映了对一个参数θ的MLE的准确度。当总体分布中含有多个参数时,我们需要将费雪信息扩展成二维的费雪信息矩阵。
当有m个未知参数θ1,θ2,⋯,θm时,1个观测值所能提供的信息量的期望是一个m×m矩阵:
I(θ)=[Iij(θ)]mm(10)
其中:
Iij(θ)=E(∂θi∂ln(f(X,θ))⋅∂θj∂ln(f(X,θ)))=−E(∂θi⋅∂θj∂2ln(f(X,θ)))(11)