群体药动学(Population PK)是药代动力学和统计学结合的产物,这里简述其统计学理论基础。
1. 最大似然估计和最小二乘法
1.1 最大似然估计
最大似然估计(MLE)是一种估计未知参数的方法。它将参数θ的所有取值中,有最大的可能性得到当前样本结果的值θ^,作为参数的估计值。
在参数θ的条件下,产生当前样本Y的概率是P(Y∣θ)。MLE估计θ的过程就是使这一概率最大化,解出对应的θ值。似然函数L(θ∣Y)=P(Y∣θ)。
1.2 正态分布的MLE
自变量xj和因变量yj有如下关系:
yj=f(xj,θ)+εj(1)
其中,j表示第j次观测,f是结构模型,θ是模型中的参数,εj是残差,服从正态分布:εj∼N(0,σ2)。因此,
yj∼N(f(xj,θ),σ2)(2)
根据正态分布的概率密度函数(f(x)=2πσ21e−2σ2(x−μ)2),在参数θ和σ2的条件下,产生观测值yj的概率是
L(θ,σ2∣yj)=P(yj∣θ,σ2)=2πσ21⋅exp(−2σ2(yj−f(xj,θ))2)(3)
由于每次观测(yj)之间相互独立,则进行n次观测之后,构成样本Y=(y1,y2,⋯,yn)的概率是每次观测值的概率之积
L(θ,σ2∣Y)=P(Y∣θ,σ2)=j=1∏n(2πσ21⋅exp(−2σ2(yj−f(xj,θ))2))(4)
由于似然函数是连乘的形式,计算导数求极值点不方便,因此将其取对数
lnL(θ,σ2∣Y)=j=1∑nln(2πσ21⋅exp(−2σ2(yj−f(xj,θ))2))=j=1∑n(ln2πσ21+−2σ2(yj−f(xj,θ))2)=j=1∑nln(2πσ2)−21+j=1∑n−2σ2(yj−f(xj,θ))2=−2nln(2πσ2)−21j=1∑nσ2(yj−f(xj,θ))2(5)
将式(5)两边乘以-2,得
−2lnL(θ∣Y)=nln(2πσ2)+j=1∑nσ2(yj−f(xj,θ))2=j=1∑n(σ2(yj−f(xj,θ))2+lnσ2)+nln(2π)(6)
式(6)中的nln(2π)项是常数,NONMEM计算时不会纳入这部分,因此,式(7)为NONMEM中正态分布MLE的目标函数
OFML(xj,θ,σ2)=j=1∑n(σ2(yj−f(xj,θ))2+lnσ2)(7)
将OFML(xj,θ,σ2)最小化(即将似然最大化),对应的θ和σ2就是似然估计值。
1.3 普通最小二乘法(OLS)
普通最小二乘法不作任何处理,目标函数为
OFOLS=j=1∑n(obsj−predj)2(8)
其中,obsj和predj分别是第j次观测的实测值和预测值。
1.4 加权最小二乘法(WLS)
当观测值的尺度很大时,对应的变异值也会很大,直接相加不合理,需要根据观测值进行加权。目标函数为
OFWLS=j=1∑n((obsj−predj)2⋅wj)(9)
其中,wj=obsj1。
1.5 扩展最小二乘法(ELS)
WLS的权重是固定的(观测值),而不是模型估计的结果,扩展最小二乘法使用模型估计值作为权重。目标函数为
OFELS=j=1∑n(σj2(obsj−predj)2+lnσj2)(10)
式(10)的形式就是NONMEM中正态分布MLE的目标函数。
2. 群体PK分析方法
2.1 简单聚集法(NP)
简单聚集法将所有的数据视为来自同一人,忽略了个体间变异。目标函数为
OFWLS,NP=j=1∑n((obsj−f(θ)j)2⋅wj)(11)
2.2 简单平均法(NA)
简单平均法是先计算所有人在各个时间点的均值,再使用最小二乘法。目标函数为
OFWLS,NA=j=1∑n((obsj−f(θ)j)2⋅wj)(12)
其中,obsj是所有人在第j次观测的均值。
2.3 标准两步法(STS)
第1步:计算每个人的参数θi
OFWLS,STS=j=1∑n((obsj−f(θ)j)2⋅wj)(13)
第2步:根据每个人的参数值,计算均值、方差、变异系数等,并探索协变量关系
CLi=A+B⋅CrCLi(14)
2.4 最大后验贝叶斯估计(MAPB)
在已知群体典型值(θ)、个体间变异(Ω)、残差变异(σ2)这些先验信息的情况下,最大化后验概率来估计个体参数(ηi:刻画了个体参数与群体典型值的差异)。这通过最小化以下目标函数实现
OFPOSTHOCi=j=1∑niσ2(yi,j−fi,j(θ,ηi))2+η′Ω−1η=j=1∑niσ2(yi,j−fi,j(θ,ηi))2+k=1∑pωk2(lnθi,k−lnθk)2(15)
式(15)中,yi,j、fi,j分别是个体i的第j个实测值和预测值;σ2、ω2分别是残差变异和个体间变异;θk、θi,k分别是第k个参数的群体典型值和在个体i中的值,由于参数通常服从对数正态分布,因此做了对数转换。
公式的前半部分∑j=1niσ2(yi,j−fi,j(θ,ηi))2是奖励项,它表示预测值和实测值的接近程度,拟合程度越好,这部分越小;后半部分∑k=1pωk2(lnθi,k−lnθk)2是惩罚项,它表示个体参数值与参数群体值的接近程度,个体参数越靠近群体典型值,这部分越小。
为了使目标函数最小,模型需要通过调节每个个体的参数值,使预测值和实测值尽可能接近。但是个体参数不能无限制地调节,否则惩罚项会很大。比如,为了能拟合一些离群观测值,个体参数值必须偏离群体值很多。因此,MAPB是奖励项和惩罚项平衡的结果。
考虑如下2种情况:
- σ2≫ω2:导致这种情况原因可能是个体采样信息不足、生物分析方法不灵敏、采样点设计不合理、个体间变异参数过多等。在这种情况下,改善奖励项对目标函数最小化贡献很小,此时模型将倾向于使惩罚项变小,让个体参数值尽可能接近群体典型值(向群体典型值收缩),这会导致个体间变异估计失真。这种现象称为ETA收缩。
- ω2≫σ2:导致这种情况原因可能是个体间变异参数过少等。此时奖励项占主导地位,模型将倾向于使预测值尽可能接近实测值,残差接近于0(残差向0收缩),这会导致错误的完美拟合。这种现象称为EPSILON收缩。
ETA收缩和EPSILON收缩的计算公式(以sd形式表示)分别是:
ShrinkageETA=(1−ωsd(η))×100%(16)
ShrinkageEPS=(1−sd(IWRES))×100%(17)
3. 非线性混合效应模型(NONMEM)
3.1 多层嵌套的随机效应
NONMEM同时估计个体间变异和残差变异,它们构成了2层随机效应。
第1层:个体间变异(IIV)
θi=θTV⋅eηi(18)
第2层:残差变异(RUV)
yi,j=f(θi,ti,j)+εi,j(19)
嵌套模型:
yi,j=f(θTV⋅eηi,ti,j)+εi,j(20)
其中,ηi∼N(0,ω2),ε∼N(0,σ2)。
3.2 NONMEM的目标函数
对于一个个体x(有j个观测值):
OF(x,θ,σ2)=j=1∑n(σ2(yj−f(xj,θ))2+lnσ2)(21)
对于群体中的某个个体xi:
OF(xi,θ,Ci)=j=1∑ni((yj−f(xj,θ))TCi−1(yj−f(xj,θ)))+ln(detCi)(22)
对于群体X=(x1,x2,⋯,xm):
OF(X,θ,C)=i=1,j=1∑m,ni((yi,j−f(xi,j,θ))TC−1(yi,j−f(xi,j,θ)))+i=1∑mln(detC)(23)
其中,Ci是个体方差-协方差矩阵:
Ci=GiΩGiT+HiΣHiT(24)
式(23)中,Ω、Σ分别是个体间变异和残差变异的协方差矩阵(即NONMEM中定义的OMEGA和SIGMA);Gi、Hi分别是fi,j(xi,j,θ)在η和ε方向上的偏导数。
OMEGA矩阵:
Ω=[ω1,1ω2,1ω1,2ω2,2](25)
SIGMA矩阵:
Σ=[σ1,1σ2,1σ1,2σ2,2](26)
3.3 FO近似
多层嵌套的混合效应模型的通式为
yi,j=fi,j(θ,ηi)+εi,j(27)
将上式在θ处进行一阶泰勒(f(x)=f(x0)+f′(x0)⋅(x−x0)+ξ)展开
yi,j=fi,j(θ)+∂ηi∂fi,j(θ)⋅ηi+εi,j+ξi,j(28)
其中,ξi,j是泰勒展开的余项。由于个体间变异和残差变异均服从均值为0的正态分布,因此yi,j的数学期望等于
E(yi,j)=fi,j(θ)+∂ηi∂fi,j(θ)⋅0+0+E(ξi,j)(29)
在允许的范围内,余项可以忽略,因此
E(yi,j)≅fi,j(θ)(30)
以上就是一阶估计(FO)的过程。
在FO算法中,个体间变异η=0,计算出群体典型值,再利用MAPB过程计算ηi。
在FOCE算法中,η=ηi;在含FOCE-I算法中,η=ηi,并且ηi包含在残差变异的方差中;在拉普拉斯算法中,进行二阶展开,η=ηi。
3.4 模型诊断
主要包括:OFV、参数点估计值、参数估计标准误(区间估计)、ETABAR、诊断图、AIC、似然比检验。
WRES仅用于FO算法(NONMEM6及之前):
EFO,ij(f)=f(xi,j,θ,0)(31)
Ci=dηidf∣ηi=0⋅Ω⋅dηidfT∣ηi=0+diag(dεijdf∣εij=0⋅Σ⋅dεijdfT∣εij=0)(32)
WRESij=Ciyij−EFO,ij(f)(33)
CWRES适用于各种条件算法:
EFOCE,ij(f)=f(xi,j,θ,ηi)−dηidf∣ηi=ηi⋅ηi(34)
Ci=dηidf∣ηi=ηi⋅Ω⋅dηidfT∣ηi=ηi+diag(dεijdf∣εij=0⋅Σ⋅dεijdfT∣εij=0)(35)
CWRESij=Ciyij−EFO,ij(f)(36)
AIC、BIC用于比较拟合优度,越低表明拟合越好,公式为
AIC=−2lnL+2k(37)
BIC=−2lnL+klnn(38)
式中,L为似然函数,−2lnL即OFV,k是参数个数,n是观测值个数。
似然比检验用于比较嵌套模型的拟合优度,检验参数的统计显著性,统计量为-2倍的似然比:
−2lnLreducedLfull=−2lnLfull−(−2lnLreduced)∼χ2(df=Δp)(39)