2017.11.1 人要有发耻心和羞耻心,突然想到了这么一句话,MARK一个博客
困惑了好久,还是写个博客Mark一下,方便以后查询使用
- 相关分布
概率密度函数
对数正态分布是对数为正态分布的任意随机变量的概率分布。如果
Y
是正态分布的随机变量,则
exp(Y)
是对数正态分布;同样,如果
X
是对数正态分布,则
ln(X)
为正态分布,如果一个变量可以看成是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。 给定一个
x>0
,对数正态分布的概率密度函数为:
f(x;μ;σ)=12π−−√xσe−(lnx−μ)22σ2
其中,
μ
和
σ
分别是变量对数的平均值和标准差。期望值和方差分别为:
E(X)=eμ+σ2/2
var(X)=(eσ2−1)e2μ+σ2
给定期望值与方差,也可以用这个关系求
μ
与
σ
的大小
μ=ln(E(X))−12ln(1+var(X)E(X)2)
和
σ2=ln(1+var(X)E(X)2)
求解时,需要将
μ
和
σ
计算出来带入到上面的
f(x;μ;σ)
中使用matlab带有的
logncdf和
lognpdf获取对数正态分布的累积分布函数和密度函数。
注解:已知变换后的数据的统计特征可以反过来推导出原始数据的统计特征,不存在数据信息的损失(对数转换后变量的均值可以直接由样本数据的均值得到,但不进行变化却需要由样本均值方法两方面去推断得到),参见:
机器学习小组知识点17 也可以发现对数正态分布实际上是对数据进行了对数变化,从而变成了正态分布,方便得到相关的统计学变量。
局部期望
随机变量
X
在阈值
k
上的局部期望定义为:
g(k)=∫∞k(x−k)f(x)dx
其中
f(x)
是概率密度,对于对数正态概率密度,这个定义为:
g(k)=exp(μ+σ2/2)Φ(−ln(k)+μ+σ2σ)−kΦ(−ln(k)+μσ)
其中
Φ
是标准正态分布的累积分布函数,对数正态分布的局部期望在经济领域应用广泛。
相关分布
这里指的是与高斯分布的关系
如果
Y=ln(X)
与
X Log−N(μ,σ2)
,则
Y N(μ,σ2)
是正态分布.
如果
Xm=Log−N(μ,σ2m),m=1...n¯¯¯¯¯¯¯
是有同样%
μ
参数,而
σ
可能不同的统计独立对数正态分布变量,并且
Y=∏Nm=1Xm
,则
Y
也是正态分布变量:
Y∼Log−N(nμ,∑nm=1σ2m)
,满足高斯分布求和性质。
参数的最大似然估计
为了确定对数正态分布参数
μ
和
σ
的最大似然估计,可以采用与正态分布参数最大似然估计同样的方法。
fL(x;μ,σ)=1xfN(lnx;μ,σ)
其中用
fL(⋅)
表示对数正态分布的概率密度函数,用
fN(⋅)−−
表示正态分布,因此,用与正态分布同样的指数,我们可以得到对数最大似然函数:
lL(μ,σ|x1,x2,⋯,xn)=−∑klnxk+lN(μ,σ|lnx1,lnx2,⋯,lnxn)=constant+lN(μ,σ|lnx1,lnx2,⋯,lnxn)
由于第一项相对于
μ
和
、sigma
来说是常数,两个对数最大似然函数
lL
和
lN
在同样的
μ
和
σ
处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面的方程,推导出对数正态分布参数最大似然估计为:
μ^=∑klnxkn,σ^2=(lnxk−μ^)2n