基于r语言的疾病制图中自适应核密度估计的阈值选择方法案例

背景

 诸如核密度估计(KDE)的平滑方法被用于控制用于计算每种疾病率的空间支持的群体基础。平滑程度由用户定义的参数(带宽或阈值)控制,该参数影响疾病图的分辨率和计算的速率的可靠性。已经提出了用于自动选择平滑参数(诸如正常比例,插件和平滑交叉验证带宽选择器)的方法以用于非空间数据,但是它们的相对效用仍然是未知的。

方法

内核,带宽的大小,是影响在KDE [在地图上的平滑的程度的关键参数 ]。带宽可以是固定的也可以是可变的(自适应的)。对于固定带宽方法,内核具有固定大小的半径,并且所有内核(圆圈)具有相同的半径。在健康研究中,固定带宽方法可能不合适,因为人口不是均匀分布在地理空间中。此外,如果圆圈落入低人口密度区域,可能会导致不稳定的比率。类似地,在自适应带宽方法中,内核半径增大或缩小以适应不同的种群大小。用于定义内核带宽的最小种群大小,以及因此地图上的平滑程度,是用户定义的参数。我们将其称为阈值(h)。

图  显示了使用疾病控制和预防中心(CDC),国家卫生统计中心(NCHS)  获得的65岁及以上男性心脏病死亡率的空间分布。我们使用具有不同阈值的自适应核密度估计方法产生该映射。如图 所示  ,当使用最小阈值(h  = 50)时,得到的地图以估计的速率描绘高水平的地理细节。但是,随着阈值的增加,得到的地图显示出较低的地理细节水平(图  )。此外,使用小阈值产生的地图倾向于在速率估计中显示更大的波动(μ  =每100,000人群1330, 在h  = 50时σ = 639.9 )。相比之下,使用较大阈值产生的地图倾向于显示较低的波动水平(μ  = 1209.5 / 100,000人群,σ  = 268.4,h  = 1000)。地理细节和可靠性之间的权衡取决于阈值的选择。太小的值可能导致光滑度不足,即地理细节水平较高但速率估计波动较大(图  )。相反,过大的值,将导致过度平滑的,即,低含量的地理细节,但较少波动率估计(图  )。

 
   # Adaptive smoothing;   
  bivariate. ( ,h0=1.5,hp=1,adapt=TRUE,davies.baddeley=0.025)
 
##   bandwidth selection ##
 
 
## Global (for adaptive) bandwidth selection ##
# ~200 secs next line; use 'parallelise' for speedup
system.time(  <- BOOT. (pbc,type=" ")) # minimal usage for adaptive bootstrap
hada
# ~80 secs   line. Set custom h limits; increase reference bandwidth;
  plot(hada);abline(v=hada[which.min(hada[,2]),1],col=2)

图。1

模拟基线速率和真实值(RMSE)之间的差异幅度随着L的增加而稳定。在本研究中,当L  > 50时,所有年龄组均达到稳定状态。在这项研究中,我们使用了100次重复。根据Natesan [ 32 ]的建议,我们还研究了(1)覆盖率,(2)区间估计的偏差(表) )。覆盖率定义为包含真实值的统计估计间隔的百分比。区间估计的偏差计算为高估和低估真实值的统计估计区间的百分比 ]。虽然95%区间估计值的覆盖率通常预计在95%左右,但我们的结果显示它们极低 - 所有年龄组的低于20% 。但是,由于估计过高和过低的百分比或多或少相等,我们可以得出结论,模拟是无偏见的。

 
 
## RMS error  

plot(x, y,
      , col = "lightgrey",
     xaxt = "n", yaxt = "n", xaxs = "i", yaxs = "i",
 axis(1, at = axp, labels = axp)
axis(2, at = axp, labels = axp)

图3

模拟基线速率分布特征总结

年龄阶层

均值

SD

覆盖率(%)

估计过高(%)

低估(%)

35-44

33.92

1.40

17

50.6

49.4

45-54

115.17

2.52

11

49.4

50.6

55-64

297.60

4.49

20

56.2

43.8

65岁以上

1245.93

10.21

16

47.6

52.4

35+

351.12

2.27

14

52.3

47.7

门槛选择对人口密度估计的影响

计算出的三个选择器 - 插件(pi),平滑交叉验证(scv),正常标度(ns)和中位数的如表 所示  。的ħ PIħ SCV选择导致最小的阈值。相比之下,对于55-64岁,65岁及以上的年龄组和总体人口(35岁及以上),ns中值选择器分别大约4倍和8倍。此外,ns中位数 对于两个最年轻的组--35到44和45到54,选择器也大约大5和7倍。这些结果表明,对于相同的数据,不同的带宽选择器提供不同的阈值。对于这些数据,piscv推荐产生的图可以提供更大的地理细节(更低的平滑水平),但估计的速率也会产生更大的波动。相反,另外两个带宽选择器产生更高水平的平滑,但速率波动更少。 

描述性结果和计算的阈值按年龄组分层

年龄组

总人口

范围

ZCTA数量

计算的阈值

具有指定最小人口的%ZCTA

pi

scv

ns

中位数

≤100(%)

≤300(%)

35-44

1722904

[1,7925]

1911 

53

56

280

327

32

48

45-54

1702639

[1,7407]

1910

57

55

255

399

28

45

55-64

1256976

[1,4948]

1906 

44

41

177

342

30

48

65岁以上

1135517

[1,4792]

1902

41

40

156

330

28

48

总计(35 +)

5818036

[1,25,555]

1920

200

189

837

1411

14

25

在图 ,将应用每个阈值(piscvns中位数和六个任意选择-50,100,500,1000,5000,10,000)后获得的种群密度曲线与实际种群进行比较分配(见方法 - 目标1)。对于每个图表,X轴表示仓大小为200的群体,Y轴是ZCTA的密度。 

图4

门槛选择对费率估计分布的影响

图   说明了100次重复的每个阈值的估计状态速率()的分布。由于piscv为所有年龄组提供了几乎相同的值,因此在该研究中仅使用pi。 Y轴显示从模拟数据集获得的心脏病死亡率(每100,000人口),每个点代表每次模拟的估计状态率()。模拟基线率(i)和原油率也包括在每个图表中以供参考。粗略比率计算为每个单独ZCTA的模拟病例与人口比率的平均值。请注意,Y轴的比例对于每个图表是不同的 - 这是为了解释年龄组之间心脏病风险的巨大差异(例如,35-44岁和65岁年龄组的平均心脏病死亡率和年龄分别为每10万人33.87和1245.93。此外,原油价格 与所有其他箱形图相比,估计的速率变化更大。此外,结果表明,随着阈值的增加,速率的变化减小。较小的箱形图表明每个模拟产生的每个地图的估计状态速率趋于更一致,反之亦然。

图5

表  ,使用ns中值h  > 500 获得的阈值为本研究中使用的年龄分层提供了最理想的密度曲线特征。此外,h  > 500,nsh  > 1000提供了35岁及以上年龄段的最理想的密度曲线特征。对于这些情况,虽然RMSE值没有明显不同 。这对于在图的35+岁年龄组,尤其如此 即 在制作疾病地图时,需要平衡地图上描绘的地理细节数量和估计费率的准确性。虽然RMSE建议使用三个期望阈值产生的地图之间具有相似的准确度,但是在选择适当阈值时要考虑的剩余关键因素是地理变化程度。 而且,与任意选择相比, ns提供了一种估计适当阈值的一致方法。

图6

结果

使用德克萨斯州35岁及以上男性心脏病死亡率的模拟数据集,我们评估了自动选择平滑参数的方法。我们的结果表明,虽然所有参数选择都准确地估计了整体状态速率,但它们在空间分辨率方面有所不同。此外,导致群体的一个子群(例如,特定年龄组)的期望特征的参数选择可能不一定适合于其他群组。

结论

我们表明适当的阈值取决于数据的特征,并且带宽选择器算法可用于指导关于映射参数的此类决策。无指导选择可能会产生扭曲分辨率和统计可靠性平衡的地图。

有问题吗?联系我们!

 

大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服

点击这里给我发消息​QQ:3025393450

【服务场景】  

科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务

猜你喜欢

转载自www.cnblogs.com/tecdat/p/10913773.html
今日推荐