在任意点处的一种核密度估计头n1一iZKf()hnh1这里K()称为核函数(kernelfunction),它通常满足对称性及K(a)da=1.可以看出,核函数是一种权函数,该估计利用数据点c到的距离(α一)来决定在估计点c的密度时所起的作用如果核函数取标准正态密度函数(),则离点越近的样本点,加的权也越大.上面积分等于1的条件是使得f()是一个积分为1的密度.表示式中的h称为带宽(bandwidth).一般来说,带宽取得越大,估计的密度函数就越平滑,但偏差可能会较大,如果选的h太小,估计的密度曲线和样本拟合得较好,但可能很不光滑,一般选择的原则为使得均方误差最小为宜,有许多方法选择h,比如交叉验证法(cross-validation),直接插入法(directplug-in),在各个局部取不同的带宽,或者估计出一个光滑的带宽函数h()等等
图9.3为对老忠实温泉的间隔时间所作的核估计,其中h取了四个不同的值:h=0.3.0.5.1和2.从图上可以清楚地看出带宽对图形的影响.这里的核函数为标准正态密度函数h=0.3h0.590POT20000506070808090109050607010040h=1h=270.00020o10'00000℃904050607080901004050607080100图9.3用不同带宽对“老忠实”温泉的喷发间隔时间的核密度估计
下表列出了常用的核函数核函数名称核函数K(u)均匀(Uniform)(lul≤1)三角(Triangle)(1 - [ul)I(lul ≤1)(1 -)I(lul ≤1)Epanechikov四次(Quartic)(1-)I(lu≤1)三权(Triweight)(1 -)3I(lul≤1)高斯(Gauss) exp (-u)4余弦(Cosinus)u)I(lul≤1)cOS-
局部多项式密度估计局部多项式密度估计是自前最流行的,效果很好的密度估计方法,它对每个点拟合一个局部多项式来估计在该点的密度图9.4为对“老忠实”温泉的间隔时间所作的核估计(实线)和局部多项式估计(虚线)从图上可以看出核密度估计和局部多项式估计在边界上的区别:与核方法相比较,局部多项式方法在边界上的估计结果较好
to060'0sue0010'000'0406080100waitingtime (minute)图9.4对“老忠实”温泉的间隔时间所作的核估计(实线)和局部多项式估计(虚线).注意两条线在两端的区别