近邻估计,上一节的密度核估计是以和C的欧氏距离为基准来决定加权的多少,本节所介绍的k一近邻估计是无论欧氏距离多少,只要是点的最近的k个点之一就可参与加权.一种具体的k近邻密度估计(k-nearestneighborestimation)为k-1f(α) =2ndi(α)令diα)≤d2(α)≤.·≤dn(α)表示按升幂排列的c到所有n个样本点的欧氏距离.显然,k的取值决定了估计密度曲线的光滑程度.k越大则越光滑,还可以与核估计结合起来定义广义近邻估计n1T-aiZKf(c) =ndk(X)dh(r)i=1
9.1.2多元密度估计多元密度估计可以是一元的推广,对于二元数据,可以画二维直方图,同样可以有多元的核估计,假定×为d维向量,则多元密度估计可以为nTx-x=一Kf(x)nhdhi=1当然,这里的h不一定对所有的元都一样,每一元都可以而且往往有必要选择自己的h,这单的核函数应满足K(x)dx = 1.JRd和一元情况一样,可以选择多元正态或其它多元分布密度函数作为核函数图9.5显示了“老忠实”间歇温泉的喷发持续时间及间隔时间的二元密度函数核估计的等高线图和三维图