第九章非参数密度估计和非参数回归简介非参数回归和密度估计问题在许多方面和前面讨论的基于秩的统计问题很不一样,需要的数学方法也不相同.由于非参数回归和密度估计需要大量的计算,只有在近些年来计算机飞速发展之后,才得到长足的进展,这方面有不少专者,本书仅通过两个著名例子来介绍一些典型的方法和思路,以使读者对此方向有些直观印象.想了解本节方法田节的读者,请阅读有关的文献9.1非参数密度估计例9.1(数据:faithful.txt,faithful.sav)这是一个很著名的例子,在美国黄石国家公园有一个间歇式温泉,它的喷发间隔很有规律,大约66分钟喷发一次但实际上从33分钟到148分钟之间变化.水柱高度可达150英尺:由于其喷发保持较明显的规律性,人们称之为老忠实(OldFaithful):图9.1是其喷发持续时间(eruptions)和间隔时间(waiting)的散点图(单位为分钟,共272个点)
Oooo8?000800o0oOOOO80o80O80O08000082Oo8oOo08300)8OoO8OooOOC8OOOD0088T8C%-88O888o80OoOueooo8880OooooOOO00ooOoOOoo8eO80Co8OO8OO8Oo8OO8Oo888S5OOa80OOo88O00O0O11.52.02.53.03.54.04.55.0eruptions图9.1“老忠实”温泉的喷发持续时间和间隔时间的散点图
人们想知道间隔时间的密度函数,看起来该密度应该有两个峰,正如前面提到过的,最简单的方法是用直方图,图92是用不同数自的分割区间所画的老忠实间款温泉的间隔时间的直方图,容易看出,当区间变细时,这些直方图看起来的确象个密度,然而,如果数据不够多,分割区间太多会使得个别点太突出而看不出总体形状,因此,选择区间的数目和大小是画好直方图的关键,一般的软件都有对此的缺省值,当然,计算机软件所提供的缺省值不一定就是最优的,直方图有时仅被认为是很初等的非参数密度估计,并且往往划归到描述性统计的范畴,下面介绍一些非参数密度估计方法
2024orenoren580205001404080506070809010050607090waitingwaiting55OConeona1-r7150607080905060708090waitingwaiting“老忠实”温泉的喷发间隔时间的不同分割数目的直方图图9.2
9.1.1一元密度估计直方图记录了在每个区间中点的个数或频率,使得图中的矩形条的高度随着数值个数的多少而变化但是直方图很难给出较为精确的密度估计核密度估计.下面引进核估计(Kernelestimation).它的原理和直方图有些类似,核估计也计算某一点周围的点的个数,只不过是对于近处的点考虑多一些对于远处的考虑少一些或者甚至不考虑).具体来说,如果数据为C1,α2,·,Cn