统计学习理论及应用 第九讲 数据表示-不含参模型 编写:文泉、陈娟 电子科技大学 计机科学与工程学院
统计学习理论及应用 第九讲 数据表示-不含参模型 编写:文泉、陈娟 电子科技大学 计算机科学与工程学院
目录 概率密度估计 ②直方图方法 Parzen窗 ④K近邻密度估计 ·k近邻分类器 1/27
目录 1 概率密度估计 2 直方图方法 3 Parzen 窗 4 K 近邻密度估计 k 近邻分类器 1 / 27
9.1.概率密度估计(Density Estimation) 一些基本概念 Density estimation:estimating the probability density function p(x)based on a given set of training samples D={x1,x2,,Xw}. Estimated density:denoted by p(x). Training samples are i.i.d.and distributed according to p(x): Parametric estimation:parameter vector 0 of p(x; Non-parametric estimation:a function p:F->R O Finite number of training samples meaning that there will be some errors in the function (density)estimation 2/27
9.1. 概率密度估计 (Density Estimation) 一些基本概念 1 Density estimation: estimating the probability density function p(x) based on a given set of training samples D = {x1, x2, ..., xN}. 2 Estimated density: denoted by pˆ(x). 3 Training samples are i.i.d. and distributed according to p(x). 4 Parametric estimation: parameter vector θ of p(x; θ) 5 Non-parametric estimation: a function p : F −→ R 6 Finite number of training samples meaning that there will be some errors in the function (density) estimation. 2 / 27
含参模型估计概率是已知总体分布形式(即函数形式) ·但实际情况,我们对分布其实是一无所知的,不含参模 型可以应用于任何概率分布的场合,无需假定概率分布的 形式是已知。 3/27
▶ 含参模型估计概率是已知总体分布形式 (即函数形式) ▶ 但实际情况,我们对分布其实是一无所知的,不含参模 型可以应用于任何概率分布的场合,无需假定概率分布的 形式是已知。 3 / 27
假定n个样本x1,2,,xn,采样自分布p(x),则一个向量 x在一个区域R的概率P为: P-p(. ·那么n个样本中,有k个样本在区域R的概率,由二项 式分布(binomial distribution)有: p(1-P)-. ·由随机变量k的期望和方差: Ek=nP var(k)nP(1-P) 有:E[月=E[因/n=P,var[]=var[/=P(1-P)/n 4/27
▶假定 n 个样本 x1, x2, ..., xn,采样自分布 p(x),则一个向量 x 在一个区域 R 的概率 P 为: P = ∫ R p(x ′ )dx′ . ▶ 那么 n 个样本中,有 k 个样本在区域 R 的概率,由二项 式分布 (binomial distribution) 有: Pk = ( n k ) P k (1 − P) n−k . ▶ 由随机变量 k 的期望和方差: E[k] = nP var(k) = nP(1 − P) 有:E[ k n ] = E[k]/n = P, var[ k n ] = var[k]/n 2 = P(1 − P)/n 4 / 27