第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201312041 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150317.1025.002.html 一种新颖的领域自适应概率密度估计器 许敏12,俞林2 (1.江南大学数字媒体学院,江苏无锡214122;2.无锡职业技术学院物联网技术学院,江苏无锡214121) 摘要:传统概率密度估计法建立好密度估计模型后,无法将源域知识传递给相关目标域密度估计模型。提出用无 偏置-SVR的回归函数来表示传统概率密度估计法获得密度估计信息,并说明无偏置SVR等价于中心约束最小 包含球及概率密度回归函数可由中心约束最小包含球中心点表示。在上述理论基础上提出中心点知识传递领域自 适应概率密度估计法,用于解决因目标域信息不足而无法建立概率密度函数的场景。实验表明,此种领域自适应方 法进行领域间知识传递的同时,还能达到源域隐私保护的目的。 关键词:概率密度函数;无偏置-SVR;中心约束最小包含球:核心集:领域自适应 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2015)02-0221-06 中文引用格式:许敏,俞林.一种新颖的领域自适应概率密度估计器[J].智能系统学报,2015,10(2):221-226. 英文引用格式:XU Min,YULin.A probability density estimator for domain adaptation[J].CAAI Transactions on Intelligent Sys- tems,2015,10(2):221-226. A probability density estimator for domain adaptation XU Min'2,YU Lin2 (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.School of Internet of Things Technology,Wuxi Institute of Technology,Wuxi 214121,China) Abstract:This paper proposes that the density information received from the traditional probability density estima- tion method can be represented by no bias v-SVRregression function.It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper,no bias v-SVR is equivalent to the center-constrained minimum enclosing ball (CC-MEB)and the probability density regression function is constrained by CC-MEB's center point is described.On the basis of the a- bove theory,an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain.The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain. Keywords:probability density estimation;no bias v-SVR center-constrained minimum enclosing ball(CC-MEB); core set;domain adaptation 概率密度估计常见的做法是根据所得数据建立 概率密度函数(probability density function,PDF),在 机器学习和模式识别中具有非常重要的作用),如 收稿日期:2013-12-20.网络出版日期:2015-03-17 基金项目:江苏省高校自然科学研究资助项目(13KJB520001):江苏省聚类分析[2)]等。通常概率密度估计法分参数估计 高校哲学社会科学基金资助项目(2012SB880077):江苏省 研究生创新工程资助项目(CXZZ12-0759). 和非参数估计2类。因真实数据概率密度分布不可 通信作者:许敏.E-mail:xum@wit.cdu.cm. 知,故非参数核密度估计法(kernel density estima-
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201312041 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150317.1025.002.html 一种新颖的领域自适应概率密度估计器 许敏1 ,2 ,俞林2 (1.江南大学 数字媒体学院,江苏 无锡 214122; 2. 无锡职业技术学院 物联网技术学院,江苏 无锡 214121) 摘 要:传统概率密度估计法建立好密度估计模型后,无法将源域知识传递给相关目标域密度估计模型。 提出用无 偏置 v⁃SVR 的回归函数来表示传统概率密度估计法获得密度估计信息,并说明无偏置 v⁃SVR 等价于中心约束最小 包含球及概率密度回归函数可由中心约束最小包含球中心点表示。 在上述理论基础上提出中心点知识传递领域自 适应概率密度估计法,用于解决因目标域信息不足而无法建立概率密度函数的场景。 实验表明,此种领域自适应方 法进行领域间知识传递的同时,还能达到源域隐私保护的目的。 关键词:概率密度函数;无偏置 v⁃SVR ;中心约束最小包含球;核心集;领域自适应 中图分类号: TP391.4 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0221⁃06 中文引用格式:许敏,俞林. 一种新颖的领域自适应概率密度估计器[J]. 智能系统学报, 2015, 10(2): 221⁃226. 英文引用格式:XU Min, YU Lin. A probability density estimator for domain adaptation[J]. CAAI Transactions on Intelligent Sys⁃ tems, 2015, 10(2): 221⁃226. A probability density estimator for domain adaptation XU Min 1 ,2 , YU Lin 2 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things Technology, Wuxi Institute of Technology, Wuxi 214121, China) Abstract:This paper proposes that the density information received from the traditional probability density estima⁃ tion method can be represented by no bias v⁃SVRregression function. It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper, no bias v⁃SVR is equivalent to the center⁃constrained minimum enclosing ball (CC⁃MEB) and the probability density regression function is constrained by CC⁃MEB's center point is described. On the basis of the a⁃ bove theory, an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain. The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain. Keywords:probability density estimation; no bias v⁃SVR ; center⁃constrained minimum enclosing ball(CC⁃MEB); core set; domain adaptation 收稿日期:2013⁃12⁃20. 网络出版日期:2015⁃03⁃17. 基金项目:江苏省高校自然科学研究资助项目( 13KJB520001);江苏省 高校哲学社会科学基金资助项目(2012SJB880077);江苏省 研究生创新工程资助项目(CXZZ12⁃0759). 通信作者:许敏. E⁃mail:xum@ wxit.edu.cn. 概率密度估计常见的做法是根据所得数据建立 概率密度函数(probability density function, PDF),在 机器学习和模式识别中具有非常重要的作用[1] ,如 聚类分析[2] 等。 通常概率密度估计法分参数估计 和非参数估计 2 类。 因真实数据概率密度分布不可 知,故非参数核密度估计法( kernel density estima⁃
.222. 智能系统学报 第10卷 ion,KDE))是采用较广泛的方法。因KDE需要 故引入映射函数p(x)将x:映射到高维空间p(x:) 所有样本参与计算且需存储所有数据,故压缩集概 中。无偏置-SVR原始优化问题如下: 率密度估计器)和快速压缩集概率密度估计器) 被提出以解决存储空间和运行效率问题。上述传统 的概率密度估计法效果显著但均未考虑领域间自适 st.wp(x:)-y:≤E+ 应学习的问题。在实际应用中存在这样的场景,已 y:-wp(x:)≤E+专: 有源域数据集数据量大、密度估计精确:但相关目标 专)≥0 (1) 域数据集由于隐私保护或数据遗失等原因只获得少 式中:(*)表示向量有*号和无*号2种情况。为 量数据,这些数据是目标域真实信息但却不足以建 导出原始问题(1)的对偶问题,引入拉格朗日函数: 立目标域PDF。如何既保证目标域已知数据对建 L(w,),),7)= 立目标域PDF的作用,又能利用源域知识对目标域 信息不足部分加以弥补是本文研究的重点。 w+A(e+2(传+ 1 1 DADE模型 i=1 1.1DADE模型理论依据 (2) 领域自适应概率密度估计器的应用前提是存在 含ae+f+re)-d 两相关领域,两域通过传统密度估计法,如Parzen 式中:a)=[a1a1°…a1a],n)= 窗法获得概率密度估计值,形成(x,y)对。其中,x [,刀,·…刀,,]是拉格朗日乘子向量。 是输入向量,y是概率密度估计值。源域(x,y)对 为了使式(2)最小化,对L关于向量w和变量 足以构建概率密度函数,而出于隐私保护或数据遗 6、)求偏导数,得 失等原因,一些高度机密的数据无法获得,所得少量 0L/dw=0=>w= (a°-a)e(x)(3) 目标域(x,y)信息精确,但不足以构建目标域概率 =1 密度函数。 aL/a8=0=> ∑(a,+a)=A (4) 传统密度估计法本身不能进行领域间知识传 al/aE)=0=> dn-a=0(5) 入 递,本文的贡献在于使用无偏置-SVR回归函数表 示概率密度函数,这样做的优势在于: 将式(3)、(4)带入式(2),可得对偶优化问题: 1)无偏置-SVR等价于CC-MEB的特性,可使 用核心集[6]代替源域所有数据建立概率密度函 min (a-a)(a-a)()- 2= 数,提高密度估计效率: 2)密度回归函数f(x)可由CC-MEB中心点表 含aax 示,提出中心点知识传递模型),实现相似领域间 领域自适应概率密度器的建立,若使用源域核心集 s.t∑(a+a:)= 代替所有源域样本表示源域中心点,还可起到源域 0≤a,)≤ (6) 隐私保护的目的。 1.2DADE模型架构 最终所得回归函数: 设训练集T={(x1),…,(xy)},其中输 g(x)=w'p(x)=E(a,'-a)p(x)"p(x) 入向量x:∈R”,输出向量y:∈Y=R为概率密度估 =1 计值,i=1,2,…,l。本文用无偏置支持向量回归 (7) 函数y=w(x)建立概率密度估计函数,与传统 概率密度函数p(x)需满足p(x)≥O, -SVR相比,没有b项,文章下面部分介绍无偏置 p(x)=1的条件,但无偏置SVR进行概率密 B-SVR 度估计时不能满足上述条件,故需添加约束 1.2.1无偏置-SVR 无偏置-SVR试图寻找R”上的一个实值函数 三(a”-a)=1,且核函数的选择清足 g(x),以便使用y=g(x)来推断任一输入x所对应 的输出值y。通常训练集在输入空间线性不可分, K(x,')≥0,K(x,r)d=1
tion, KDE) [3]是采用较广泛的方法。 因 KDE 需要 所有样本参与计算且需存储所有数据,故压缩集概 率密度估计器[4] 和快速压缩集概率密度估计器[5] 被提出以解决存储空间和运行效率问题。 上述传统 的概率密度估计法效果显著但均未考虑领域间自适 应学习的问题。 在实际应用中存在这样的场景,已 有源域数据集数据量大、密度估计精确;但相关目标 域数据集由于隐私保护或数据遗失等原因只获得少 量数据,这些数据是目标域真实信息但却不足以建 立目标域 PDF。 如何既保证目标域已知数据对建 立目标域 PDF 的作用,又能利用源域知识对目标域 信息不足部分加以弥补是本文研究的重点。 1 DADE 模型 1.1 DADE 模型理论依据 领域自适应概率密度估计器的应用前提是存在 两相关领域,两域通过传统密度估计法,如 Parzen 窗法获得概率密度估计值,形成 (x,y) 对。 其中, x 是输入向量, y 是概率密度估计值。 源域 (x,y) 对 足以构建概率密度函数,而出于隐私保护或数据遗 失等原因,一些高度机密的数据无法获得,所得少量 目标域 (x,y) 信息精确,但不足以构建目标域概率 密度函数。 传统密度估计法本身不能进行领域间知识传 递,本文的贡献在于使用无偏置 v⁃SVR 回归函数表 示概率密度函数,这样做的优势在于: 1)无偏置 v⁃SVR 等价于 CC⁃MEB 的特性,可使 用核心集[6⁃8] 代替源域所有数据建立概率密度函 数,提高密度估计效率; 2)密度回归函数 f(x) 可由 CC⁃MEB 中心点表 示,提出中心点知识传递模型[9] ,实现相似领域间 领域自适应概率密度器的建立,若使用源域核心集 代替所有源域样本表示源域中心点,还可起到源域 隐私保护的目的。 1.2 DADE 模型架构 设训练集 T = {( x1 ,y1 ),…,( xl,yl)} ,其中输 入向量 xi ∈ R n ,输出向量 yi ∈ Y = R 为概率密度估 计值, i = 1,2,…,l 。 本文用无偏置支持向量回归 函数 y = w Tφ(x) 建立概率密度估计函数,与传统 v⁃SVR 相比,没有 b 项,文章下面部分介绍无偏置 v⁃SVR 。 1.2.1 无偏置 v⁃SVR 无偏置 v⁃SVR 试图寻找 R n 上的一个实值函数 g(x) ,以便使用 y = g(x) 来推断任一输入 x 所对应 的输出值 y 。 通常训练集在输入空间线性不可分, 故引入映射函数 φ(x) 将 xi 映射到高维空间 φ(xi) 中。 无偏置 v⁃SVR 原始优化问题如下: min 1 2 ‖w‖2 + λ(vε + 1 l ∑ l i = 1 (ξi + ξi ∗ )) s.t.w Tφ(xi) - yi ≤ ε + ξi yi - w Tφ(xi) ≤ ε + ξi ∗ ξi (∗) ≥ 0 (1) 式中: (∗) 表示向量有∗号和无∗号 2 种情况。 为 导出原始问题(1)的对偶问题,引入拉格朗日函数: L(w,ξ (∗) ,α (∗) ,η (∗) ) = 1 2 ‖w‖2 + λ(ε + 1 vl∑ l i = 1 (ξi + ξi ∗ )) - ∑ l i = 1 (ηi ξi + ηi ∗ ξi ∗ ) - ∑ l i = 1 αi(ε + ξi - w Tφ(xi) + yi) - ∑ l i = 1 αi ∗ (ε + ξi ∗ + w Tφ(xi) - yi) (2) 式中: α (∗) = [α1 α1 ∗ … αl αl ∗ ] T , η (∗) = [η1 η1 ∗ … ηl ηl ∗ ] T 是拉格朗日乘子向量。 为了使式(2)最小化,对 L 关于向量 w 和变量 ε、 ξi (∗) 求偏导数,得 ∂L / ∂w = 0 = > w = ∑ l i = 1 (αi ∗ - αi)φ(xi) (3) ∂L / ∂ε = 0 = > ∑ l i = 1 (αi + αi ∗ ) = λ (4) ∂L / ∂ξi (∗) = 0 = > λ vl - ηi (∗) - αi (∗) = 0 (5) 将式(3) 、(4)带入式(2),可得对偶优化问题: min 1 2 ∑ l i = 1 ∑ l j = 1 (αi ∗ - αi)(αj ∗ - αj)K(xi,xj) - ∑ l i = 1 (αi ∗ - αi)yi s.t.∑ l i = 1 (αi + αi ∗ ) = λ 0 ≤ αi (∗) ≤ λ vl (6) 最终所得回归函数: g(x) = w Tφ(x) = ∑ l i = 1 (αi ∗ - αi)φ (xi) Tφ(x) (7) 概 率 密 度 函 数 p(x) 需 满 足 p(x) ≥ 0, ∫ +¥ -¥ p(x)dx = 1 的条件,但无偏置 v⁃SVR 进行概率密 度估 计 时 不 能 满 足 上 述 条 件, 故 需 添 加 约 束 ∑ l i = 1 (αi ∗ - αi) = 1, 且 核 函 数 的 选 择 满 足 K(x,x′) ≥0, ∫ +¥ -¥ K(x,x′)dx = 1。 ·222· 智 能 系 统 学 报 第 10 卷
第2期 许敏,等:一种新颖的领域自适应概率密度估计器 ·223· 1.2.2无偏置-SVR与CC-MEB 0≤a)≤ (12) 1)CC-MEB d Tsang等在文献[6]中介绍了最小包含球(mini- 令a=[a·TaxT],式(12)式相应的矩阵形式: mum enclosing ball,MEB)与中心约束最小包含球 2 (center-constrained MEB,CC-MEB)。设S={x1, x2,…,xm},其中x:∈R,MEB的思想是找到包含 min a'ka-a 集合S所有样本(x:)的最小球,则属于该类的数 2y (13) 据就在球中,不属于该类的数据就在球外。为每个 p(x)增加一维8:,形成集合S”= sLa'1=1,0≤&≤J Avl {((x)',6:)1,将最后一维中心点坐标设为0, 即中心点坐标(c,0),则找到包含集合S'中所有样 式中:=[(x】=上K门 「K-K 本的最小超球最优化问题为 式(13)为无偏置-SVR的QP形式,与式(11) minR2 相比较,求4的值: C.h s.t.‖o(x:)-c‖2+82≤R2,i=1,2,…,m (8) 4-e风+1+[] (14) 设4=[62822…82]'≥0,式(8)对应对偶问 式中:实数7足够大,以使4≥0。式就可以写成 题的矩阵形式为 a"(diag(K)+A-n1)a"Ka max B(diag(K)+A)-BTKB 1=1 (15) s.t.B≥0,Br1=1 (9) 该形式用x替换了B与式(11)等价,是CC 式中:核矩阵Km=[(x,)】= MEB问题,可使用核心集快速解法求解。 [p(x:)p(x)]。 按式(15)求解,球心c可按下面公式计算: 使用最优解B,可得到半径R、中心点c的值: R=√B'(diag(K)+△)-BKp c=∑aa(x) i=1 c=∑B,(x) (10) 式中i=1,2,…,m时p(x:)=(x:),i=m+1, 因为B1=1,任意实数)加入公式,不会影响 m+2,…,2m时,p(x;)=-(x:),由此可得: B的取值。原对偶形式改为 c= ∑a,e(x)= maxB'(diag(K))+A-n1)-B'K邓 s.tβ≥0,B1=1,4≥0 (11) 三e)·宫a~o 文献[6]指出,任意满足式(11)的QP问题均 能看作CC-MEB问题,可运用核心集快速算法求 三c-ae (16) 解。把整个数据集合S的求解转化成对S的一个子 式(3)中的w就可简化为w=入c。故 集Q的求解,可得到一个精确有效的近似解,其中Q g(x)=w'p(x)=入cp(x)= 被称为核心集。具体方法参见文献[6]。 2)无偏置-SVR与CC-MEB间关系 a(a-a,)e(x,)'e(x)= i=1 令a=,以满足三(a+a,)=1 A∑(a',-a:)() (17) 式(12)与式(6)等价。 由式(17)可获得以下两结论: 2名a”-- 1)无偏置-SVR等价于CC-MEB,故可用核心 min 集技术进行快速求解; (a.-a)y. 2)概率密度回归曲线可由其二次规划形式等 价的CC-MEB的中心点表示。 st∑(a+a)=1 1.2.3DADE模型 从1.2.2节分析可知,无偏置-SVR等价于CC-
1.2.2 无偏置 v⁃SVR 与 CC⁃MEB 1) CC⁃MEB Tsang 等在文献[6]中介绍了最小包含球(mini⁃ mum enclosing ball, MEB) 与中心约束最小包含球 ( center⁃constrained MEB, CC⁃MEB)。 设 S = { x1 , x2 ,…,xm } ,其中 xi ∈ R d ,MEB 的思想是找到包含 集合 S 所有样本 φ(xi) 的最小球,则属于该类的数 据就在球中,不属于该类的数据就在球外。 为每个 φ( xi) 增 加 一 维 δi , 形 成 集 合 S′ = {(φ(xi)′,δi)} m i = 1 ,将最后一维中心点坐标设为 0, 即中心点坐标(c,0),则找到包含集合 S’中所有样 本的最小超球最优化问题为 min c,R R 2 s.t.‖φ(xi) - c‖2 + δi 2 ≤ R 2 , i = 1,2,…,m (8) 设 Δ = [δ 1 2 δ 2 2 … δ 2 m ]′ ≥ 0,式(8)对应对偶问 题的矩阵形式为 max β β T (diag(K) + Δ) - β TKβ s.t. β ≥ 0,β T 1 = 1 (9) 式 中: 核 矩 阵 Km×m = [k( xi, xj)] = [φ (xi) T φ(xj)]。 使用最优解 β ,可得到半径 R、中心点 c 的值: R = β T (diag(K) + Δ) - β TKβ c = ∑ m i = 1 βiφ(xi) (10) 因为 β T 1 = 1,任意实数 η 加入公式,不会影响 β 的取值。 原对偶形式改为 max β β T (diag(K) + Δ - η 1) - β TKβ s.t.β ≥ 0,β T 1 = 1 ,Δ ≥ 0 (11) 文献[6]指出,任意满足式(11) 的 QP 问题均 能看作 CC⁃MEB 问题,可运用核心集快速算法求 解。 把整个数据集合 S 的求解转化成对 S 的一个子 集 Q 的求解,可得到一个精确有效的近似解,其中 Q 被称为核心集。 具体方法参见文献[6]。 2) 无偏置 v⁃SVR 与 CC⁃MEB 间关系 令 αi (∗) ′ = αi (∗) λ ,以满足 ∑ l i = 1 (αi ′ + αi ∗ ′) = 1, 式(12)与式(6)等价。 min 1 2 ∑ l i = 1 ∑ l j = 1 (αi ∗ ′ - αi ′)(αj ∗ ′ - αj ′)K(xi,xj) - 1 λ∑ l i = 1 (αi ∗ ′ - αi ′)yi s.t.∑ l i = 1 (αi ′ + αi ∗ ′) = 1 0 ≤ αi (∗) ≤ 1 vl (12) 令 α ~ = [α ∗ ′ T α′ T ] ,式(12)式相应的矩阵形式: min α ~ α ~ TK ~ α ~ - α ~ T 2 λ Y - 2 λ Y é ë ê ê ê ê ê ù û ú ú ú ú ú s.t.α ~ T 1 = 1,0 ≤ α ~ ≤ 1 λvl (13) 式中: K ~ = [ k ~ (xi,xj)] = K - K - K K é ë ê ê ù û ú ú 。 式(13)为无偏置 v⁃SVR 的 QP 形式,与式(11) 相比较,求 Δ 的值: Δ = - diag(K ~ ) + η 1 + 2 λ Y - Y é ë ê ê ù û ú ú (14) 式中:实数 η 足够大,以使 Δ ≥ 0。 式就可以写成 α ~ T (diag(K ~ ) + Δ - η 1) - α ~ TK ~ α ~ α ~ T 1 = 1 (15) 该形式用 α ~ 替换了 β 与式(11) 等价,是 CC⁃ MEB 问题,可使用核心集快速解法求解。 按式(15)求解,球心 c 可按下面公式计算: c = ∑ 2∗m i = 1 α ~ iφ ~ (xi) 式中 i = 1,2,…,m 时 φ ~ ( xi) = φ( xi) , i = m + 1, m +2,…,2m 时, φ ~ (xi) = - φ(xi) ,由此可得: c = ∑ 2∗m i = 1 α ~ iφ ~ (xi) = ∑ m i = 1 α′iφ(xi) + ∑ m i = 1 α ∗ ′i( - φ(xi)) = ∑ m i = 1 (α′i - α ∗ ′i)φ(xi) (16) 式(3)中的 w 就可简化为 w = λc 。 故 g(x) = w Tφ(x) = λ c Tφ(x) = λ∑ m i = 1 (α ∗ ′i - α′i)φ (xi) Tφ(x) = λ∑ m i = 1 (α ∗ ′i - α′i)K(xi,xj) (17) 由式(17)可获得以下两结论: 1)无偏置 v⁃SVR 等价于 CC⁃MEB,故可用核心 集技术进行快速求解; 2)概率密度回归曲线可由其二次规划形式等 价的 CC⁃MEB 的中心点表示。 1.2.3 DADE 模型 从 1.2.2 节分析可知,无偏置 v⁃SVR 等价于 CC⁃ 第 2 期 许敏,等:一种新颖的领域自适应概率密度估计器 ·223·
.224 智能系统学报 第10卷 MEB,概率密度函数由CC-MEB中心点表示。在此 文所提算法的优势。 理论基础上,本文提出通过学习源域中心点将源域 实验中将DADE方法与上述相关的方法进行性 知识传递给目标域,构造学习源域知识且与目标域 能比较,以目标域测试集概率密度估计精度作为评价 无偏置-SVR等价的CC-MEB,此CC-MEB的中心 指标,具体为:error= 点可用于目标域概率密度函数的建立。 之0)-脚 学习源域中心点的CC-MEB原始问题如下: x:表示目标域测试集元素,f(x:)表示x:的真实密度 minR2 +ullc-co ll 2 值,f(x:)表示各算法所得x:概率密度估计值,N值 c.A s.t.lp(x:)-c‖2+62≤R2 (18) 为500。实验通过网格搜索方式确定最优参数,高斯 引入拉格朗日乘子变量,在约束条件下构造式 核函数的方差h在网格{x/22,x/2,x/√2,x,2x, (18)的拉格朗日函数: 2x,22x}中搜索选取,其中x为训练样本平均2范 L=R2+u‖c-coI2+ 数的平方根;入参数在网格{1,2,3,4,5,6,7,8,9,10 盒1o)-e+-) (19) 中搜索选取:参数在网格{1×10,1×10,1×102, 1×10,1}中搜索选取:μ参数在网格{1,2,3,4,5,6, 由最优化理论可知,式(19)在鞍点处取极值, 7,8,9,10,15,20}中搜索选取。 在鞍点处L关于变量c和R的偏微分: 实验环境为:Intel Core22.40 GHz CPU,2.39 -R-2R克=0=>立x-1 GHz、1.94 GB RAM,Windows XP SP3,MATLAB7.1。 aR i=1 2.2实验结果与分析 aL =2μIc-c‖+2∑y.(e(x)-c)=0 为了利用源域知识弥补当前场景下信息过少造 ac i=1 成受训系统泛化能力下降之缺陷,模拟数据集的构 uco+∑y:e(x) 造需遵循以下原则:1)源域和目标域之间既有很大 相似性,又存在区别:2)已知的目标域数据集(x,y) =>C= (20) u I 是精确的,但由于样本过少,不能构建出概率密度估 将(20)代入(19),该问题的对偶形式为: 计回归函数。 ma2(lex)12-2ce2+6.- 为了表征上述原则,首先生成样本数较多且能 u+1 精确表示概率密度分布均值为0、方差为1的源域 L立e(x)'p 数据集,需指出的是文章1.2.2节说明无偏置r-SVR p+1 与CC-MEB等价且概率密度函数可由CC-MEB中 心点组成,若源域有数据隐私保护的需要,还可通过 s.t∑y:=1 (21) 核心集技术,求得源域数据集的核心集,由少量核心 式中:(x:)p(x)=K(x,x),co由源域无偏 集元素表示源域CC-MEB的中心点,进行迁移学 置-SVR训练按式(16)获得,δ:由目标域样本按 习。另一方面,为了表示目标域与源域相近但不同, 式(14)获得。求解式(21)二次规划,按式(20) 目标域设置时对均值、方差进行漂移,分均值、方差、 获得中心点带入式(22)即可获得目标域概率密 均值方差均漂移3种情况,如表1所示。 表1数据源描述 度回归函数: Table 1 Description of the data source g(x)=w"o(x)=Ac"o(x)= 数据源 均值方差 ue,+∑e(x) 源域 0 1 0.1 1 入 (22) 目标域(均值漂移) u+1 一p(x) 目标域(方差漂移) 0 1.1 2 实验与分析 目标域(均值、方差漂移)0.1 1.1 由于隐私保护等原因,目标域获得信息量少且 2.1实验设置 精确,但不足以构建目标域概率密度函数。图1(a) 本文实验将本文所提算法与如下3个方面的回 虚线显示了均值为0、方差为1.1时目标域真实概率 归函数进行性能对比:1)直接使用源域数据构建概 密度分布图,图1(b)显示了此种情况下目标域自适 率密度回归函数:2)直接使用包含少量信息的目标 应学习效果图。图2将本文所提算法与另外3种训 域数据构建概率密度回归函数;3)使用源域、目标 练方法进行比较。 域数据共同构建概率密度回归函数。从而来体现本
MEB,概率密度函数由 CC⁃MEB 中心点表示。 在此 理论基础上,本文提出通过学习源域中心点将源域 知识传递给目标域,构造学习源域知识且与目标域 无偏置 v⁃SVR 等价的 CC⁃MEB,此 CC⁃MEB 的中心 点可用于目标域概率密度函数的建立。 学习源域中心点的 CC⁃MEB 原始问题如下: min c,R R 2 + μ‖c - c0‖2 s.t.‖φ(xi) - c‖2 + δi 2 ≤ R 2 (18) 引入拉格朗日乘子变量,在约束条件下构造式 (18)的拉格朗日函数: L = R 2 + μ‖c - c0‖2 + ∑ l i = 1 γi(‖φ(xi) - c‖2 + δi 2 - R 2 ) (19) 由最优化理论可知,式(19) 在鞍点处取极值, 在鞍点处 L 关于变量 c 和 R 的偏微分: ∂L ∂R = 2R - 2R∑ N i = 1 γi = 0 = > ∑ N i = 1 γi = 1 ∂L ∂c = 2μ‖c - c0‖ + 2∑ N i = 1 γi(φ(xi) - c) = 0 = > c = μ c0 + ∑ l i = 1 γiφ(xi) μ + 1 (20) 将(20)代入(19),该问题的对偶形式为: max γ ∑ N i = 1 (‖φ(xi)‖2 - 2μ c0 Tφ(xi) μ + 1 + δi 2 )γi - 1 μ + 1∑ l i = 1 ∑ l j = 1 γiγjφ(xi) Tφ(xj) s.t.∑γi = 1 (21) 式中: φ( xi)φ( xj) = K ~ ( xi,xj) , c0 由源域无偏 置 v⁃SVR 训练按式( 16)获得, δ i 由目标域样本按 式( 14)获得。 求解式( 21) 二次规划,按式( 20) 获得中心点带入式( 22) 即可获得目标域概率密 度回归函数: g(x) = w Tφ(x) = λ c Tφ(x) = λ μ c0 T + ∑ l i = 1 γiφ (xi) T μ + 1 φ(x) (22) 2 实验与分析 2.1 实验设置 本文实验将本文所提算法与如下 3 个方面的回 归函数进行性能对比:1)直接使用源域数据构建概 率密度回归函数; 2)直接使用包含少量信息的目标 域数据构建概率密度回归函数;3) 使用源域、目标 域数据共同构建概率密度回归函数。 从而来体现本 文所提算法的优势。 实验中将 DADE 方法与上述相关的方法进行性 能比较,以目标域测试集概率密度估计精度作为评价 指标,具体为: error = 1 N∑ N i = 1 (f(xi) - f ^ (xi)) 2 , 其中 xi 表示目标域测试集元素, f(xi) 表示 xi 的真实密度 值, f ^ (xi) 表示各算法所得 xi 概率密度估计值,N 值 为 500。 实验通过网格搜索方式确定最优参数,高斯 核函数的方差 h 在网格 {x ⁃ / 2 2 ,x - / 2,x - / 2,x - , 2 x - , 2x - ,2 2 x - } 中搜索选取, 其中 x - 为训练样本平均 2 范 数的平方根; λ 参数在网格{1,2,3,4,5,6,7,8,9,10} 中搜索选取; v 参数在网格{1×10 -4 ,1×10 -3 ,1×10 -2 , 1×10 -1 ,1}中搜索选取; μ 参数在网格{1,2,3,4,5,6, 7,8,9,10,15,20}中搜索选取。 实验环境为:Intel Core 2 2. 40 GHz CPU, 2. 39 GHz、1.94 GB RAM,Windows XP SP3, MATLAB 7.1。 2.2 实验结果与分析 为了利用源域知识弥补当前场景下信息过少造 成受训系统泛化能力下降之缺陷,模拟数据集的构 造需遵循以下原则:1)源域和目标域之间既有很大 相似性,又存在区别;2)已知的目标域数据集 (x,y) 是精确的,但由于样本过少,不能构建出概率密度估 计回归函数。 为了表征上述原则,首先生成样本数较多且能 精确表示概率密度分布均值为 0、方差为 1 的源域 数据集,需指出的是文章 1.2.2 节说明无偏置 v⁃SVR 与 CC⁃MEB 等价且概率密度函数可由 CC⁃MEB 中 心点组成,若源域有数据隐私保护的需要,还可通过 核心集技术,求得源域数据集的核心集,由少量核心 集元素表示源域 CC⁃MEB 的中心点,进行迁移学 习。 另一方面,为了表示目标域与源域相近但不同, 目标域设置时对均值、方差进行漂移,分均值、方差、 均值方差均漂移 3 种情况,如表 1 所示。 表 1 数据源描述 Table 1 Description of the data source 数据源 均值 方差 源域 0 1 目标域(均值漂移) 0.1 1 目标域(方差漂移) 0 1.1 目标域(均值、方差漂移) 0.1 1.1 由于隐私保护等原因,目标域获得信息量少且 精确,但不足以构建目标域概率密度函数。 图 1(a) 虚线显示了均值为 0、方差为 1.1 时目标域真实概率 密度分布图,图 1(b)显示了此种情况下目标域自适 应学习效果图。 图 2 将本文所提算法与另外 3 种训 练方法进行比较。 ·224· 智 能 系 统 学 报 第 10 卷
第2期 许敏,等:一种新颖的领域自适应概率密度估计器 .225. 0.4 0.40 源域 目标域真实 目标域真实 0.35 : 一…目标域 0.3 ·目标域已知 0.30 0.25 、 0.2 0.20f 0.15 0.1 0.10 0.05 0 -0.05 -2 0. 0 -2 0 x (b)目标域性能 (a)源域、目标域概率密度分布图 0.40 ·,目标域直实 0.4 源域 0.35 ”·源域日标域合并 目标域真实 0.30 0.3 …目标域 0.25 从=] ! 0.20 ! =3 0.2 =4 0.15 ! 0.10 0.1 0.05 0 0 -0.05 4 0 x -0.1 -2 0 2 (©)源域目标域合并性能 0.40 (b)自适应学习效果图 ·目标域真实 0.35 目标域+知识 图1均值为0、方差为1.1自适应学习效果图 0.30 Fig.I Charts of adaptive learning on the data set with 0.25 mean 0,variance 1.1 0.20 0.40 0.15 …目标域真实 0.35 0.10 --源域 0.30 0.05 0.25 0 ! -4 0 =0.20 0.15 (d)自适应学习性能 0.10 图2 原始图像和退化仿真图像 0.05 Fig.2 Performance comparison charts of different algorithms 0 -2 0 2 表2列出了设置目标域不同均值方差后各算法 的性能。 (a)源域性能 表2不同算法性能比较 Table 2 Performances comparison of different algorithms 源域 目标域 源域+日标域 源域知识+目标域 均值 方差 密度估计性能 密度估计性能 密度估计性能 密度估计性能 u值 0 1.1 2.2821×104 0.0032 2.2792×104 3.1255×106 0 1.2 7.9592×10+ 0.0029 7.9591×104 1.6095×10-9 3 0.1 1.7574×104 0.0032 1.7573×10 3.7635×10-7 8 0.2 1 7.0032×104 0.0035 7.0030×104 6.6461×10-5 20 0.1 1.1 3.7952×104 0.0025 3.2576×104 1.4511×10-6 5 0.2 1.2 0.0013 0.0041 0.0013 5.4453×106 > 生成均值为0、方差为1源域样本10000个,如 可获得。虚线表示均值为0、方差为1.1的目标域真 图1(a)所示,实线表示源域概率密度函数曲线,使 实概率密度函数曲线。由图1(a)可以看出,源域、 用核心集技术获得源域的核心集由13个空心圆表 目标域分布近似但不相同。图1(a)中5实点表示 示,源域知识只需知道模型参数和这13个样本点即 目标域已知信息,为了体现数据隐私保护的目的,文
(a) 源域、目标域概率密度分布图 (b)自适应学习效果图 图 1 均值为 0、方差为 1.1 自适应学习效果图 Fig.1 Charts of adaptive learning on the data set with mean 0, variance 1.1 (a)源域性能 (b)目标域性能 (c)源域目标域合并性能 (d)自适应学习性能 图 2 原始图像和退化仿真图像 Fig.2 Performance comparison charts of different algorithms 表 2 列出了设置目标域不同均值方差后各算法 的性能。 表 2 不同算法性能比较 Table 2 Performances comparison of different algorithms 均值 方差 源域 密度估计性能 目标域 密度估计性能 源域+目标域 密度估计性能 源域知识+目标域 密度估计性能 μ 值 0 1.1 2.282 1×10 -4 0.003 2 2.279 2×10 -4 3.125 5×10 -6 4 0 1.2 7.959 2×10 -4 0.002 9 7.959 1×10 -4 1.609 5×10 -6 2 0.1 1 1.757 4×10 -4 0.003 2 1. 757 3×10 -4 3.763 5×10 -7 8 0.2 1 7.003 2×10 -4 0.003 5 7.003 0×10 -4 6.646 1×10 -5 20 0.1 1.1 3.795 2×10 -4 0.002 5 3.257 6×10 -4 1.451 1×10 -6 5 0.2 1.2 0.001 3 0.004 1 0.001 3 5.445 3×10 -6 7 生成均值为 0、方差为 1 源域样本 10 000 个,如 图 1(a)所示,实线表示源域概率密度函数曲线,使 用核心集技术获得源域的核心集由 13 个空心圆表 示,源域知识只需知道模型参数和这 13 个样本点即 可获得。 虚线表示均值为 0、方差为 1.1 的目标域真 实概率密度函数曲线。 由图 1( a)可以看出,源域、 目标域分布近似但不相同。 图 1( a)中 5 实点表示 目标域已知信息,为了体现数据隐私保护的目的,文 第 2 期 许敏,等:一种新颖的领域自适应概率密度估计器 ·225·