工程科学学报 Chinese Journal of Engineering 基于空间近邻关系的非平衡数据重采样算法 李睿峰李文海孙艳丽吴阳勇 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng,LI Wen-hai,SUN Yan-li.WU Yang-yong 引用本文: 李睿峰,李文海,孙艳丽,吴阳勇.基于空间近邻关系的非平衡数据重采样算法).工程科学学报,2021,43(6:862-869.doi: 10.13374j.issn2095-9389.2020.04.05.002 LI Rui-feng,LI Wen-hai,SUN Yan-li,WU Yang-yong.Resampling algorithm for imbalanced data based on their neighbor relationship[J].Chinese Journal of Engineering,2021,43(6):862-869.doi:10.13374/j.issn2095-9389.2020.04.05.002 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2020.04.05.002 您可能感兴趣的其他文章 Articles you may be interested in 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报.2017,398:1244htps:1doi.org10.13374.issn2095-9389.2017.08.015 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报.2020.42(9:1209 https:/doi.org10.13374.issn2095-9389.2019.10.09.003 基于软超球体的高维非线性数据异常点识别算法 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear data 工程科学学报.2017,3910:1552htps1doi.0rg/10.13374j.issn2095-9389.2017.10.014 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报.2020,42(4:441 https:ldoi.org10.13374j.issn2095-9389.2019.09.12.007 数据驱动的卷取温度模型参数即时自适应设定算法 Data-driven adaptive setting algorithm for coiling temperature model parameter 工程科学学报.2020,42(6):778 https::/1doi.org/10.13374.issn2095-9389.2019.06.12.002 基于属性值集中度的分类数据聚类有效性内部评价指标 A new internal clustering validation index for categorical data based on concentration of attribute values 工程科学学报.2019,41(⑤):682 https:1doi.org/10.13374issn2095-9389.2019.05.015
基于空间近邻关系的非平衡数据重采样算法 李睿峰 李文海 孙艳丽 吴阳勇 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng, LI Wen-hai, SUN Yan-li, WU Yang-yong 引用本文: 李睿峰, 李文海, 孙艳丽, 吴阳勇. 基于空间近邻关系的非平衡数据重采样算法[J]. 工程科学学报, 2021, 43(6): 862-869. doi: 10.13374/j.issn2095-9389.2020.04.05.002 LI Rui-feng, LI Wen-hai, SUN Yan-li, WU Yang-yong. Resampling algorithm for imbalanced data based on their neighbor relationship[J]. Chinese Journal of Engineering, 2021, 43(6): 862-869. doi: 10.13374/j.issn2095-9389.2020.04.05.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002 您可能感兴趣的其他文章 Articles you may be interested in 基于聚类欠采样的集成不均衡数据分类算法 Imbalanced data ensemble classification based on cluster-based under-sampling algorithm 工程科学学报. 2017, 39(8): 1244 https://doi.org/10.13374/j.issn2095-9389.2017.08.015 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报. 2020, 42(9): 1209 https://doi.org/10.13374/j.issn2095-9389.2019.10.09.003 基于软超球体的高维非线性数据异常点识别算法 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear data 工程科学学报. 2017, 39(10): 1552 https://doi.org/10.13374/j.issn2095-9389.2017.10.014 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报. 2020, 42(4): 441 https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007 数据驱动的卷取温度模型参数即时自适应设定算法 Data-driven adaptive setting algorithm for coiling temperature model parameter 工程科学学报. 2020, 42(6): 778 https://doi.org/10.13374/j.issn2095-9389.2019.06.12.002 基于属性值集中度的分类数据聚类有效性内部评价指标 A new internal clustering validation index for categorical data based on concentration of attribute values 工程科学学报. 2019, 41(5): 682 https://doi.org/10.13374/j.issn2095-9389.2019.05.015
工程科学学报.第43卷.第6期:862-869.2021年6月 Chinese Journal of Engineering,Vol.43,No.6:862-869,June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002;http://cje.ustb.edu.cn 基于空间近邻关系的非平衡数据重采样算法 李睿峰四,李文海,孙艳丽,吴阳勇 海军航空大学.烟台264001 ☒通信作者,E-mail:dongzhil110@foxmail.com 摘要为了提高非平衡数据集的分类精度,提出了一种基于样本空间近邻关系的重采样算法.该方法首先根据数据集中少 数类样本的空间近邻关系进行安全级别评估,根据安全级别有指导的采用合成少数类过采样技术(Synthetic minority oversampling technique,.SMOTE)进行升采样;然后对多数类样本依据其空间近邻关系计算局部密度,从而对多数类样本密集 区域进行降采样处理.通过以上两种手段可以均衡测试数据集,并控制数据规模防止过拟合,实现对两类样本分类的均衡化. 采用十折交叉验证的方式产生训练集和测试集,在对训练集重采样之后,以核超限学习机作为分类器进行训练,并在测试集 上进行验证。在UCI非平衡数据集和电路故障诊断实测数据上的实验结果表明,所提方法在整体上优于其他重采样算法. 关键词非平衡数据:近邻关系;重采样:局部密度;分类 分类号TP206.1 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng.LI Wen-hai.SUN Yan-li,WU Yang-yong Naval Aviation University,Yantai 264001,China Corresponding author,E-mail:dongzhil110@foxmail.com ABSTRACT The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications.The minority samples in such applications usually contain important information.This information plays an important role in data analysis.At present,two methods(improved algorithm and data set reconstruction)are used in machine learning and data mining to address the data set imbalance.Data set reconstruction is also known as the resampling method,which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used.As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information,thus reducing the classification accuracy.A reasonable oversampling and undersampling algorithm are the core of the resampling method.To improve the classification accuracy of imbalanced data sets,a resampling algorithm based on the neighbor relationship of sample space was proposed.This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level.Then,the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area.By the above two means,the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories.The training set and test set were generated via the method of 5 x 10 fold cross validation.After resampling the training set, the kernel extreme learning machine (KELM)was used as the classifier for training,and the test set was used for verification.The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms. 收稿日期:2020-04-05 基金项目:军内科研项目“新一代航空电子装备测试关键技术研究”资助项目(4172122113R)
基于空间近邻关系的非平衡数据重采样算法 李睿峰苣,李文海,孙艳丽,吴阳勇 海军航空大学,烟台 264001 苣通信作者,E-mail:dongzhi1110@foxmail.com 摘 要 为了提高非平衡数据集的分类精度,提出了一种基于样本空间近邻关系的重采样算法. 该方法首先根据数据集中少 数类样本的空间近邻关系进行安全级别评估,根据安全级别有指导的采用合成少数类过采样技术(Synthetic minority oversampling technique,SMOTE)进行升采样;然后对多数类样本依据其空间近邻关系计算局部密度,从而对多数类样本密集 区域进行降采样处理. 通过以上两种手段可以均衡测试数据集,并控制数据规模防止过拟合,实现对两类样本分类的均衡化. 采用十折交叉验证的方式产生训练集和测试集,在对训练集重采样之后,以核超限学习机作为分类器进行训练,并在测试集 上进行验证. 在 UCI 非平衡数据集和电路故障诊断实测数据上的实验结果表明,所提方法在整体上优于其他重采样算法. 关键词 非平衡数据;近邻关系;重采样;局部密度;分类 分类号 TP206.1 Resampling algorithm for imbalanced data based on their neighbor relationship LI Rui-feng苣 ,LI Wen-hai,SUN Yan-li,WU Yang-yong Naval Aviation University, Yantai 264001, China 苣 Corresponding author, E-mail: dongzhi1110@foxmail.com ABSTRACT The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications. The minority samples in such applications usually contain important information. This information plays an important role in data analysis. At present, two methods (improved algorithm and data set reconstruction) are used in machine learning and data mining to address the data set imbalance. Data set reconstruction is also known as the resampling method, which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used. As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information, thus reducing the classification accuracy. A reasonable oversampling and undersampling algorithm are the core of the resampling method. To improve the classification accuracy of imbalanced data sets, a resampling algorithm based on the neighbor relationship of sample space was proposed. This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level. Then, the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area. By the above two means, the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories. The training set and test set were generated via the method of 5 × 10 fold cross validation. After resampling the training set, the kernel extreme learning machine (KELM) was used as the classifier for training, and the test set was used for verification. The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms. 收稿日期: 2020−04−05 基金项目: 军内科研项目“新一代航空电子装备测试关键技术研究”资助项目(4172122113R) 工程科学学报,第 43 卷,第 6 期:862−869,2021 年 6 月 Chinese Journal of Engineering, Vol. 43, No. 6: 862−869, June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002; http://cje.ustb.edu.cn
李睿峰等:基于空间近邻关系的非平衡数据重采样算法 863. KEY WORDS imbalanced data;neighbor relationship;resample;local density;classification 非平衡数据的分类问题已经成为当今许多数 免的会导致噪声点增加并损失数据原有信息,从 据密集型应用中一个关键的研究方向,例如信用 而降低分类精度,因此合理的过采样和欠采样 卡欺诈数据冈、网络入侵)、金融工程、生物医学 方法是重采样方法的核心.为了对数据集做有效 数据分析)和设备故障检测等.这类应用中的 的均衡化处理,本文提出了一种基于样本空间近 少数类样本通常蕴含重要的信息,是数据分析的 邻关系的重采样(Resampling based on neighbour 重要目标,其已成为数据挖掘研究的热点之一仞 Relationship,RBNR)方法.本方法首先根据数据集 例如在设备故障检测应用中,不平衡的测试数据 中少数类样本的空间近邻关系进行安全级别评估, 广泛存在,通常正常样本的数据量要远远大于故 根据安全级别有指导的进行SMOTE升采样;然后 障样本图由此导致使用传统的故障诊断方法训练 对多数类样本依据其空间近邻关系计算局部密度, 所得的结果分类器对正常样本产生很高的检测 从而对多数类样本密集区域进行降采样处理.采 率,对故障样本的检测和隔离效果却很差,而故障 用十折交叉验证的方式产生训练集和测试集,在 样本的检测率在故障诊断领域中更有意义,也更 对训练集进行重采样之后,以核超限学习机(Kernel 为重要 extreme learning machine,KELM)2作为分类器进 目前,机器学习和数据挖掘领域针对不平衡 行训练,并在测试集上进行了验证 数据集的处理思路例主要有两大类:改进算法0 以适应非平衡数据集,或者对数据集进行重构山 1基本算法与相关定义 以适应现有的分类算法.改进算法是指在算法层 1.1核超限学习机 面进行改进以适应非平衡学习问题,如代价敏感 学习、支持向量机(Support vector machine, 给定训练集D={(xy,其中x∈Rd表示 训练样本,d∈R表示x;的维数,n为样本总数; SVM)、集成学习)等.通过修改算法中的代价敏 y:=y,…ymJT为与x;对应的理想输出向量,其中 感信息以适应数据不平衡,但也面临着一些问题, m∈R表示y的维数.此时,ELM模型定义为 如修改算法后如何避免分类性能恶化,多类分类 问题的代价敏感信息确定困难等数据集重构 腰+c∑s 也称为重采样方法,它在不修改分类算法的情况 i=1 下修改训练数据集的大小,可容易地应用于任何 s.t.h(xB=y-5i,i=1,2,…,n (1) 分类算法.重采样方法利用少数类样本过采样和 其中,Il和2分别表示矩阵的F范数和向量的 多数类样本欠采样两种手段阿,人为调整实例数 2范数;h(x)=[h(x),…,hu(x]表示隐层神经元对 量来平衡数据集的分布.欠采样主要包括随机欠 输入样本x的映射向量;B=B1,…,T是模型输 抽样6、单边选择忉、近邻清理和基于欧氏距 出权重向量;L代表隐层神经元个数;=[, 离的随机欠抽样9等方法,过采样主要有随机插 2,…,mJT表示对应于x的训练误差;C是正则化 值、先验复制和合成少数类过采样技术P0-别 参数,并且C∈R+ Synthetic minority oversampling technique,SMOTE) 令Y=y1,…,ynJT,基于KKT优化条件求解式 等方法.由于单独采用欠采样方法可能导致样本 (1)的优化问题,可得输出权重: 信息丢失,单独采用过采样方法可能导致分类器 B=HT(C-I+HHT)Y (2) 出现增加时间开销、过拟合现象等问题,于是人们 较多采用混合采样的非均衡数据处理方法).包括 其中,隐层输出矩阵H=[h(x)T,…,h(xn)TT,I表示 谷琼等22提出的一种基于SMOTE-Clustering的混 单位矩阵 合采样算法;冯宏伟等m提出的基于“变异系数” 最终,对于输入z,ELM的输出为: 的边界混合采样方法(Boundary mixed sampling, (3) BMS);陶新民等2]提出的基于随机欠采样 =e=ahr+aHy (Random under--sampling,.RU)与SMOTE相结合的 应用Mercer条件定义核矩阵2=HHT,i,)= SVM算法等 h(x)h(x)T=k(x,x)表示中第i行第j列的元素 由于人为地增加样本或者减少样本都不可避 应用基于核函数的隐式映射代替传统的显式特征
KEY WORDS imbalanced data;neighbor relationship;resample;local density;classification 非平衡数据的分类问题已经成为当今许多数 据密集型应用中一个关键的研究方向[1] ,例如信用 卡欺诈数据[2]、网络入侵[3]、金融工程[4]、生物医学 数据分析[5] 和设备故障检测[6] 等. 这类应用中的 少数类样本通常蕴含重要的信息,是数据分析的 重要目标,其已成为数据挖掘研究的热点之一[7] . 例如在设备故障检测应用中,不平衡的测试数据 广泛存在,通常正常样本的数据量要远远大于故 障样本[8] . 由此导致使用传统的故障诊断方法训练 所得的结果分类器对正常样本产生很高的检测 率,对故障样本的检测和隔离效果却很差,而故障 样本的检测率在故障诊断领域中更有意义,也更 为重要. 目前,机器学习和数据挖掘领域针对不平衡 数据集的处理思路[9] 主要有两大类:改进算法[10] 以适应非平衡数据集,或者对数据集进行重构[1] 以适应现有的分类算法. 改进算法是指在算法层 面进行改进以适应非平衡学习问题,如代价敏感 学 习 [11]、 支 持 向 量 机 [12] ( Support vector machine, SVM)、集成学习[13] 等. 通过修改算法中的代价敏 感信息以适应数据不平衡,但也面临着一些问题, 如修改算法后如何避免分类性能恶化,多类分类 问题的代价敏感信息确定困难等[14] . 数据集重构 也称为重采样方法,它在不修改分类算法的情况 下修改训练数据集的大小,可容易地应用于任何 分类算法. 重采样方法利用少数类样本过采样和 多数类样本欠采样两种手段[15] ,人为调整实例数 量来平衡数据集的分布. 欠采样主要包括随机欠 抽样[16]、单边选择[17]、近邻清理[18] 和基于欧氏距 离的随机欠抽样[19] 等方法,过采样主要有随机插 值、先验复制[14] 和合成少数类过采样技术[20−21] (Synthetic minority oversampling technique,SMOTE) 等方法. 由于单独采用欠采样方法可能导致样本 信息丢失,单独采用过采样方法可能导致分类器 出现增加时间开销、过拟合现象等问题,于是人们 较多采用混合采样的非均衡数据处理方法[7] . 包括 谷琼等[22] 提出的一种基于 SMOTE-Clustering 的混 合采样算法;冯宏伟等[7] 提出的基于“变异系数” 的边界混合采样方法 ( Boundary mixed sampling, BMS) ; 陶 新 民 等 [23] 提 出 的 基 于 随 机 欠 采 样 (Random under-sampling,RU)与 SMOTE 相结合的 SVM 算法等. 由于人为地增加样本或者减少样本都不可避 免的会导致噪声点增加并损失数据原有信息,从 而降低分类精度,因此合理的过采样和欠采样 方法是重采样方法的核心. 为了对数据集做有效 的均衡化处理,本文提出了一种基于样本空间近 邻关系的重采样 ( Resampling based on neighbour Relationship,RBNR)方法. 本方法首先根据数据集 中少数类样本的空间近邻关系进行安全级别评估[24] , 根据安全级别有指导的进行 SMOTE 升采样;然后 对多数类样本依据其空间近邻关系计算局部密度[7] , 从而对多数类样本密集区域进行降采样处理. 采 用十折交叉验证的方式产生训练集和测试集,在 对训练集进行重采样之后,以核超限学习机(Kernel extreme learning machine,KELM) [25] 作为分类器进 行训练,并在测试集上进行了验证. 1 基本算法与相关定义 1.1 核超限学习机 DTr = {(xi , yi)} n i=1 xi ∈ R d d ∈ R xi n yi = [yi1,··· , yim] T xi m ∈ R yi 给定训练集 ,其中 表示 训练样本 , 表 示 的维数 , 为样本总数 ; 为与 对应的理想输出向量,其中 表示 的维数. 此时,ELM 模型定义为 min β,ξ 1 2 ∥β∥ 2 F +C 1 2 ∑n i=1 ∥ξi∥ 2 2 , s.t. h(xi)β = yi −ξi ,i = 1,2,··· ,n (1) || · ||F || · ||2 h(xi) = [h1(xi),··· ,hL(xi)] xi β = [β1,··· , βL] T ξi = [ξi1, ξi2,··· , ξim] T xi C C ∈ R + 其中, 和 分别表示矩阵的 F 范数和向量的 2 范数; 表示隐层神经元对 输入样本 的映射向量; 是模型输 出权重向量 ; L 代表隐层神经元个数 ; 表示对应于 的训练误差; 是正则化 参数,并且 . Y = [y1,··· , yn] 令 T ,基于 KKT 优化条件求解式 (1)的优化问题,可得输出权重: β = H T ( C −1 I+ HHT )−1 Y (2) H = [h(x1) T ,··· , h(xn) T ] T 其中,隐层输出矩阵 ,I 表示 单位矩阵. 最终,对于输入 z,ELM 的输出为: f(z) = h(z)β=h(z)H T ( I C + HH T )−1 Y (3) Ω = HHT δ(i, j) = h(xi)· h(xj) T = k(xi , xj) Ω 应用 Mercer 条件定义核矩阵 , 表示 中第 i 行第 j 列的元素. 应用基于核函数的隐式映射代替传统的显式特征 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 863 ·
864 工程科学学报,第43卷,第6期 映射,可得ELM的核化形式(KELM),其输出为: 2RBNR算法 f(2)=h(2)H(C-I+H)Y RBNR重采样算法首先评估原始数据集中少 k(x1,Z) T 数类样本的安全级别,基于其安全级别进行SMOTE (C1+2)y (4) 升采样,从而增加少数类样本的占比;对于多数类 I k(xn,Z) 样本,寻找出局部密度较大的区域,样本量二倍于 与传统ELM相比,KELM无需设置映射函数 降采样数量,进行随机减采样,从而对多数类子集 和隐层神经元数量,人为干预更少,能有效避免隐 进行约简.算法流程如图1所示 层神经元随机赋值导致的泛化性和稳定性降低的 问题.同时,KELM又继承了传统ELM在处理分 START 类任务上的优势:①以最小化训练误差和输出权 重范数为训练目标,相对于其它传统人工神经网 Original data 络(Artificial neural network,ANN)算法具有更高 的泛化性能,从而抑制过拟合:②简洁高效的 Minority samples Majority samples 隐层结构能够大量压缩算法运行时间和内存空间 开支26-2刃 Security level Local density 1.2安全级别 每个少数类样本x的安全级别slx定义为x的 Sample pairs for linear Dense area interpolation K个最近邻样本中少数类样本的个数安全级 Twice as many samples as 别越大,说明该样本越靠近少数类的中心:安全级 SMOTE algorithm the reduced sample size 别越小,说明该样本越靠近分类边界.安全级别 为0,则几乎可将该样本视为噪声. Oversample Under-sample 对少数类样本进行升采样,应当尽可能的接 近样本原始分布,因此以安全级别指导SMOTE方 Resampled data 法对少数类样本进行升采样 1.3局部密度 END 在非均衡数据中正负样本数量差异较大,在 图1RBNR算法流程图 对少数类样本进行升采样时增加了样本总量.于 Fig.1 Flowchart of the RBNR algorithm 是,为控制数据集规模,可以适当减少样本密集区 算法具体描述如下: 域的多数类样本.因此,采用局部密度的概念2] 算法1RBNR算法 识别非均衡数据中多数类样本的密集区域. 输入: 定义1(k-距离)设D为数据集,k为任意正整 1)具有N个样本的训练数据集D1:=x,)% 数,定义对象p与对象o∈D之间的距离k diste(p片 其中x∈R表示训练样本,deR表示x的维数, dist(p,o)为对象p的k-距离,满足条件: ∈T={-1,1为x对应的样本类别标签 ①存在不少于k个对象q∈D八{pP,使得dist(p,q)≤ 2)Nma:多数类样本量;Nmin:少数类样本量 dist(p,o); 3)k:用于评价安全级别的近邻数量; ②存在不多于k-l个对像q∈D八{P},使得dist(p,q)水 k2:用于计算局部密度的近邻数量 dist(p,o). 算法主体: 定义2(k-近邻)定义所有与p的距离小于等 Stepl根据两类样本的数量差确定升、降采 于k-距离的对象为对象p的k←近邻.即: 样量nup=nldown=[N/2]-Nmin q={q∈D八{pdist(p,q)≤k_dist(p)l (5) Step2根据样本间的欧氏距离,计算每个少 定义3(局部密度)对象p与其k-近邻距离均 数类样本k-近邻中少数类的个数,进而得到其安 值的倒数定义为该点的局部密度: 全级别slx,排除slx=O的样本并排序 1 Step3以安全级别由高到低的样本和安全级 Ldp)=dist(.p9)/M-isp) (6) 别由低到高的样本依次构成用于插值的样本对. 其中,Vk-dist((p)表示对象p的k-近邻个数 Step4遍历Step3中的样本对,按SMOTE方
映射,可得 ELM 的核化形式(KELM),其输出为: f(z) = h(z)H T ( C −1 I+ HHT )−1 Y = k(x1,z) . . . k(xn,z) T ( C −1 I+Ω )−1 Y (4) 与传统 ELM 相比,KELM 无需设置映射函数 和隐层神经元数量,人为干预更少,能有效避免隐 层神经元随机赋值导致的泛化性和稳定性降低的 问题. 同时,KELM 又继承了传统 ELM 在处理分 类任务上的优势:①以最小化训练误差和输出权 重范数为训练目标,相对于其它传统人工神经网 络 ( Artificial neural network, ANN)算法具有更高 的泛化性能,从而抑制过拟合[14] ;②简洁高效的 隐层结构能够大量压缩算法运行时间和内存空间 开支[26−27] . 1.2 安全级别 xi slxi 每个少数类样本 的安全级别 定义为 xi 的 K 个最近邻样本中少数类样本的个数[24] . 安全级 别越大,说明该样本越靠近少数类的中心;安全级 别越小,说明该样本越靠近分类边界. 安全级别 为 0,则几乎可将该样本视为噪声. 对少数类样本进行升采样,应当尽可能的接 近样本原始分布,因此以安全级别指导 SMOTE 方 法对少数类样本进行升采样. 1.3 局部密度 在非均衡数据中正负样本数量差异较大,在 对少数类样本进行升采样时增加了样本总量. 于 是,为控制数据集规模,可以适当减少样本密集区 域的多数类样本. 因此,采用局部密度的概念[28] 识别非均衡数据中多数类样本的密集区域. 定义 1(k–距离)设 D 为数据集,k 为任意正整 数,定义对象 p 与对象 o∈D 之间的距离 k_dist(p)= dist(p,o) 为对象 p 的 k–距离,满足条件: ①存在不少于k 个对象q∈D\{p},使得dist(p,q)≤ dist(p,o); ②存在不多于k–1 个对象q∈D\{p},使得dist(p,q)< dist(p,o). 定义 2(k–近邻)定义所有与 p 的距离小于等 于 k–距离的对象为对象 p 的 k–近邻. 即: q = {q ∈ D\{p}|dist(p,q) ⩽ k_dist(p)} (5) 定义 3(局部密度)对象 p 与其 k–近邻距离均 值的倒数定义为该点的局部密度: Ld(p) = 1 ∑ dist(p,q)/Nk-dist(p) (6) 其中, Nk-dist(p) 表示对象 p 的 k–近邻个数. 2 RBNR 算法 RBNR 重采样算法首先评估原始数据集中少 数类样本的安全级别,基于其安全级别进行 SMOTE 升采样,从而增加少数类样本的占比;对于多数类 样本,寻找出局部密度较大的区域,样本量二倍于 降采样数量,进行随机减采样,从而对多数类子集 进行约简. 算法流程如图 1 所示. Original data Security level Local density Twice as many samples as the reduced sample size Under-sample SMOTE algorithm Oversample Sample pairs for linear Dense area interpolation START END Minority samples Majority samples Resampled data 图 1 RBNR 算法流程图 Fig.1 Flowchart of the RBNR algorithm 算法具体描述如下: 算法 1 RBNR 算法 输入: DTr = {(xi ,ti)} N i=1 xi ∈ R d d ∈ R xi ti ∈ T = {−1, 1} xi 1) 具有 N 个样本的训练数据集 , 其 中 表示训练样本 , 表 示 的维数 , 为 对应的样本类别标签. 2) Nmaj :多数类样本量; Nmin :少数类样本量. 3) k1:用于评价安全级别的近邻数量; k2:用于计算局部密度的近邻数量. 算法主体: nup = ndown = [N/2]−Nmin Step1 根据两类样本的数量差确定升、降采 样量 . slxi slxi = 0 Step2 根据样本间的欧氏距离,计算每个少 数类样本 k1–近邻中少数类的个数,进而得到其安 全级别 ,排除 的样本并排序. Step3 以安全级别由高到低的样本和安全级 别由低到高的样本依次构成用于插值的样本对. Step4 遍历 Step3 中的样本对,按 SMOTE 方 · 864 · 工程科学学报,第 43 卷,第 6 期
李睿峰等:基于空间近邻关系的非平衡数据重采样算法 865 法依次进行插值,遍历结束则进行第二轮插值,直 其中,PA=Rc为真正率,NA=TN/(TN+FP)为真负率 到生成nup个新样本. 3.2UCI数据集 Step5将新样本添加到原始数据集中 UCI数据库是机器学习领域中使用最广泛的 Step6对于每个多数类样本,根据2-近邻计 公开数据库之一,为客观验证所提算法的整体性 算局部密度(详见1.3节),并从大到小排序 能,选取其中具有非平衡性特征的数据集进行实 Step7按排序结果选取前2 ndown个样本,从中 验,数据集描述如表2 随机删除ndown个样本 表2选用的UCI数据集 Step8得到少数类升采样和多数类降采样后 Table 2 UCI data set 的新数据集 Data set Dimension Minority /majority Imbalance ratio 3实验分析 CTG 21 176/1655 1:9.403 Diabetes 268/500 1:1.866 3.1评价指标 Glass 9 42/172 14.095 在非平衡分类问题的研究中,通常基于混淆 Wine 48/130 1:2.708 矩阵(如表1)来评价算法的性能可,表1中,TP FN,FP,TN均表示个数. 其中:CTG数据集为胎儿心电图数据,以“正 常"为多数类,“病态”为少数类;Diabetes为糖尿病 表1混淆矩阵 Table 1 Confusion matrix 人的身体监测数据集,直接将两个类别分别作为 多数类和少数类:Glass为玻璃类型分类数据集, Category Classified as minority Classified as majority 以前四类作为多数类,后两类作为少数类;wine数 Minority TP FN Majority FP TN 据集为三个不同品种的葡萄酒化学分析结果,将 第1、2类合并为多数类,第3类作为少数类 (1)召回率(又称查全率),表示正类(少数类) 33实验设计 样本被预测正确的比例,即 (1)电路选型 电子电路的测试和故障诊断技术对提升电子 Rc=TP/(TP+FN) (7) 产品的可靠性、降低生产成本等方面具有重要意 (2)F-value评价少数类的分类精度,定义如下: 义,因此实验选取串联稳压电路(图2)作为应用 F-value=(1+a2).Rc.PR/(a2.Rc+PR) (8) 案例来分析所提方法在电子电路故障诊断中的性 其中,PR=TP/(TP+FP)为少数类样本的查准率(又 能.该电路包含20个可更换单元,共可产生58个 称为精准率).通常令调节参数α=1. 硬故障,即各个元器件上的短路和开路故障.在输 (3)G-mean用以衡量算法对少数类和多数类 入端施加信号幅度为10V、频率为50Hz的正弦 进行分类的均衡程度,定义如下: 波信号,从8个测试点上收集稳态电压信息,取电 G-mean =PA.NA (9) 压值特征作为原始测试数据 Triode 1 2N3906 in Source Resistor 1 Triode 2 ⑦AC 卡 k Resistor 7 Resistor 4 Resistor 5 1.8k 2N3906 10V U820Q J3600 J1.05k Diode I Diode 2 50Hz1N4007 1N4007 2 Load Resistor Resistor 2 Triode3 Triode 4 1002 Diode 4 Diode3 2.7k0 2N3906 2N3906 Capacitor 3 1N4007 1N4007 6 470uF Capacitor 1 Capacitor 2 Diode 5 Resistor 6 470μF 100μF Resistor 8 J1.5k2 30Ω 1N4096 Resistor 3 1 图2串联稳压电路 Fig.2 Serial regulating circuit
nup 法依次进行插值,遍历结束则进行第二轮插值,直 到生成 个新样本. Step5 将新样本添加到原始数据集中. Step6 对于每个多数类样本,根据 k2−近邻计 算局部密度(详见 1.3 节),并从大到小排序. 2ndown ndown Step7 按排序结果选取前 个样本,从中 随机删除 个样本. Step8 得到少数类升采样和多数类降采样后 的新数据集. 3 实验分析 3.1 评价指标 在非平衡分类问题的研究中,通常基于混淆 矩阵(如表 1)来评价算法的性能[7] ,表 1 中 ,TP, FN,FP,TN 均表示个数. 表 1 混淆矩阵 Table 1 Confusion matrix Category Classified as minority Classified as majority Minority TP FN Majority FP TN (1)召回率(又称查全率),表示正类(少数类) 样本被预测正确的比例,即 RC = TP/(TP+FN) (7) (2)F-value 评价少数类的分类精度,定义如下: F-value = (1+α 2 )·RC · PR/(α 2 ·RC + PR) (8) PR = TP/(TP+FP) α = 1 其中, 为少数类样本的查准率(又 称为精准率). 通常令调节参数 . (3)G-mean 用以衡量算法对少数类和多数类 进行分类的均衡程度,定义如下: G-mean = √ PA ·NA (9) 其中, PA = RC 为真正率, NA = TN/(TN+FP) 为真负率. 3.2 UCI 数据集 UCI 数据库是机器学习领域中使用最广泛的 公开数据库之一,为客观验证所提算法的整体性 能,选取其中具有非平衡性特征的数据集进行实 验,数据集描述如表 2. 表 2 选用的 UCI 数据集 Table 2 UCI data set Data set Dimension Minority /majority Imbalance ratio CTG 21 176/1655 1:9.403 Diabetes 8 268/500 1:1.866 Glass 9 42/172 1:4.095 Wine 13 48/130 1:2.708 其中:CTG 数据集为胎儿心电图数据,以“正 常”为多数类,“病态”为少数类;Diabetes 为糖尿病 人的身体监测数据集,直接将两个类别分别作为 多数类和少数类;Glass 为玻璃类型分类数据集, 以前四类作为多数类,后两类作为少数类;Wine 数 据集为三个不同品种的葡萄酒化学分析结果,将 第 1、2 类合并为多数类,第 3 类作为少数类. 3.3 实验设计 (1)电路选型. 电子电路的测试和故障诊断技术对提升电子 产品的可靠性、降低生产成本等方面具有重要意 义[29] ,因此实验选取串联稳压电路(图 2)作为应用 案例来分析所提方法在电子电路故障诊断中的性 能. 该电路包含 20 个可更换单元,共可产生 58 个 硬故障,即各个元器件上的短路和开路故障. 在输 入端施加信号幅度为 10 V、频率为 50 Hz 的正弦 波信号,从 8 个测试点上收集稳态电压信息,取电 压值特征作为原始测试数据. Capacitor 1 470 μF Source AC 10 V 50 Hz in 1 0 1 Triode 1 2N3906 Resistor 1 1.8 kΩ Diode 1 1N4007 Diode 2 1N4007 Diode 4 1N4007 Diode 3 1N4007 Capacitor 2 100 μF Resistor 2 2.7 kΩ Triode 2 2N3906 Resistor 7 820 Ω Resistor 4 360 Ω Resistor 8 30 Ω Diode 5 1N4096 Resistor 3 1 Ω Resistor 5 1.05 kΩ Resistor 6 1.5 kΩ Capacitor 3 470 μF Load Resistor 100 Ω Triode 3 2N3906 Triode 4 2N3906 + + + 2 3 5 6 7 8 4 图 2 串联稳压电路 Fig.2 Serial regulating circuit 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 865 ·