1.2 模式识别系统1.2.1简例:建立感性认识以癌细胞识别为例,了解机器识别的全过程1.信息输入与数据获取将显微细胞图像转换成数字化细胞图像,是计算机分析的原始数据基础,灰度数字图像浆C的像素值反映光密度的大小。核N背景B灰度图象经过染色处理过的彩色图象数字化显微细胞图像
1.2 模式识别系统 1.2.1 简例:建立感性认识 以癌细胞识别为例,了解机器识别的全过程。 1. 信息输入与数据获取 将显微细胞图像转换成数字化细胞图像,是计算机分析的原 始数据基础。 数字化显微细胞图像 经过染色处理过的彩色图象 灰度图象 核N 浆C 背景B 灰度数字图像 的像素值反映光密 度的大小
2.数字化细胞图像的预处理与区域划分预处理的目的:(1)去除在数据获取时引入的噪声与干扰(2)去除所有夹杂在背景上的次要图像,突出主要的待识别的细胞图像。例:平滑、图像增强等数字图像处理技术。区域划分的目的:找出边界,划分出三个区域,为特征抽取做准备
2. 数字化细胞图像的预处理与区域划分 预处理的目的: (1)去除在数据获取时引入的噪声与干扰。 (2)去除所有夹杂在背景上的次要图像,突出主要的待识别 的细胞图像。 例:平滑、图像增强等数字图像处理技术。 区域划分的目的: 找出边界,划分出三个区域,为特征抽取做准备
核N浆CT疑似肿瘤细胞检测的边缘设灰度阈值为T和T,,图像中某像素的灰度值为T,则T≥T,的点属于胞核区;T<T.的点属于背景区;T≤T< T,的点属于胞浆区;
设灰度阈值为Tc和Tn,图像中某像素的灰度值为Ti,则: Ti ≥ Tn的点属于胞核区; Ti < Tc的点属于背景区; Tc≤Ti< Tn的点属于胞浆区; 检测的边缘 Tn Tc 疑似肿瘤细胞 Tc Tn 核N 浆C
3.细胞特征的抽取、选择和提取目的:为了建立各种特征的数学模型,以用于分类。①抽取特征:原始采集数据,第一手资料,特征数据量大是特征选择和提取的依据。例:对一个细胞抽取33个特征,建立一个33维的空间X,每个细胞可通过一个33维随机向量表示,记为:X =[xi,X2,"",X33]即把一个物理实体“细胞”变成了一个数学模型“33维随机向量”,也即33维空间中的一点。②特征选择:在原始特征基础上选择一些主要特征作为判别用的特征。③特征提取:采用某种变换技术,得出数目上比原来少的综合特征作为分类用,称为特征维数压缩,习惯上亦称特征提取
例:对一个细胞抽取33个特征 ,建立一个33维的空间X,每个细 胞可通过一个33维随机向量表示,记为: T 1 2 33 X = [x , x , , x ] 即把一个物理实体“细胞”变成了一个数学模型“33维随机 向量”,也即33维空间中的一点。 3. 细胞特征的抽取、选择和提取 目的:为了建立各种特征的数学模型,以用于分类。 ① 抽取特征 :原始采集数据,第一手资料,特征数据量大。 是特征选择和提取的依据。 ② 特征选择:在原始特征基础上选择一些主要特征作为判别 用的特征。 ③ 特征提取:采用某种变换技术,得出数目上比原来少的综 合特征作为分类用,称为特征维数压缩,习惯上亦称特征提取
例:有五个特征xi×2,X3,×4,s,以及变换)、g(),则可有:Y2 = g(x1,X2,X3,X4,Xsi = f(xi,X2,X3,X4,Xs)结果:X空间中的向量X=[,X2,X,4,]变成Y空间的向量Y=[,]即:特征向量由5维降为2维。4.判别分类(1)气管细胞97个,识别错误率为7.2%。(2)肺细胞166个,识别错误率为18%。判别的好坏通过错误率给出,不同错误的代价和风险不同
例:有五个特征 x1 , x2 , x3 , x4 , x5 ,以及变换f(·)、g(·) ,则可有: ( ) ( ) 1 1 2 3 4 5 2 1 2 3 4 5 y = f x , x , x , x , x y = g x , x , x , x , x 结果: X 空间中的向量 变成 Y 空间的向量 T 1 2 3 4 5 X = [x , x , x , x , x ] T 1 2 Y = [y , y ] 即:特征向量由5维降为2维。 4. 判别分类 (1)气管细胞97个,识别错误率为7.2% 。 (2)肺细胞166个,识别错误率为18% 。 判别的好坏通过错误率给出,不同错误的代价和风险不同