聚类分析
1 聚类分析
§1什么是聚类分析 例对10位应聘者做智能检验。3项指标X,Y 和乙分别表示数学推理能力,空间想象能力和语 言理解能力。其得分如下,选择合适的统计方 法对应聘者进行分类 应聘者12345678910 28181121262016142422 XYZ 29232223292322232927 28181622262222242424
2 例 对10位应聘者做智能检验。3项指标X,Y 和Z分别表示数学推理能力,空间想象能力和语 言理解能力。其得分如下,选择合适的统计方 法对应聘者进行分类。 应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 §1 什么是聚类分析
Name of Observat ion or cluster 10 0.000.050.100.150.200.250.300.350.400.450.500.550.600.650.70 Semi-Part ial R-Squared
3
我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和 (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(2923)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由 此可见一般,分类可能是合理的,欧氏距离很 大的应聘者没有被聚在一起 由此,我们的问题是如何来选择样品间相 似的测度指标,如何将有相似性的类连接起来?
4 我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由 此可见一般,分类可能是合理的,欧氏距离很 大的应聘者没有被聚在一起。 由此,我们的问题是如何来选择样品间相 似的测度指标,如何将有相似性的类连接起来?
聚类分析根据一批样品的许多观测 指标,按照一定的数学公式具体地计算 些样品或一些参数(指标)的相似程度, 把相似的样品或指标归为一类 思考:样本点之间按什么刻画相似程度 思考:样本点和小类之间按什么刻画相似程度 思考:小类与小类之间按什么刻画相似程度
5 聚类分析根据一批样品的许多观测 指标,按照一定的数学公式具体地计算 一些样品或一些参数(指标)的相似程度, 把相似的样品或指标归为一类。 思考:样本点之间按什么刻画相似程度 思考:样本点和小类之间按什么刻画相似程度 思考:小类与小类之间按什么刻画相似程度