蕨类植物茎轴几何形态的分类与进化 王昕张昊鲁伯埙 维管植物茎軸的几何形态发生与进化是一个有趣的问题。我们以西天目山和浙西大峡谷常见的蕨类植物为对象,通过 对采集到的14个种共计45个标本进行测量以及教量化和模型化分析,发现蕨类植物三大类群的维管轴几何形态具有显著 差别,并由此推论三大类群在形态发生上可能的进化关系。我们的方法与结论可能有助于对该类群植物标本与化石的鉴定 分类工作,也希望能为相关种系发生的进化研究提供另一种可能的思路。 蕨类植物( Ferns),即一般通称的蕨类植物门,是一类进化几何参数的获得与归一化 地位处于裸蕨植物和裸子植物之间的维管植物,曾兴盛于石炭纪除了一个标本([501])外,其余的都是具有主茎轴的羽状 和早二叠世,包括三个大类群:石松类、木贼类和真蕨类。它们叶结构或没有可见的次级茎轴体([06?】)。所以我们主要讨论具 都起源于早、中泥盆世的裸蕨植物,但它们的进化路线自泥盆纪有主茎轴的几何形态的处理,这也是我们进一步分析的基础 以后就彼此分离,因此是亲缘关系相当疏远的类群。现代的蕨类 从原始数据获得的未归一的参数用英文字母表示,具体意义 大都是草本植物,并且以三大类群中最为进化的真蕨纲为主。根参看图示说明(见图一)。未归一的参数都具有长度的量纲。 据其具有大型羽状复叶等特点,也将真蕨纲与裸子植物、被子植 物一道归为羽叶亚门( Pteropsida)2 有关维管植物的茎轴以及更为进化的形态单位(叶、根等) 的发生和起源,顶枝学说( Telome Theory)是自二十世纪初以 来被广泛承认的假说。该学说论述维管轴的分枝形态如何演进、 高级器官如何发生的规律口。我们进一步认为,进化过程中形态 发生模式的演化不仅从定性意义上,而且从定量意义上具有连续 性的特点。因此,信息量更大的定量模型应该能为种系发生研究 提供更精细的证据 我们认为,维管轴体的分枝形态与植物支撑结构、叶的排布 运输效率等重要生命因子相密切关联,因此其演进应该比植物的 其它几何形态要保守。蕨类植物三大类群的亲缘关系相当疏远 图一未归一几何参数的图解 用茎轴几何形态来研究其进化关系比较适合。 规定从主茎轴基端起第一个长出次级茎轴的分枝点为原点 记序数为0,由此往顶端递增。一般的序数记为i。 材料与方法 左右参数分开,并皆以下标L、R注明。记从分枝点i到原 标本的采集、鉴定与描述 点的距离为1,从分枝点i长出的次级茎轴长度为s记原点到主 在2002年7月8日至19日往浙江省天目山自然保护区的野茎轴顶端的距离为1-。另外,记相邻分枝点间距为△1 外考察过程中,共采集蕨类植物标本14种45个(详见表一)。采 A1=1-1 到的标本都是采集地点具有普遍性和代表性的物种 为了消除种内、种间个体大小造成的影响,我们将所得的参 表一采集到的标本信息 数归一化,亦即将以1作为单位,衡量所有未归一的参数所得的 标本数比定义为归一化的参数。经归一化的参数都是无量纲标量,以希 木贼类 腊字母表示。即 1 3 真蕨类 λ1=1/1(i=0,1,…) 主要采集目标个体在地面以上的完整部分,避免有严重缺损 1=s/l。(i=0,1,…) 的标本 △1=ΔL/1。(i=1,2,…) 依据文献和索引表对采集到的标本作尽可能详细的鉴定( 果见附录一)3。 将标本编号,以方括号内的四位数字表示,前两位为种编号 A∈[0,1(i=0,1,…) 后两位为该种内的标本编号。无论是种编号还是种内标本号都按 对归一化的数据,我们将进一步从中提取信息,以期发现三 照采集顺序排编,可以视为随机的。 大类群以至各个种在这些几何参数集上的特征性。我们通过各种 用刻度尺对各个标本的主茎轴长度、主茎轴上各相邻分枝点以曲线拟合为基础的相关分析来获得进一步信息。 间距以及主茎轴上生出的各次级茎轴的长度在刻度尺精度范围内MM1-i分析 进行测量。对于没有主茎的标本,仍测量其各相邻分枝点与轴端 将各标本的1和i作为应变量和自变量,以四次多项式函 点间的长度(见附录二)。 数f(x)=4x4+x+c2x2+cx+c0拟合左右合并的数据(结 果见附录三)
蕨类植物茎轴几何形态的分类与进化 王 昕 张 昊 鲁伯埙 维管植物茎轴的几何形态发生与进化是一个有趣的问题。我们以西天目山和浙西大峡谷常见的蕨类植物为对象,通过 对采集到的 14 个种共计 45 个标本进行测量以及数量化和模型化分析,发现蕨类植物三大类群的维管轴几何形态具有显著 差别,并由此推论三大类群在形态发生上可能的进化关系。我们的方法与结论可能有助于对该类群植物标本与化石的鉴定 分类工作,也希望能为相关种系发生的进化研究提供另一种可能的思路。 蕨类植物(Ferns),即一般通称的蕨类植物门,是一类进化 地位处于裸蕨植物和裸子植物之间的维管植物,曾兴盛于石炭纪 和早二叠世,包括三个大类群:石松类、木贼类和真蕨类。它们 都起源于早、中泥盆世的裸蕨植物,但它们的进化路线自泥盆纪 以后就彼此分离,因此是亲缘关系相当疏远的类群。现代的蕨类 大都是草本植物,并且以三大类群中最为进化的真蕨纲为主。根 据其具有大型羽状复叶等特点,也将真蕨纲与裸子植物、被子植 物一道归为羽叶亚门(Pteropsida)[1, 2]。 有关维管植物的茎轴以及更为进化的形态单位(叶、根等) 的发生和起源,顶枝学说(Telome Theory)是自二十世纪初以 来被广泛承认的假说。该学说论述维管轴的分枝形态如何演进、 高级器官如何发生的规律[1]。我们进一步认为,进化过程中形态 发生模式的演化不仅从定性意义上,而且从定量意义上具有连续 性的特点。因此,信息量更大的定量模型应该能为种系发生研究 提供更精细的证据。 我们认为,维管轴体的分枝形态与植物支撑结构、叶的排布、 运输效率等重要生命因子相密切关联,因此其演进应该比植物的 其它几何形态要保守。蕨类植物三大类群的亲缘关系相当疏远, 用茎轴几何形态来研究其进化关系比较适合。 材料与方法 标本的采集、鉴定与描述 在 2002 年 7 月8 日至 19 日往浙江省天目山自然保护区的野 外考察过程中,共采集蕨类植物标本 14 种 45 个(详见表一)。采 到的标本都是采集地点具有普遍性和代表性的物种。 表一 采集到的标本信息 类 群 种 数 标 本 数 石 松 类 2 11 木 贼 类 1 13 真 蕨 类 11 21 主要采集目标个体在地面以上的完整部分,避免有严重缺损 的标本。 依据文献和索引表对采集到的标本作尽可能详细的鉴定(结 果见附录一)[3]。 将标本编号,以方括号内的四位数字表示,前两位为种编号, 后两位为该种内的标本编号。无论是种编号还是种内标本号都按 照采集顺序排编,可以视为随机的。 用刻度尺对各个标本的主茎轴长度、主茎轴上各相邻分枝点 间距以及主茎轴上生出的各次级茎轴的长度在刻度尺精度范围内 进行测量。对于没有主茎的标本,仍测量其各相邻分枝点与轴端 点间的长度(见附录二)。 几何参数的获得与归一化 除了一个标本([0501])外,其余的都是具有主茎轴的羽状 叶结构或没有可见的次级茎轴体([06??])。所以我们主要讨论具 有主茎轴的几何形态的处理,这也是我们进一步分析的基础。 从原始数据获得的未归一的参数用英文字母表示,具体意义 参看图示说明(见图一)。未归一的参数都具有长度的量纲。 图一 未归一几何参数的图解 规定从主茎轴基端起第一个长出次级茎轴的分枝点为原点, 记序数为 0,由此往顶端递增。一般的序数记为 i。 左右参数分开,并皆以下标 L、R 注明。记从分枝点 i 到原 点的距离为 li,从分枝点 i 长出的次级茎轴长度为 si。记原点到主 茎轴顶端的距离为 l∞。另外,记相邻分枝点间距为Δli。 为了消除种内、种间个体大小造成的影响,我们将所得的参 数归一化,亦即将以 l∞作为单位,衡量所有未归一的参数所得的 比定义为归一化的参数。经归一化的参数都是无量纲标量,以希 腊字母表示。即 于是 (1) 对归一化的数据,我们将进一步从中提取信息,以期发现三 大类群以至各个种在这些几何参数集上的特征性。我们通过各种 以曲线拟合为基础的相关分析来获得进一步信息。 分析 将各标本的 和 i 作为应变量和自变量,以四次多项式函 数 拟合左右合并的数据(结 果见附录三)
我们获得了较高的相关度,并且高次项(3、4次)系数很小 (105-104量级)。因此可以认为,L1-i关系中以低次成分为 系数的有序数列(2c1Co是由标本几何参数决定的量,因此 是可以作为标本的几何形态指标。在系数空间c2-c1-c0中,我们 发现代表三大类群的数据点有明显的不同分布(见图二)。 图三AL-A1分析的系数空间 (a)c2-c1-co系数子空间:(b)c3-c2-c1系数子空 间。仍然沿用前图的颜色方案。可以看到,三大类群 的分离更加明显 A1-A1分析 图二ΔL1-i分析的c2-C1-c0系数空间 我们尝试将自变量换作入1来研究△1的变化规律,用三次多 其中红色点表示石松类,黄色点表示木贼类,蓝 项式函数f(x)=cx3+x2+qx+0拟合左右合并的数据。我 色点表示真蕨类。可以看到,三个类群的数据点具有 们获得了更高的相关度(见附录四)。 明显不同的分布 更为可喜的是,在系数空间c3-c2-c1-c0中,我们发现三大 另一个值得注意的特点是所有数据点具有极显著的相关性类群出现了更显著的分离(见图三) (见表二)。换句话说,数据点在系数空间排列在一直线周围 三大类群散点分布的相关度并不太高,尤其是次数相隔较远 表二L1-i分析诸系数的偏相关系数 的系数之间(见表三),这说明由此中方法得到的信息量更大。 表三A-分析诸系数的偏相关系数 0.9369 由此线性拟合所有数据点,得方程 0.9148* 0018003600291 G1-1分析 以上的两种方法都没有使用次级茎轴长度数据,而这种分析 方法将探究次级茎轴的长度1与其着生位置λ1的关系的规律性。 由于我们采集了木贼的营养枝,生于其主茎轴上的次级形态单位 退化,因而无法得到σ1,故此方法仅分析石松类和真蕨类 由于次级茎轴随着着生位置向顶端接近而逐渐减小,并且到 顶端处缩为一点。因此我们可以确信,G-λ曲线必定过点 (1,0)。所以我们用来拟合Gr1-1数据的函数为 f(x)=c4(x-1)+c(x-1)+c2(x-1)+c1(x-1) 所有的数据都相当好的配合了这族曲线(见附录五)。但从 系数空间看,两大类群并没有非常显著的分离。然而,在c4-C3-c2 c1系数空间中的所有点却非常好的呈线性相关关系(见图四) 表四G-A分析诸系数的偏相关系数 0.9445 0.9792 0.8347 0.8931 0.9601 线性拟合所有数据点,得到方程
我们获得了较高的相关度,并且高次项(3、4 次)系数很小 (10-5 – 10-4量级)。因此可以认为, 关系中以低次成分为 主。 系数的有序数列(c2, c1, c0)是由标本几何参数决定的量,因此 是可以作为标本的几何形态指标。在系数空间 c2 - c1 - c0中,我们 发现代表三大类群的数据点有明显的不同分布(见图二)。 图二 分析的 c2 - c1 - c0系数空间 其中红色点表示石松类,黄色点表示木贼类,蓝 色点表示真蕨类。可以看到,三个类群的数据点具有 明显不同的分布 另一个值得注意的特点是所有数据点具有极显著的相关性 (见表二)。换句话说,数据点在系数空间排列在一直线周围。 表二 分析诸系数的偏相关系数 r c2 c1 c1 0.9556** c0 0.8306** 0.9371** 由此线性拟合所有数据点,得方程 (2) 图三 分析的系数空间 (a) c2 - c1 - c0系数子空间;(b) c3 – c2 – c1系数子空 间。仍然沿用前图的颜色方案。可以看到,三大类群 的分离更加明显。 分析 我们尝试将自变量换作 来研究 的变化规律,用三次多 项式函数 拟合左右合并的数据。我 们获得了更高的相关度(见附录四)。 更为可喜的是,在系数空间 c3 - c2 - c1 - c0中,我们发现三大 类群出现了更显著的分离(见图三)。 三大类群散点分布的相关度并不太高,尤其是次数相隔较远 的系数之间(见表三),这说明由此中方法得到的信息量更大。 表三 分析诸系数的偏相关系数 r c3 c2 c 1 c2 0.9369** c1 0.7968** 0.9148** c0 0.2917 0.3666* 0.6646** 分析 以上的两种方法都没有使用次级茎轴长度数据,而这种分析 方法将探究次级茎轴的长度 与其着生位置 的关系的规律性。 由于我们采集了木贼的营养枝,生于其主茎轴上的次级形态单位 退化,因而无法得到 ,故此方法仅分析石松类和真蕨类。 由于次级茎轴随着着生位置向顶端接近而逐渐减小,并且到 顶端处缩为一点。因此我们可以确信, 曲线必定过点 。所以我们用来拟合 数据的函数为 所有的数据都相当好的配合了这族曲线(见附录五)。但从 系数空间看,两大类群并没有非常显著的分离。然而,在 c4 - c3 - c2 - c1系数空间中的所有点却非常好的呈线性相关关系(见图四)。 表四 分析诸系数的偏相关系数 r c4 c3 c1 c3 0.9909** c2 0.9445** 0.9792** c1 0.8347** 0.8931** 0.9601** 线性拟合所有数据点,得到方程
c3 00690.0790.0990.1441 00500 a) 00s00 00100 06000 08000 10000 图五△14+1-△分析的a-b系数空间 仍然沿用前图的颜色方案。可以看到,三大类群 也有明显分离,且所有数据点呈极显著线性相关 D分析 这种分析方法源于分形几何学( Fractal Geometry)对自然 形状的看法。植物的形态往往被认为是一种自相似的几何结构 因而具有大于其拓扑维数D1的分维数,即 Hausdorff-Besicovitch 维 然D是一个分形几何结构的属性参数,那么对于具有自相 似分形结构的植物形态,D就可以作为一个分类指标 当然在我们所观察到的蕨类植物维管轴体形态中,很少有严 格自相似的,往往是次级的形态发生与初级的形态有比较大的差 别。但在这里,我们必须忽略这种差别,并将测量得到的主茎轴 上的初级形态发生作为生成子( Generator)应用到整株植物上去 虽然由此得到的严格自相似形态与真实自然形态可能截然不同 但我们相信,至少在一定程度上,我们获得了该株植物的几何形 态特征。 除了上述的忽略之外,我们还需作一个二维近似。真实的植 物形态自然是三维的,但为了方便测量和分析,我们将其视为 维的,换句话说,我们研究的是标本在标本夹内压过以后的形态 或是自然形态在纸上的投影。 图四ar-A1分析的系数空间 具有如图一的羽状迭代结构的分形茎轴体的D值实际上就 (a)c3-c2-c1系数子空间:(b)c-c3-c2系数子空 是方程 间。仍然沿用前图的颜色方案。可以看到,两大类群 未能明显分离,且所有数据点呈极显著线性相关 A4+1-△分析 的解。实际计算时,我们将茎轴顶端由于过于细小而无法测量 △+1-△也是一种可能的分析方法。我们仍用左右合并的的小段视为一个次级初始子( Secondary Initiator),就如同一般 数据。鉴于A+1-△数据具有较好的线性,我们用线性函数的次级茎轴一样处理(结果见附录七)。由于和σ-l分析一样 f(x)=a+bx拟合(见附录六)。 的原因,只能处理石松、真蕨两大类群的数据 所得的a-b空间中,数据点仍呈显著线性分布(见图五), 由测量得到的迭代模式不是自回避的,因此大多数的D值都 相关系数为09449*。线性拟合所得到的散点分布,得方程 大于2也是很正常的。 假设D值总体服从正态分布,由此从所得D值样本分布推 006910.8736 断总体分布(见图六)。石松类的D均值略大于真蕨类,但两者 以看到,三大类群也有较明显的分离,并且分离模式与根本没有显著差异。所以在此意义上D可能并不是一个好的分类 △4-i分析几乎完全相同 指标
(3) 图四 分析的系数空间 (a) c3 – c2 – c1系数子空间;(b) c4 – c3 – c2 系数子空 间。仍然沿用前图的颜色方案。可以看到,两大类群 未能明显分离,且所有数据点呈极显著线性相关。 分析 也是一种可能的分析方法。我们仍用左右合并的 数据。鉴于 数据具有较好的线性,我们用线性函数 拟合(见附录六)。 所得的 a – b 空间中,数据点仍呈显著线性分布(见图五), 相关系数为 0.9449**。线性拟合所得到的散点分布,得方程 (4) 可以看到,三大类群也有较明显的分离,并且分离模式与 分析几乎完全相同。 图五 分析的 a – b 系数空间 仍然沿用前图的颜色方案。可以看到,三大类群 也有明显分离,且所有数据点呈极显著线性相关。 D 分析 这种分析方法源于分形几何学(Fractal Geometry)对自然 形状的看法。植物的形态往往被认为是一种自相似的几何结构, 因而具有大于其拓扑维数 DT 的分维数,即 Hausdorff-Besicovitch 维 D[4]。 既然 D 是一个分形几何结构的属性参数,那么对于具有自相 似分形结构的植物形态,D 就可以作为一个分类指标。 当然在我们所观察到的蕨类植物维管轴体形态中,很少有严 格自相似的,往往是次级的形态发生与初级的形态有比较大的差 别。但在这里,我们必须忽略这种差别,并将测量得到的主茎轴 上的初级形态发生作为生成子(Generator)应用到整株植物上去, 虽然由此得到的严格自相似形态与真实自然形态可能截然不同, 但我们相信,至少在一定程度上,我们获得了该株植物的几何形 态特征。 除了上述的忽略之外,我们还需作一个二维近似。真实的植 物形态自然是三维的,但为了方便测量和分析,我们将其视为二 维的,换句话说,我们研究的是标本在标本夹内压过以后的形态, 或是自然形态在纸上的投影。 具有如图一的羽状迭代结构的分形茎轴体的 D 值实际上就 是方程 (5) 的解[4]。实际计算时,我们将茎轴顶端由于过于细小而无法测量 的小段视为一个次级初始子(Secondary Initiator),就如同一般 的次级茎轴一样处理(结果见附录七)。由于和 分析一样 的原因,只能处理石松、真蕨两大类群的数据。 由测量得到的迭代模式不是自回避的,因此大多数的 D 值都 大于 2 也是很正常的。 假设 D 值总体服从正态分布,由此从所得 D 值样本分布推 断总体分布(见图六)。石松类的 D 均值略大于真蕨类,但两者 根本没有显著差异。所以在此意义上 D 可能并不是一个好的分类 指标
式。不过这里我们仍然对已有的有限数据进行分析 由于系数空间内不同的种有分离,可以用系数空间内的欧氏 距离 进行聚类分析 另外,我们考虑到式(1),即Δ-分析和a-A分析中 从每个标本的数据抽提得到的特征是一个定义在0,1上的连续函 数f1(x):[0,1→R(其中p为标本总编号),所以考虑用如下的 距离定义描述两个标本的几何差异: Haus dorff-Resicovtch Dimension dpq=l ifp(x)-fg(x)Idx 图六正态假设下推断的石松、真蕨两大类群的D总体分布 仍然沿用前图的颜色方案。可以看到,两推断总 (dr≥0(p,q; 体分布没有显著差异。 以上的dp满足(mdp=d学(YPq 人工神经网络分类器的分类分析 (md +d 2 dp(vp, q, r). 除了统计分析外,所得分类指标分离程度的好坏还能直观地 因此dp是严格意义上的距离函数 用诸如人工神经网络等学习算法在相同技术参数下用同一组数据 我们将由距离公式(6进行聚类分析的方法称为欧氏系数空 训练相同次数后的分类表现(成功率)来衡量。简单的神经网络间法(ESOC, Euclidean Space of Coefficients):将由距离公式 就可以完成我们所要进行的分类56。 (刁)计算的方法称为形状匹配法(SF, Shape-Fitting) 我们采用两层前传的简单网络,输入层具有与系数空间维数 图七是我们进行聚类分析的结果。我们用如下的符号: 相同数目的输入单元,隐藏层神经元数为固定值,输出层神经元 Iree(数据来源的分析方法,距离方法,构树方法) 数为3,也就是OU数目,代表三大类群。网络中所有神经元都来表征一个树谱图的参数和技术特征 是略有改动的 McCulloch-Pitt形式神经元。初始连接权重矩阵由 [01? 均匀分布的随机函数生成。用一种方法所得的所有系数列数据对 该网络进行训练,采用结合了模拟退火算法进行最速下降法求极 值的 Back-Propagation算法进行权重矩阵优化(具体的网络、算 法技术细节见附录八)。 对于1-i分析、△1-分析和△41-△分析,训练 次后,发现该网络在某些初始值下已能正确识别过半数的标本 而其它分离不充分的分析方法的训练效果不佳 结果与讨论 数量形态分类 从以上各种分析我们可以得出结论:现代蕨类植物三大类群 的孢子体维管轴几何形态发生具有可区分的差异。更进一步,我 们发现尤其与主茎轴有关的形态发生规律(4-i、L2-1和 Δ+41-L)差别显著性更高。此外,真蕨类中诸多种属也有分 离,但由于我们采集的数据有限,未能进行更细致的分类 对于我们提出的一种新的分析方式D分析,虽然没有发 现两大类群的D值显著差异,但某些迹象与我们的观察一致。比 如说,两种卷柏的D均值比真蕨D均值略大,实际上我们看到的 [01? 柏往往形态更细致复杂,因此其分维数大是不奇怪的。由此 我们认为,两大类群的D值总体是不同的总体,只是由于我们数 据量有限而无法发现其差别。当然,D值作为分类指标就不令人 满意了,因为它可能要求大规模样本,敏感性太低 更为细致的聚类分析 如果进一步深入到三大类群中的科属的几何形态分类,恐怕 我们得到的数据量不够:很多种只采过一个标本,无法通过平均 求得其在系数空间内较为准确的位置。但我们相信,如果数据量 足够的话,就很可能可以得到类群内更为精细的几何形态差别模
图六 正态假设下推断的石松、真蕨两大类群的 D 总体分布 仍然沿用前图的颜色方案。可以看到,两推断总 体分布没有显著差异。 人工神经网络分类器的分类分析 除了统计分析外,所得分类指标分离程度的好坏还能直观地 用诸如人工神经网络等学习算法在相同技术参数下用同一组数据 训练相同次数后的分类表现(成功率)来衡量。简单的神经网络 就可以完成我们所要进行的分类[5, 6]。 我们采用两层前传的简单网络,输入层具有与系数空间维数 相同数目的输入单元,隐藏层神经元数为固定值,输出层神经元 数为 3,也就是 OTU 数目,代表三大类群。网络中所有神经元都 是略有改动的 McCulloch-Pitts 形式神经元。初始连接权重矩阵由 均匀分布的随机函数生成。用一种方法所得的所有系数列数据对 该网络进行训练,采用结合了模拟退火算法进行最速下降法求极 值的 Back-Propagation 算法进行权重矩阵优化(具体的网络、算 法技术细节见附录八)。 对于 分析、 分析和 分析,训练 一次后,发现该网络在某些初始值下已能正确识别过半数的标本; 而其它分离不充分的分析方法的训练效果不佳。 结果与讨论 数量形态分类 从以上各种分析我们可以得出结论:现代蕨类植物三大类群 的孢子体维管轴几何形态发生具有可区分的差异。更进一步,我 们发现尤其与主茎轴有关的形态发生规律( 、 和 )差别显著性更高。此外,真蕨类中诸多种属也有分 离,但由于我们采集的数据有限,未能进行更细致的分类。 对于我们提出的一种新的分析方式— — D 分析,虽然没有发 现两大类群的 D 值显著差异,但某些迹象与我们的观察一致。比 如说,两种卷柏的 D 均值比真蕨 D 均值略大,实际上我们看到的 卷柏往往形态更细致复杂,因此其分维数大是不奇怪的。由此, 我们认为,两大类群的 D 值总体是不同的总体,只是由于我们数 据量有限而无法发现其差别。当然,D 值作为分类指标就不令人 满意了,因为它可能要求大规模样本,敏感性太低。 更为细致的聚类分析 如果进一步深入到三大类群中的科属的几何形态分类,恐怕 我们得到的数据量不够:很多种只采过一个标本,无法通过平均 求得其在系数空间内较为准确的位置。但我们相信,如果数据量 足够的话,就很可能可以得到类群内更为精细的几何形态差别模 式。不过这里我们仍然对已有的有限数据进行分析。 由于系数空间内不同的种有分离,可以用系数空间内的欧氏 距离 (6) 进行聚类分析。 另外,我们考虑到式(1),即 分析和 分析中 从每个标本的数据抽提得到的特征是一个定义在[0, 1]上的连续函 数 (其中 p 为标本总编号),所以考虑用如下的 距离定义描述两个标本的几何差异: (7) 以上的 满足 (8) 因此 是严格意义上的距离函数。 我们将由距离公式(6)进行聚类分析的方法称为欧氏系数空 间法(ESOC,Euclidean Space of Coefficients);将由距离公式 (7)计算的方法称为形状匹配法(SF,Shape-Fitting)。 图七是我们进行聚类分析的结果。我们用如下的符号: Tree(数据来源的分析方法, 距离方法, 构树方法) 来表征一个树谱图的参数和技术特征
03?2 j-1 k-1 其中i为类群标号,j为类群中的种标号,k为种中标本标号:N1 为类群i中种数目,n为类群i的种j中标本的数目。 由此公式分别计算Δ1-i分析、LL-2分析和 A+1-L分析中系数空间内三大类群的平均位置,再计算两两 之间的欧氏距离d=Xp-X4 [01? 真蕨类 木贼类 石松类 真蕨类 木贼类 ·石松类 真蕨类 木贼类一 石松类 图八三大类群中心点在主茎轴分析的系数空间中的相对位置 (a)△4-i分析的系数空间;()△1-A分析 的系数空间;()△+1-△L分析的系数空间。三个图 都按保距保角的原则画出 是Δ+1-A分析,木贼类和真蕨类的距离都是最近的,木贼类 1? 和石松类的距离最远,石松类和真蕨类的距离居中(见图八)。 如果在我们所得的系数空间内用欧氏距离法进行演化推断 的话,无论三种主茎轴分析中的哪一种都支持如图九所示的种系 图七聚类分析所得的树谱图 发生模式 (a)Tree(4-i, ESOC, UPGMA) (b)Tree(Al -Ai, ESOC, UPGMA) 木贼类 石松类 (c) Tree(Al-M, SF, UPGMA (d)Tree(a-A, ESOC, UPGMA) (e) Tree(Oi-Ai, SF, UPGMA): (f)Tre(△+1-△,ESOC, UPGMA) 从聚类分析的结果来看,不同的数据来源、不同的距离函数 图九由主茎轴分析系数空间的距离推断的种系发生模式 树谱图:也就是说,主茎轴模式我们得到的结论与经典的化石研究的结论是一致的 和次级茎轴模式、EsOC距离和s距离都将对同一个测试种集合证据表明,早泥盆世时主要的植物类型是裸蕨类。在其初的惹丁 产生不同的聚类模式。这说明我们的数据具有很大的信息量 期,已经同时生长着瑞尼蕨型和工蕨型两种类型的裸蕨植物。到 按照我们的方法进行几何参数采集可以将不同种的蕨类植物从几稍后的西根期,已经有不少原始石松类的种类出现:而原始木贼 何形态上区分开,亦即用以上不同的方法可以较为成功地进行鉴类和真蕨类的初生蕨亚纲至少到中泥盆世才出现。因此,三类化 定。可以想见仅仅通过几何参数测量进行分类工作的可能性。 石出现的时间支持我们的结论。 三大类群种系发生与进化的推断 另外,我们的结论也支持比较公认的蕨类植物进化途径(见 我们认为三大类群在主茎轴分析(Δ-i分析、Δ1-λ2图十):“志留纪末期某种绿藻的后裔登陆,产生了裸蕨植物。” 分析和Δ1-Δλ分析)的系数空间中的欧氏距离能够作为衡量“在早泥盆世初的惹丁期,陆生维管植物主要循着以裸蕨植物中 其在茎轴形态发生上的亲缘关系的量。因此可以通过获得各OnU的瑞尼蕨型和工蕨型为代表的两条演化路线发展。到稍后的西根 在系数空间的距离矩阵来进行系统发育分析。 期,工蕨型植物发生了一次多方向的演变,产生了许多原始石松 首先考虑三大类群在系数空间的位置。为了去除不同标本类,其中一部分便成了现代石松类的远祖。同一时期,脱胎于瑞 数、种数的影响,我们采用如下的平均公式计算每一类群的中心尼蕨型的裸蕨型植物,也起了向其它维管植物演进的桥梁作用。 坐标 到早泥盆世末或中泥盆世初的阶段,似乎发生过一次主要以裸蕨
图七 聚类分析所得的树谱图 (a) Tree( , ESOC, UPGMA); (b) Tree( , ESOC, UPGMA); (c) Tree( , SF, UPGMA); (d) Tree( , ESOC, UPGMA); (e) Tree( , SF, UPGMA); (f) Tree( , ESOC, UPGMA); 从聚类分析的结果来看,不同的数据来源、不同的距离函数 导致了具有完全不同拓扑结构的树谱图;也就是说,主茎轴模式 和次级茎轴模式、ESOC 距离和 SF 距离都将对同一个测试种集合 产生不同的聚类模式。这说明我们的数据具有很大的信息量— — 按照我们的方法进行几何参数采集可以将不同种的蕨类植物从几 何形态上区分开,亦即用以上不同的方法可以较为成功地进行鉴 定。可以想见仅仅通过几何参数测量进行分类工作的可能性。 三大类群种系发生与进化的推断 我们认为三大类群在主茎轴分析( 分析、 分析和 分析)的系数空间中的欧氏距离能够作为衡量 其在茎轴形态发生上的亲缘关系的量。因此可以通过获得各 OTU 在系数空间的距离矩阵来进行系统发育分析。 首先考虑三大类群在系数空间的位置。为了去除不同标本 数、种数的影响,我们采用如下的平均公式计算每一类群的中心 坐标: (9) 其中 i 为类群标号,j 为类群中的种标号,k 为种中标本标号; 为类群 i 中种数目, 为类群 i 的种 j 中标本的数目。 由此公式分别计算 分 析 、 分析和 分析中系数空间内三大类群的平均位置,再计算两两 之间的欧氏距离 。 图八 三大类群中心点在主茎轴分析的系数空间中的相对位置 (a) 分析的系数空间;(b) 分析 的系数空间;(c) 分析的系数空间。三个图 都按保距保角的原则画出。 从得到的数据来看,无论是 分析、 分析还 是 分析,木贼类和真蕨类的距离都是最近的,木贼类 和石松类的距离最远,石松类和真蕨类的距离居中(见图八)。 如果在我们所得的系数空间内用欧氏距离法进行演化推断 的话,无论三种主茎轴分析中的哪一种都支持如图九所示的种系 发生模式。 图九 由主茎轴分析系数空间的距离推断的种系发生模式 我们得到的结论与经典的化石研究的结论是一致的[1]。化石 证据表明,早泥盆世时主要的植物类型是裸蕨类。在其初的惹丁 期,已经同时生长着瑞尼蕨型和工蕨型两种类型的裸蕨植物。到 稍后的西根期,已经有不少原始石松类的种类出现;而原始木贼 类和真蕨类的初生蕨亚纲至少到中泥盆世才出现。因此,三类化 石出现的时间支持我们的结论。 另外,我们的结论也支持比较公认的蕨类植物进化途径[1](见 图十):“志留纪末期某种绿藻的后裔登陆,产生了裸蕨植物。” “在早泥盆世初的惹丁期,陆生维管植物主要循着以裸蕨植物中 的瑞尼蕨型和工蕨型为代表的两条演化路线发展。到稍后的西根 期,工蕨型植物发生了一次多方向的演变,产生了许多原始石松 类,其中一部分便成了现代石松类的远祖。同一时期,脱胎于瑞 尼蕨型的裸蕨型植物,也起了向其它维管植物演进的桥梁作用。 到早泥盆世末或中泥盆世初的阶段,似乎发生过一次主要以裸蕨