第七章微阵列芯片 随着cDNA微阵列和寡核苷酸芯片(下文没有特别说明时,统称为DNA微阵列)等 高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物mRNA 在本章中,基因表达数据特指基于DNA微阵列实验得到的反映mRNA丰度的数据,而 不包括基因表达最终产物—蛋白质丰度的数据。由于生物体中的细胞种类繁多,同时基因 表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大 数据的增长速度更快。基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状 态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分 析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是DNA微 阵列能够在生物医学领域中广泛应用的关键原因之一。 基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩 阵。通过对该数据矩阵的分析,可以回答一些生物学问题,例如,基因的功能是什么?在不 同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发 生了显著改变,这些基因受到哪些基因的调节,或者控制哪些基因的表达?哪些基因的表达 是细胞状态特异性的,根据它们的行为可以判断细胞的状态(生存、增殖、分化、凋亡、癌 变或应激等)等等。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达 调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标 是系统生物学( Systems Biology)研究的核心内容。目前,对基因表达数据的分析主要是在 个层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,基因表达水平 的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定肿瘤分型相关的特异基 因。采用的分析方法有统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基 因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的 基因调控网络,从机理上解释观察到的基因表达数据。多采用反向工程的方法。 本章首先介绍基因表达数据的来源和预处理方法:然后介绍基因表达数据分析的主要方 法,包括表达差异分析、聚类分析和分类等:最后简单介绍从基因表达数据出发研究基因调 控网络的一些经典模型 71基因表达数据的获取 基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度, 这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基 因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面 有重要的应用。检测细胞中mRNA丰度的方法有cDNA微阵列、寡核苷酸芯片、基因表 达系列分析( Serial analysis of gene expression,SAGE)、 RT-PCR等。目前,高通量 检测基因组mRNA丰度的方法主要是cDNA微阵列、寡核苷酸芯片,它们的原理是相同 的,即利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单核苷酸链形成 双链,这个过程被称为杂交。基本技术路线是:制备芯片,在一个约1cm2大小的玻璃片 上,将称为探针的cDNA或寡核苷酸片段固定在上面:从细胞或组织中提取mRNA,通 过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交 后的芯片,获取荧光强度,分析并得到细胞中mRNA丰度的信息 711cDNA微阵列
第七章 微阵列芯片 随着 cDNA 微阵列和寡核苷酸芯片(下文没有特别说明时,统称为 DNA 微阵列)等 高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物 mRNA 。 在本章中,基因表达数据特指基于 DNA 微阵列实验得到的反映 mRNA 丰度的数据,而 不包括基因表达最终产物——蛋白质丰度的数据。由于生物体中的细胞种类繁多,同时基因 表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大, 数据的增长速度更快。基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状 态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分 析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是 DNA 微 阵列能够在生物医学领域中广泛应用的关键原因之一。 基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩 阵。通过对该数据矩阵的分析,可以回答一些生物学问题,例如,基因的功能是什么?在不 同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发 生了显著改变,这些基因受到哪些基因的调节,或者控制哪些基因的表达?哪些基因的表达 是细胞状态特异性的,根据它们的行为可以判断细胞的状态(生存、增殖、分化、凋亡、癌 变或应激等)等等。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达 调控路径和调控网络。 揭示基因调控路径和网络是生物学和生物信息学共同关注的目标, 是系统生物学 (Systems Biology) 研究的核心内容。 目前,对基因表达数据的分析主要是在 三个层次上进行: 1 、分析单个基因的表达水平,根据在不同实验条件下,基因表达水平 的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定肿瘤分型相关的特异基 因。采用的分析方法有统计学中的假设检验等。 2 、考虑基因组合,将基因分组,研究基 因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。 3 、尝试推断潜在的 基因调控网络,从机理上解释观察到的基因表达数据。多采用反向工程的方法。 本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方 法,包括表达差异分析、聚类分析和分类等;最后简单介绍从基因表达数据出发研究基因调 控网络的一些经典模型。 7.1 基因表达数据的获取 基因表达数据反映的是直接或间接测量得到的基因转录产物 mRNA 在细胞中的丰度, 这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基 因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面 有重要的应用。检测细胞中 mRNA 丰度的方法有 cDNA 微阵列、寡核苷酸芯片、基因表 达系列分析( Serial analysis of gene expression , SAGE )、 RT-PCR 等。目前,高通量 检测基因组 mRNA 丰度的方法主要是 cDNA 微阵列、寡核苷酸芯片,它们的原理是相同 的,即利用 4 种核苷酸之间两两配对互补的特性,使两条在序列上互补的单核苷酸链形成 双链,这个过程被称为杂交。基本技术路线是:制备芯片,在一个约 1cm 2 大小的玻璃片 上,将称为探针的 cDNA 或寡核苷酸片段固定在上面;从细胞或组织中提取 mRNA ,通 过 RT-PCR 合成荧光标记的 cDNA ,与芯片杂交;用激光显微镜或荧光显微镜检测杂交 后的芯片,获取荧光强度,分析并得到细胞中 mRNA 丰度的信息。 7.1.1 cDNA 微阵列
cDNA微阵列是在1995年由斯坦福大学率先研制成功并应用于基因表达分析的。首先 将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(其 长度通常大于200bp)作为探针,用机器手按照阵列的形式点到玻璃片上。玻璃片上的每 一个点只包含一种cDNA分子,这样就制成了cDNA微阵列。固定在玻片上的cDNA探 针可以通过测序得到序列或者其来源是已知的。在使用cDNA微阵列时,首先提取组织或 细胞系中的mRNA样本,逆转录成cDNA并用荧光素标记:然后把标记混合物加到 cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列:最后用激光扫描仪扫描并 获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。荧光强度值 定量反映了样本中存在的与探针互补的mRNA丰度,也就是反映了探针所对应基因的表达 水平 原理—通过杂交检测信息 组寡核苷酸探针 由杂交位置确定的一组 TACGTTAG ATACGTTA 核酸探针序列 「 ATACGTTA TACGTTAG ACGTTAGA 杂交探针组 CGTTAGAT 日日 I GTTAGATCI ACGTTAGA CGTTAGAT GTTAGATC A TACGTTAGATC 重组的互补序列 ○- -TATGCAATCTAG TATGCAATCTAG 靶序列
cDNA 微阵列是在 1995 年由斯坦福大学率先研制成功并应用于基因表达分析的。首先 将细胞内的 mRNA 逆转录成 cDNA 并分离,然后将分离得到的所有或部分 cDNA (其 长度通常大于 200bp )作为探针,用机器手按照阵列的形式点到玻璃片上。玻璃片上的每 一个点只包含一种 cDNA 分子,这样就制成了 cDNA 微阵列。固定在玻片上的 cDNA 探 针可以通过测序得到序列或者其来源是已知的。在使用 cDNA 微阵列时,首先提取组织或 细胞系中的 mRNA 样本,逆转录成 cDNA 并用荧光素标记;然后把标记混合物加到 cDNA 微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;最后用激光扫描仪扫描并 获取荧光图像,对图像进行分析,得到 cDNA 芯片上每一个点的荧光强度值。荧光强度值 定量反映了样本中存在的与探针互补的 mRNA 丰度,也就是反映了探针所对应基因的表达 水平
荧光标记的样品 共聚焦显微镜 基因芯片 获取荧光图象 杂交结果分析 在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也可能是不规 则的,这意味着要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光 系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本( control sample)或对照样本( reference sample),通常用绿色荧光素(Cy3)标记其cDNA 另一个为测量样本,用红色荧光素(Cy5)标记其cDNA。这两个样本按照相同的实验 方案分别制备不同荧光素标记的cDNA,并按1:1的比例混合,然后与cDNA微阵 列杂交,用不同波长的激光扫描杂交后微阵列,分别获取荧光强度,并成像。来自两个样本 的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。 因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。由于Cy3和C 的标记效率不相等,以及存在系统噪声等原因,通常需要对cDNA微阵列实验中获取的原 始图像数据进行归一化。例如,用Cy3、Cy5两种荧光素分别标记的一些基因的表达水 平相等,那么这些点的实验结果Cy5/C3荧光强度比率值(以下称 Ratio值)的期望值为 1,但由于得到的 Ratio值往往不等于1,这些实验偏差可以通过归一化来得到纠正。对 微阵列进行归一化的指导思想包括基于全局强度值调整、强度相关归一化、玻片之间的对比 归一化等,归一化方法包括总密度(假设两个样本中的总RNA是相等的)线性回归、 Ratio 统计、迭代log( ratIo)平均值中心化等,与微阵列扫描系统配套的软件可以完成归一化工作。 cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧 光信号强度的比率或者对数化的比率,这是一个无量纲的值,可用于比较一组实验中的基因 相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,可能主要是噪声信 号,因此它很可能是无意义的。这些数据往往看作是不确定的或异常点,在后续分析时要注 意这些数据,根据需要确定是否保留以及如何纠正其值。 7.12寡核苷酸芯片 又称为基因芯片、DNA芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是 在片原位合成的。现有产品中应用最广泛的是 Affymetrix公司制造的 GENECHIP芯片, 它使用一种光掩模技术和传统的DNA合成化学的组合以非常髙的密度制造寡核苷酸阵 列。例如, Affymetrix公司的 Human Genome U133芯片包含了100万个不同的寡核苷酸
在制造 cDNA 微阵列时,点样点的大小是不能保证完全一样的,点的排列也可能是不规 则的,这意味着要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光 系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本( control sample )或对照样本 (reference sample) ,通常用绿色荧光素( Cy3 )标记其 cDNA , 另一个为测量样本,用红色荧光素( Cy5 )标记其 cDNA 。这两个样本按照相同的实验 方案分别制备不同荧光素标记的 cDNA ,并按 1 : 1 的比例混合,然后与 cDNA 微阵 列杂交,用不同波长的激光扫描杂交后微阵列,分别获取荧光强度,并成像。来自两个样本 的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。 因此, cDNA 微阵列的实验数据反映了两个样本中基因的相对表达水平。由于 Cy3 和 Cy5 的标记效率不相等,以及存在系统噪声等原因,通常需要对 cDNA 微阵列实验中获取的原 始图像数据进行归一化。例如,用 Cy3 、 Cy5 两种荧光素分别标记的一些基因的表达水 平相等,那么这些点的实验结果 Cy5/Cy3 荧光强度比率值(以下称 Ratio 值)的期望值为 1 ,但由于得到的 Ratio 值往往不等于 1 ,这些实验偏差可以通过归一化来得到纠正。对 微阵列进行归一化的指导思想包括基于全局强度值调整、强度相关归一化、玻片之间的对比 归一化等,归一化方法包括总密度(假设两个样本中的总 RNA 是相等的)、线性回归、 Ratio 统计、迭代 log(ratio) 平均值中心化等,与微阵列扫描系统配套的软件可以完成归一化工作。 cDNA 微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧 光信号强度的比率或者对数化的比率,这是一个无量纲的值,可用于比较一组实验中的基因 相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,可能主要是噪声信 号,因此它很可能是无意义的。这些数据往往看作是不确定的或异常点,在后续分析时要注 意这些数据,根据需要确定是否保留以及如何纠正其值。 7.1.2 寡核苷酸芯片 又称为基因芯片、 DNA 芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是 在片原位合成的。现有产品中应用最广泛的是 Affymetrix 公司制造的 GENECHIP®芯片, 它使用一种光掩模技术和传统的 DNA 合成化学的组合以非常高的密度制造寡核苷酸阵 列。例如, Affymetrix 公司的 Human Genome U133 芯片包含了 100 万个不同的寡核苷酸
探针,代表了33000个人类基因。寡核苷酸芯片主要用于DNA多态性检测和基因表达分 析,还可以用于微生物基因组的再测序 寡核苷酸探针的长度通常为20-25bp,在检测mRNA丰度时可能存在寡核苷酸之间的 非特异性交叉杂交,这可能会掩盖杂交信号:此外,对于特定的寡核苷酸,信号强度对于寡 核苷酸的碱基组成比较敏感的。对于第一个问题, Affymetrix公司的解决办法是采用匹配/ 失配(PMMM)探针对的方法,即在设计一个特异的寡核苷酸(匹配)时,同时设计 个非特异的寡核苷酸探针,该探针仅仅在中间位置有一个碱基替换(失配),这样可以用 A与MM之间的差值作为信号强度。为了解决第二个问题,在设计探针时,对于每一个 待检测的mRNA包含多个寡核苷酸探针,例如设计11-20对探针来检测一个转录本。 与cDNA微阵列不同的是,杂交实验中与寡核苷酸芯片杂交的是单个样本,而不是 cDNA微阵列实验中测量样本与对照样本的混合物。寡核苷酸芯片的检测结果有两种, 种用P/AM( Present/Absent/Dont Know)表示,表示有/无/不确定,另一种用荧光 信号强度值表示。PAM可以用来判断样本中有无特定基因的表达,这个结果对于部分实 验,特别是一些定性实验是有意义的,例如判断肿瘤与正常细胞的基因表达差异。当需要对 几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用 荧光强度值。有时实验结果中有负值,这是由于前景信号小于背景信号或者背景/阴性控 制样本的定义不正确造成的, Affymetriⅸx公司的芯片分析系统会将负值修改成某一固定值。 在分析多个实验条件下的基因表达数据时,与cDNA微阵列数据一样,也是一系列测量 样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过归一化 的数值,归一化的方法很多,而且一般都包含在芯片扫描系统的图像处理软件中 cDNA微阵列或基因芯片在用于基因表达分析时的一个最大优点是高通量性,在一次芯 片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多,虽然在设计芯片 时可以通过添加阴性和阳性探针等手段来评价数据的质量,但是需要提醒的是,数据的可靠 性仍然是对数据进行后续分析时必须考虑的一个问题。 713基因表达数据的网络资源 大量基于DNA微阵列实验的基因表达数据是公开发布在 Internet网上的,尤其是学术 机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术 论文的补充资料在网上发布的数据主要是文本文件或 Excel格式的文件,这些数据往往都 是经过归一化处理后的 Ratio值或log2(Rato),对于寡核苷酸芯片数据有的是P/AM表 ,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描 图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的 基因表达数据是非常困难的。主要原因是DNA微阵列并不是在任何客观的个体上测量基 因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对 照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于 实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。 因此,基于DNA微阵列的基因表达数据存储量是非常大的,对于具有20000个探针的微 阵列实验,以10um的分辨率扫描,产生3千万个离散的数据点,如果以tif'文件贮存, 将占用约60Mb的硬盘空间
探针,代表了 33000 个人类基因。寡核苷酸芯片主要用于 DNA 多态性检测和基因表达分 析,还可以用于微生物基因组的再测序。 寡核苷酸探针的长度通常为 20-25bp ,在检测 mRNA 丰度时可能存在寡核苷酸之间的 非特异性交叉杂交,这可能会掩盖杂交信号;此外,对于特定的寡核苷酸,信号强度对于寡 核苷酸的碱基组成比较敏感的。对于第一个问题, Affymetrix 公司的解决办法是采用匹配 / 失配( PM/MM )探针对的方法,即在设计一个特异的寡核苷酸 ( 匹配 ) 时,同时设计 一个非特异的寡核苷酸探针,该探针仅仅在中间位置有一个碱基替换(失配),这样可以用 PM 与 MM 之间的差值作为信号强度。为了解决第二个问题,在设计探针时,对于每一个 待检测的 mRNA 包含多个寡核苷酸探针,例如设计 11-20 对探针来检测一个转录本。 与 cDNA 微阵列不同的是,杂交实验中与寡核苷酸芯片杂交的是单个样本,而不是 cDNA 微阵列实验中测量样本与对照样本的混合物。寡核苷酸芯片的检测结果有两种,一 种用 P/A/M ( Present/Absent/Don't Know )表示,表示有 / 无 / 不确定,另一种用荧光 信号强度值表示。 P/A/M 可以用来判断样本中有无特定基因的表达,这个结果对于部分实 验,特别是一些定性实验是有意义的,例如判断肿瘤与正常细胞的基因表达差异。当需要对 几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用 荧光强度值。有时实验结果中有负值,这是由于前景信号小于背景信号或者背景 / 阴性控 制样本的定义不正确造成的, Affymetrix 公司的芯片分析系统会将负值修改成某一固定值。 在分析多个实验条件下的基因表达数据时,与 cDNA 微阵列数据一样,也是一系列测量 样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过归一化 的数值,归一化的方法很多,而且一般都包含在芯片扫描系统的图像处理软件中。 cDNA 微阵列或基因芯片在用于基因表达分析时的一个最大优点是高通量性,在一次芯 片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多,虽然在设计芯片 时可以通过添加阴性和阳性探针等手段来评价数据的质量,但是需要提醒的是,数据的可靠 性仍然是对数据进行后续分析时必须考虑的一个问题。 7.1.3 基因表达数据的网络资源 大量基于 DNA 微阵列实验的基因表达数据是公开发布在 Internet 网上的,尤其是学术 机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术 论文的补充资料在网上发布的数据主要是文本文件或 Excel 格式的文件,这些数据往往都 是经过归一化处理后的 Ratio 值或 log 2 (Ratio) ,对于寡核苷酸芯片数据有的是 P/A/M 表 示,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描 图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的 基因表达数据是非常困难的。主要原因是 DNA 微阵列并不是在任何客观的个体上测量基 因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对 照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于 实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。 因此,基于 DNA 微阵列的基因表达数据存储量是非常大的,对于具有 20000 个探针的微 阵列实验,以 10um 的分辨率扫描,产生 3 千万个离散的数据点,如果以 tiff 文件贮存, 将占用约 60Mb 的硬盘空间
方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由 于这些数据没有注释,迫切需要一种标准来描述和存贮DNA微阵列基因表达数据,同时 建立公共的DNA微阵列数据仓库。欧洲生物信息学研究所(EBI)与德国肿瘤研究中心 (DKFZ)在1999年成立了MGED讨论组( The Microarray Gene Expression Data) MGED(htp/www.mgedorg/)是一个国际性的成员联盟,参与人员包括生物学家、计算 机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数 据的共享。当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软 件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组 织开发的微阵列数据标准称为MAME( the minimum information about a microarray experiment),是对于解释和验证结果所必需的微阵列实验的最小信息描述。MAME不是 微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的 开发。同时,MGED组织开发了微阵列基因表达标记语言( MAGE-ML, Microarray Gene Expression- Markup Language),它是一种语言,用来描述跟基于实验的微阵列信息的通 讯。MAGE-ML基于ⅹML,可以描述微阵列设计、制造、实验组织和实施信息、基因表 达数据等。MMAE标准和 MAGE-ML语言受到了从事DNA微阵列开发和应用研究的 科研人员和组织的广泛关注。美国NCBI的 Gene Expression Omnibus(GEO)、英国的EBI 的Aπay上 xpress数据库都采用了该标准,斯坦福微阵列数据库( Stanford Microarray Database,SMD)也正在兼容该标准 目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是GEO Array Express和SMD。 GEO(htp/www.ncbinlm.nih.govlgeo)是由NCBI在2000年开发的一个基因表达和 杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到2004 年3月,数据仓库中包含内容有605个 Platform,14391个 Sample,816个 Serial Platform是关于物理反应物的信息, Sample是关于待检测的样本信息和使用单个 Platform 生的数据。 Series是关于样本集的信息,反映样本间的相关性和组织。 ArrayExpresshttp:/www.ebi.ac.uk/arravexpress/)是基于基因表达数据的微阵列公共知识 库,目的是存储被注释的数据,当前包含多个基因表达数据集和与实验相关的原始图像集 Array Express数据库接受MAGE-ML格式的数据递交或者通过 MIAMExpress的基于 web界面注释和递交的数据。 Array Express提供一个简单的基于web的数据查询界面, 并直接与 Expession Profiler数据分析工具相连,可以进行表达数据聚类,和其它类型的web 数据挖掘,并将进一步开发多个实验和数据库间的交叉查询。 Array Express数据库中的数 据将与所有由EBI维护的或在线的数据库相联接。 SMD(htp/ genome-www5 stanford. edu/)是一个使用 Oracle作为数据库管理软件的关 系数据库。SMD存储微阵列实验的原始数据、归一化数据和对应的图像文件。自从2002 年1月1日起,到2004年4月己包括85篇学术论文,超过3500个双色点样cDNA 微阵列的实验数据,并且每年增加1000个微阵列实验的数据。另外,SMD提供数据获 取、分析和可视化的界面,目前包括层次聚类和自组织映射等方法,还将加入k-平均聚类 单值分解和丢失值归纳等方法 除了以上3个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 Ymd(YaleMicroarrayDatabasehttp://info.medyaleedumicroarrayArraydb
一方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由 于这些数据没有注释,迫切需要一种标准来描述和存贮 DNA 微阵列基因表达数据,同时 建立公共的 DNA 微阵列数据仓库。欧洲生物信息学研究所( EBI )与德国肿瘤研究中心 (DKFZ) 在 1999 年成立了 MGED 讨论组 (The Microarray Gene Expression Data) 。 MGED ( http://www.mged.org/)是一个国际性的成员联盟,参与人员包括生物学家、计算 机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数 据的共享。当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软 件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组 织开发的微阵列数据标准称为 MIAME(the minimum information about a microarray experiment) ,是对于解释和验证结果所必需的微阵列实验的最小信息描述。 MIAME 不是 微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的 开发。同时, MGED 组织开发了微阵列基因表达标记语言( MAGE-ML , Microarray Gene Expression - Markup Language ),它是一种语言,用来描述跟基于实验的微阵列信息的通 讯。 MAGE-ML 基于 XML ,可以描述微阵列设计、制造、实验组织和实施信息、基因表 达数据等。 MIMAE 标准和 MAGE-ML 语言受到了从事 DNA 微阵列开发和应用研究的 科研人员和组织的广泛关注。美国 NCBI 的 Gene Expression Omnibus (GEO) 、英国的 EBI 的 ArrayExpress 数据库都采用了该标准,斯坦福微阵列数据库( Stanford Microarray Database , SMD )也正在兼容该标准。 目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是 GEO 、 ArrayExpress 和 SMD 。 GEO ( http://www.ncbi.nlm.nih.gov/geo)是由 NCBI 在 2000 年开发的一个基因表达和 杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到 2004 年 3 月,数据仓库中包含内容有 605 个 Platform , 14391 个 Sample , 816 个 Serial 。 Platform 是关于物理反应物的信息,Sample是关于待检测的样本信息和使用单个Platform产 生的数据。Series 是关于样本集的信息,反映样本间的相关性和组织。 ArrayExpress( http://www.ebi.ac.uk/arrayexpress/) 是基于基因表达数据的微阵列公共知识 库,目的是存储被注释的数据,当前包含多个基因表达数据集和与实验相关的原始图像集。 ArrayExpress 数据库接受 MAGE-ML 格式的数据递交或者通过 MIAMExpress 的基于 Web 界面注释和递交的数据。 ArrayExpress 提供一个简单的基于 Web 的数据查询界面, 并直接与Expession Profiler 数据分析工具相连,可以进行表达数据聚类,和其它类型的 Web 数据挖掘,并将进一步开发多个实验和数据库间的交叉查询。 ArrayExpress 数据库中的数 据将与所有由 EBI 维护的或在线的数据库相联接。 SMD ( http://genome-www5.stanford.edu/)是一个使用 Oracle 作为数据库管理软件的关 系数据库。 SMD 存储微阵列实验的原始数据、归一化数据和对应的图像文件。自从 2002 年 1 月 1 日起,到 2004 年 4 月已包括 85 篇学术论文,超过 3500 个双色点样 cDNA 微阵列的实验数据,并且每年增加 1000 个微阵列实验的数据。另外, SMD 提供数据获 取、分析和可视化的界面,目前包括层次聚类和自组织映射等方法,还将加入 k- 平均聚类、 单值分解和丢失值归纳等方法。 除了以上 3 个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 YMD (Yale Microarray Database , http://info.med.yale.edu/ microarray/) 、 ArrayDB