(http://genome.nhgrinihgov/arraydb/)BodyMap(http://bodymap.imsu-tokyo.ac.jp/) Expressdb(http://twod.medharvard.edu/expressdb/)HugeIndex(humanGeneExpression Index,htp/ vww. hugeindex org/ welcome/ index htm)等,这些数据库收集的数据往往具 有物种特异性,使用比较方便 72基因表达数据预处理 次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细 胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同 病人等)下的全基因组表达数据就构成了一个GXN的数据矩阵M,通常情况下G>>N,其 中每一个元素表示第i个基因在第j个条件下的表达水平值(在多数应用情况下,是 Rao值或 log(ratio)0),行向量x1=(1,不2,…)代表基因在N个条件下的表 达水平,称为基因i的表达谱,列向量x3=(8” 代表某一条件下的各基因 的表达水平。 x2N X (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据 进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平 是负值或很小的数据、或者明显的噪声数据(单个异常大或小的峰谷信号),同时处理缺 失数据。DNA微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前 景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对 于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯 片数据,可以将低于100的数据全部设置为100。DNA微阵列表达数据由于实验条件 和芯片的因素,检测得到的信号强度往往与细胞中实际的mRNA丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在cDNA微阵列双色实验中,最 后得到的往往是 Ratio值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据 时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio值。在计算 Ratio值时 如果参考样本的信号强度很小,就可能得到很大的 Ratio。如果一个基因谱中仅仅存在单 个特别大的 Ratio值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据 点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和PCA)来说有 着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉 这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的 缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵M中删除:如果没有
( http://genome.nhgri.nih.gov/arraydb/ )、 BodyMap( http://bodymap.ims.u-tokyo.ac.jp/ )、 ExpressDB( http://twod.med.harvard.edu/ExpressDB/) 、 HuGE Index(Human Gene Expression Index , http://www.hugeindex.org/welcome/index.html) 等,这些数据库收集的数据往往具 有物种特异性,使用比较方便。 7.2 基因表达数据预处理 一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细 胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同 病人等)下的全基因组表达数据就构成了一个 G×N 的数据矩阵 M,通常情况下 G>>N,其 中每一个元素 表示第 i 个基因在第 j 个条件下的表达水平值(在多数应用情况下,是 Ratio 值或 log(Ratio) ),行向量 代表基因 i 在 N 个条件下的表 达水平,称为基因 i 的表达谱,列向量 代表某一条件下的各基因 的表达水平。 (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据 进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平 是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ,同时处理缺 失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前 景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对 于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯 片数据,可以将低于 100 的数据全部设置为 100 。 DNA 微阵列表达数据由于实验条件 和芯片的因素,检测得到的信号强度往往与细胞中实际的 mRNA 丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在 cDNA 微阵列双色实验中,最 后得到的往往是 Ratio 值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据 时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio 值。在计算 Ratio 值时, 如果参考样本的信号强度很小,就可能得到很大的 Ratio 。如果一个基因谱中仅仅存在单 个特别大的 Ratio 值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据 点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和 PCA )来说有 着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉 这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的 缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵 M 中删除;如果没有
达到阈值但存在缺失项,对这些缺失项可以进行插值。以0代替缺失项,或用基因表达谱 中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估 较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据 这种关系,利用相邻数据点估算得到缺失值。这种方法类似于k近邻方法,需要有足够的 完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分 而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此,DNA微阵列实验得到 的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基 因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会 对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱 究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相 关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较 少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根: ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。 基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转 换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析 数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对 数转换和标准化两个过程 许多DNA微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio值,对于 Ratio 值,在大多数情况下是转换到对数(log)空间中进行处理,常用的对数底为2,e,10。考虑 时间序列上的基因表达数据,实验结果是相对于0时刻的表达水平。如图81所示,假 设在时间点1,基因的表达水平没有改变,在时间点2,上调2倍,而时间点3,下调 2倍,原始的比率值分别为1.0、20、0.5。在大多数应用中,需要把上调2倍和下 调2倍看作是变化的相同幅度,只是方向不同。在 Ratio空间中,时间点1和2之间的 差异是+10,而时间点1和3之间是-0.5,从数学角度看,上调2倍的数值是下调 倍的2倍。而在log空间中,(为了简化,用2为底),这三个数据点分别为0、1.0 1.0,上调2倍与下调2倍是关于0对称的。因此,对数转换可以使小于1的值变 大于1的值变小,从而使它们关于0对称化,这种变换是否反映了一定的生物学意义,能 更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过 程,都是在log空间中进行的
达到阈值但存在缺失项,对这些缺失项可以进行插值。以 0 代替缺失项,或用基因表达谱 中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估。 较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据 这种关系,利用相邻数据点估算得到缺失值。这种方法类似于 k 近邻方法,需要有足够的 完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分, 而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此, DNA 微阵列实验得到 的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基 因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会 对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱 究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相 关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较 少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根; ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。 基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转 换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析 数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对 数转换和标准化两个过程。 许多 DNA 微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值,对于 Ratio 值,在大多数情况下是转换到对数 (log) 空间中进行处理,常用的对数底为 2, e, 10 。考虑 时间序列上的基因表达数据,实验结果是相对于 0 时刻的表达水平。如 图 8.1 所示,假 设在时间点 1 ,基因的表达水平没有改变,在时间点 2 ,上调 2 倍,而时间点 3 ,下调 2 倍,原始的比率值分别为 1.0 、 2.0 、 0.5 。在大多数应用中,需要把上调 2 倍和下 调 2 倍看作是变化的相同幅度,只是方向不同。在 Ratio 空间中,时间点 1 和 2 之间的 差异是 +1.0 ,而时间点 1 和 3 之间是 -0.5 ,从数学角度看,上调 2 倍的数值是下调 2 倍的 2 倍。而在 log 空间中,(为了简化,用 2 为底),这三个数据点分别为 0 、 1.0 、 -1.0 ,上调 2 倍与下调 2 倍是关于 0 对称的。因此,对数转换可以使小于 1 的值变大, 大于 1 的值变小,从而使它们关于 0 对称化,这种变换是否反映了一定的生物学意义,能 更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过 程,都是在 log 空间中进行的
2.5 Rat 2 log2(Ratio) 1.5 0.5 0.5 -1.5 数据点 图7.1表达数据的Rato和log2( Ratio)表示 数据的标准化是将所有的数据转换到同一个范围内,这样做的好处是方便比较和计算相 关系数,缺点是在标准差接近0的时候,会产生大的噪声,这也是首先要进行数据过滤的 一个重要理由。数据标准化按如下公式进行 ∑(x x=∑ 通过标准化,使得每个基因表达谱的平均值为0,标准差为1。如果要求所有的数据x分 布在[0,1之间,还需要进行如下转换 其中,=m(x,x,…“,不),=m(x,x2“不》),而要求数据满足分布在 ab]区间,则变换如下
图 7.1 表达数据的 Ratio 和 log2(Ratio) 表示 数据的标准化是将所有的数据转换到同一个范围内,这样做的好处是方便比较和计算相 关系数,缺点是在标准差接近 0 的时候,会产生大的噪声,这也是首先要进行数据过滤的 一个重要理由。数据标准化按如下公式进行: (7-2) (7-3) 通过标准化,使得每个基因表达谱的平均值为 0 ,标准差为 1 。如果要求所有的数据 x 分 布在 [0 , 1] 之间,还需要进行如下转换 : (7-4) 其中, , , 而要求数据满足分布在 [a,b] 区间,则变换如下:
(b-a)(x-xmin) 还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同 的对照样本比较,每一个基因,相对于对照样本中那个基因的表达水平,都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这 样,可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就 是平均值/中值中心化,中心化可以减少对照样本的影响。中心化数据同样可以用于去除 某些类型的偏差。例如,许多双色荧光杂交实验的结果没有校正 Ratio值的系统偏差,它 们是由于RNA数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有 的基因与一个固定数值的Rato有放大的效应。在log空间的平均值和中值中心化有校正 这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望 比率是10(在log空间中为0)。通常,更多的是使用中值中心化 目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有 说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体 应用时,往往是根据分析目的和个人经验选择不同的方法 73基因表达差异的显着性分析 用于检测基因表达水平的DNA微阵列实验,应用之一是比较实验,目的是比较两个条 件下的基因表达差异,从中识别出与条件相关的特异性基因,例如,识别可用于肿瘤分型的 特异基因等。为了提高实验的可靠性,对于同一样本,往往有两次或更多次的重复实验,但 是,由于DNA微阵列的费用仍然很昂贵,不可能重复足够多的次数来满足实验数据分析 的要求,因此需要采用统计方法来分析这些数据。对于这些表达数据的分析,目的就是要识 别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件 中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时 也具有生物学意义。常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两 个条件下的 Ratio值,若大于给定阈值,则为表达差异显著的基因:第二类方法采用统计 分析中的t检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性 第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性 例如贝叶斯方法。 73.1倍数分析 早期基于cDNA微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算基 因在两个条件下表达水平的 Ratio值。用g表示基因g在条件i下的表达水平测量值, 因此, Ratio值为g=g12,可表示基因g在条件1和2下的表达水平差异。对 于cDNA微阵列实验,是将两个条件下的样本混合后与cDNA微阵列进行杂交实验,得 到的是成对数据,对每次实验得到的数据计算,最后计算重复实验的平均。而对于 寡核苷酸芯片,首先分别计算两个样本的重复实验的归一化表达水平的平均值,然后计算其
(7-5) 还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同 的对照样本比较,每一个基因,相对于对照样本中那个基因的表达水平,都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这 样,可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就 是平均值 / 中值中心化,中心化可以减少对照样本的影响。中心化数据同样可以用于去除 某些类型的偏差。例如,许多双色荧光杂交实验的结果没有校正 Ratio 值的系统偏差,它 们是由于 RNA 数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有 的基因与一个固定数值的 Ratio 有放大的效应。在 log 空间的平均值和中值中心化有校正 这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望 比率是 1.0( 在 log 空间中为 0) 。通常,更多的是使用中值中心化。 目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有 说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体 应用时,往往是根据分析目的和个人经验选择不同的方法。 7.3 基因表达差异的显著性分析 用于检测基因表达水平的 DNA 微阵列实验,应用之一是比较实验,目的是比较两个条 件下的基因表达差异,从中识别出与条件相关的特异性基因,例如,识别可用于肿瘤分型的 特异基因等。为了提高实验的可靠性,对于同一样本,往往有两次或更多次的重复实验,但 是,由于 DNA 微阵列的费用仍然很昂贵,不可能重复足够多的次数来满足实验数据分析 的要求,因此需要采用统计方法来分析这些数据。对于这些表达数据的分析,目的就是要识 别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件 中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时 也具有生物学意义。常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两 个条件下的 Ratio 值,若大于给定阈值,则为表达差异显著的基因;第二类方法采用统计 分析中的 t 检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性; 第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性, 例如贝叶斯方法。 7.3.1 倍数分析 早期基于 cDNA 微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算基 因在两个条件下表达水平的 Ratio 值。用 表示基因 g 在条件 i 下的表达水平测量值, 因此, Ratio 值为 ,可表示基因 g 在条件 1 和 2 下的表达水平差异。对 于 cDNA 微阵列实验,是将两个条件下的样本混合后与 cDNA 微阵列进行杂交实验,得 到的是成对数据,对每次实验得到的数据计算 ,最后计算重复实验的平均 。而对于 寡核苷酸芯片,首先分别计算两个样本的重复实验的归一化表达水平的平均值,然后计算其