第六章核酸序列分析 DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日 益増加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、 载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都 是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和 信息分析时刻联系在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结 构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际EST数据库 ( dbest)和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs以 及各种功能位点,如剪接与可变剪接位点等 到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发 现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。 EST序列( Expressed Sequence Tags)到1999年12月已搜集了约200万条,它大约覆 盖了人类基因的90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同 时1998年国际上又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新 基因、新SNPs以及各种功能位点是近几年的重要研究方向 虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看 来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调 控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取 得重要成果的源泉。 在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手 段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的 比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地 揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。 6.1基因组序列分析工具 1. Wisconsin软件包(cCG) Genetics Computer group公司开发的 Wisconsin软件包,是一组综合性的序列分析 程序,使用公用的核酸和蛋白质数据库。 Sealab是其图形用户界面(GUI),通过它可 以使用所有 Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用 于创建、显示、编辑和注释序列。 Sealab也可以被扩展使其可以包括其它公用或非公用的 程序和数据库。 Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包 括所有程序的完整目录以及详细的描述可以在 Wisconsin软件包的程序使用文档中找到。 GCG支持两种核酸数据库( GenBank数据库,简化版的EMBL核酸序列数据库)和三种蛋白质数 据库(PIR, SWISS-PROT,SP- TrEMBL)。这些数据库既有GCG格式的(供大多数 Wisconsin软
第六章 核酸序列分析 DNA 序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日 益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、 载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都 是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和 信息分析时刻联系在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结 构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际 EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新 SNPs 以 及各种功能位点,如剪接与可变剪接位点等。 到 1998 年底在人类的约 10 万个基因中有 3 万多个已被发现,尚有约 7 万个未被发 现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。 EST 序列 (Expressed Sequence Tags) 到 1999 年 12 月已搜集了约 200 万条,它大约覆 盖了人类基因的 90 %,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同 时 1998 年国际上又开展了以 EST 为主发现新 SNPs 的研究。因此利用 EST 数据库发现新 基因、新 SNPs 以及各种功能位点是近几年的重要研究方向。 虽然对约占人类基因组 95 %的非编码区的作用人们还不清楚,但从生物进化的观点看 来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调 控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取 得重要成果的源泉。 在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手 段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的 比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地 揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。 6.1 基因组序列分析工具 1. Wisconsin 软件包( GCG ) Genetics Computer Group 公司开发的 Wisconsin 软件包,是一组综合性的序列分析 程序,使用公用的核酸和蛋白质数据库。 SeqLab 是其图形用户界面( GUI ),通过它可 以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用 于创建、显示、编辑和注释序列。 SeqLab 也可以被扩展使其可以包括其它公用或非公用的 程序和数据库。 Wisconsin 软件包由 120 多个独立的程序组成,每个程序进行一项单一的分析任务。包 括所有程序的完整目录以及详细的描述可以在 Wisconsin 软件包的程序使用文档中找到。 GCG支持两种核酸数据库(GenBank数据库, 简化版的 EMBL核酸序列数据库)和三种蛋白质数 据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有 GCG 格式的(供大多数 Wisconsin 软
件包程序使用),也有 BLAST格式的(供 BLAST数据库搜索程序使用)。同时还提供了用于 LookUp程序以及数据库参考搜索的索引。 关于GCG, Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主 页以及 Wisconsin软件包的用户手册中找到。GCG主页提供了更新信息以及 Wisconsin软件 包程序的完整列表 Sealab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关 问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优 点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。 Sealab 可以解决的序列分析问题 (1)在两条mNMA中寻找开放阅读框架,翻译并对比RM与蛋白质序列 对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行 核酸与氨基酸序列间的两两对比 把序列加入 Sealab editor中,从 Functions菜单中选中Map选项运行Map程序。Map 输出文件包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止 位置可进行标记并选为 Sealab editor中序列显示的范围,然后可用Edit菜单的 Translate 操作进行翻译。翻译结果自动出现在 Sealab editor中, 两条相关的核酸或蛋白质序列可用Gap程序或 Bestfit程序进行对比。Gap程序寻找两 条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。 Bestfit程序 寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。 (2)通过参考搜索寻找数据库中的相关条目并进行对比 研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的 多序列对比。 从 Functions菜单中选取 LookUp程序。 LookUp在数据库条目的参考信息部分搜索描述 词并建立匹配条目的列表。在参考部分的 Definiton, Author, Keyword和 Organism域中搜 索描述词并在词之间使用“and”(&)、“or”(|)以及“ but not”(!)布尔表达式。 例如,在 SWISS-PRQT条目的 Description域搜索“ lactate& dehydrogenase&h& chain 将产生一个输出文件,其中列出了乳酸脱氢酶H链( lactate dehydrogenase H chain)条 目。这个输出文件可以从 Output Manager窗口中加以显示,然后与用户的序列一起添加到 Sealab editor中 要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从 Functions 菜单中运行 PileUp程序。由 PileUp产生的多序列文件也列在 Output Manager窗口中并可 以直接添加到 Sealab editor中。推荐采用这一步的原因在于数据库条目的特征表格 ( Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的, 并且如果数据库条目有相似的特征,这些特征可被附加给用户序列
件包程序使用),也有 BLAST 格式的(供 BLAST 数据库搜索程序使用)。同时还提供了用于 LookUp 程序以及数据库参考搜索的索引。 关于 GCG,Wisconsin 软件包,支持的平台以及硬件需求的一般性信息可以在 GCG 的主 页以及 Wisconsin 软件包的用户手册中找到。GCG 主页提供了更新信息以及 Wisconsin 软件 包程序的完整列表。 SeqLab 中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关 问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优 点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab 可以解决的序列分析问题: (1)在两条 mRNA 中寻找开放阅读框架,翻译并对比 RNA 与蛋白质序列 对两条相关的 mRNA 进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行 核酸与氨基酸序列间的两两对比。 把序列加入 SeqLab Editor 中,从 Functions 菜单中选中 Map 选项运行 Map 程序。Map 输出文件包含了限制性酶切图和 6 种可能的翻译框架的 ORF 的显示。这些 ORF 的起始和终止 位置可进行标记并选为 SeqLab Editor 中序列显示的范围,然后可用 Edit 菜单的 Translate 操作进行翻译。翻译结果自动出现在 SeqLab Editor 中。 两条相关的核酸或蛋白质序列可用 Gap 程序或 BestFit 程序进行对比。Gap 程序寻找两 条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit 程序 寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。 (2)通过参考搜索寻找数据库中的相关条目并进行对比 研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的 多序列对比。 从 Functions 菜单中选取 LookUp 程序。LookUp 在数据库条目的参考信息部分搜索描述 词并建立匹配条目的列表。在参考部分的 Definiton, Author, Keyword 和 Organism 域中搜 索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。 例如,在 SWISS-PROT 条目的 Description 域搜索“lactate & dehydrogenase & h & chain” 将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条 目。这个输出文件可以从 Output Manager 窗口中加以显示,然后与用户的序列一起添加到 SeqLab Editor 中。 要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从 Functions 菜单中运行 PileUp 程序。由 PileUp 产生的多序列文件也列在 Output Manager 窗口中并可 以直接添加到 SeqLab Editor 中。推荐采用这一步的原因在于数据库条目的特征表格 (Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的, 并且如果数据库条目有相似的特征,这些特征可被附加给用户序列
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树 克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜 索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系 图 往 Sealab editor中添加一个查询序列并从 Functions菜单中选取 FASTA程序。 FASTA 程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager窗口中加以显 示并直接添加到 Sealab editor中。在这个输出文件中数据库条目与查询序列局部相似性最 好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在 Sealab Editor中。不要的条目可以从 Sealab editor中一起被删除 从 Functions菜单中选中 PileUp程序创建这些序列的多序列对比。输出可从 Output Manager窗口中加以显示并添加到 Sealab editor中更新己经存在的未对比序列。必要时可 对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。 从 Functions菜单中选取 Paup Search程序,程序提供了一个PAUP(进化系统简约性分 析( Phy logenetic Analysis Using Parsimony))中树搜索方式的GOG接口。 PaupDisplay 程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口 (4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索 相似序列 克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望 把这些序列片段重新组装为一条连续的序列。一旦 contig拼接完成,用户可能希望在序列 中寻找阅读框架,翻译并在数据库中搜索相似序列 Fragment Assmbly System的程序可用于拼接交叠序列片段。 GelStart程序创建一个项 目。 Gelenter程序把序列片段复制到项目中。 EmeRge程序寻找片段之间的交叠并把它们 拼接成 contigo GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段之 间的冲突问题。所有这些程序都可以从 Functions菜单中选取。一旦拼接完成,最终构成此 contig的连续序列可以被保存为一个序列文件并添加到 Sealab editor中 使用Map、 Frames、 TestCode或 Codon Preference程序可预测序列中的编码区(所有 这些程序可以从 Functions菜单中选中)。使用Edit菜单的 Select range功能选择这些程 序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也 可以作为核酸共有序列的特征被加入。 选取蛋白质序列然后选择 Functions菜单中 BLAST。 BLAST程序在数据库中搜索与查询 序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从 Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 Sealab Editor或 Main list窗口中,并允许对找到的序列进行进一步分析 (5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在 数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树 克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜 索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系 图。 往 SeqLab Editor 中添加一个查询序列并从 Functions 菜单中选取 FASTA 程序。FASTA 程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager 窗口中加以显 示并直接添加到 SeqLab Editor 中。在这个输出文件中数据库条目与查询序列局部相似性最 好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在 SeqLab Editor 中。不要的条目可以从 SeqLab Editor 中一起被删除。 从 Functions 菜单中选中 PileUp 程序创建这些序列的多序列对比。输出可从 Output Manager 窗口中加以显示并添加到 SeqLab Editor 中更新已经存在的未对比序列。必要时可 对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。 从 Functions 菜单中选取 PaupSearch 程序,程序提供了一个 PAUP(进化系统简约性分 析(Phylogenetic Analysis Using Parsimony))中树搜索方式的 GCG 接口。PaupDisplay 程序为 PAUP 中的树操作,鉴定以及显示方式提供了一个 GCG 接口。 (4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索 相似序列 克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望 把这些序列片段重新组装为一条连续的序列。一旦 contig 拼接完成,用户可能希望在序列 中寻找阅读框架,翻译并在数据库中搜索相似序列。 Fragment Assmbly System 的程序可用于拼接交叠序列片段。GelStart 程序创建一个项 目。GelEnter 程序把序列片段复制到项目中。GelMerge 程序寻找片段之间的交叠并把它们 拼接成 contig。GelAssemble 程序是一个编辑器,可用于编辑这些连续的部分并解决片段之 间的冲突问题。所有这些程序都可以从 Functions 菜单中选取。一旦拼接完成,最终构成此 contig 的连续序列可以被保存为一个序列文件并添加到 SeqLab Editor 中。 使用 Map、Frames、TestCode 或 Codon Preference 程序可预测序列中的编码区(所有 这些程序可以从 Functions 菜单中选中)。使用 Edit 菜单的 Select Range 功能选择这些程 序预测的区域并使用 Edit 菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也 可以作为核酸共有序列的特征被加入。 选取蛋白质序列然后选择 Functions 菜单中 BLAST。BLAST 程序在数据库中搜索与查询 序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从 Output Manager 窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 SeqLab Editor 或 Main List 窗口中,并允许对找到的序列进行进一步分析。 (5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在 数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可 以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用 户可能还希望在计算出的共有序列搜索已知的蛋白质模式 选取待对比的序列,从 Functions菜单中选取 PileUp程序创建多序列对比, PileUp程 序的输出文件可从 Output Manager窗口中加以显示并添加到 SeaLab editor中。用户可以 对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新 运行 PileUp即可。从 PileUp Options窗口中选取" realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分 矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果 的重新对比的区域 用Edit菜单中〔 consensus操作计算对比结果的共有序列。如果保守模式可被辨识,从 Functions菜单中选取 FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘 贴到 FindPatterns模式选择器中,并在数据库中搜索包含这一模式的序列。 此外,运行 Motif程序可在共有序列中搜索已知的蛋白质模式。 Motif在蛋白质序列中 搜索在 PROSITE,蛋白质位点和模式的 PROSITE字典中已知的蛋白质模式。如果辨识出一个 Motif,则给所有序列增加一个特征,并标出它的位置。图4.9显示了一个蛋白质序列的匹 配、一个共有序列以及 Motif搜索的结果。 (6)使用 Profile进行相似性搜索并对比相关序列 序列分析的一个新的扩展领域是 Profile技术。一个 profile是一个位置特定的评分矩 阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有 序列中只包含每个位置的保守残基的信息。 Profile做好后可用于搜索数据库、数据库划分 或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列 与一个对比结果进行对比。 使用 Profilemake程序可创建一个序列对比结果的 profile。使用 Profilesearch程序 可用 profile对数据库进行搜索, ProfileSegment程序可以显示搜索结果。使用 Profilegap 程序可将一个序列与 profile进行对比。 ProfileMake, Profilesearch, Profilesegments 以及 Profilegap程序都可以从 Functions菜单中启动 GCG的主页http://www.gcg.com 2. ACEDB ACEDB是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的 基因组计划。该软件是免费的,并且可运行在Unix和 Macintosh0S系统下, Windows版本 马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱, 新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相 关的文献,基因,描述,和克隆的DNA等。可用于专用的数据分析以及许多永久性数据的采 集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限 的计划,这往往是决定使用 ACEDB的关键因素
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可 以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用 户可能还希望在计算出的共有序列搜索已知的蛋白质模式。 选取待对比的序列,从 Functions 菜单中选取 PileUp 程序创建多序列对比,PileUp 程 序的输出文件可从 Output Manager 窗口中加以显示并添加到 SeqLab Editor 中。用户可以 对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新 运行 PileUp 即可。从 PileUp Options 窗口中选取"realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分 矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果 的重新对比的区域。 用 Edit 菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识,从 Functions 菜单中选取 FindPatterns 选项。从共有序列中剪切下此特征序列模式并把它粘 贴到 FindPatterns 模式选择器中,并在数据库中搜索包含这一模式的序列。 此外,运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序列中 搜索在 PROSITE,蛋白质位点和模式的 PROSITE 字典中已知的蛋白质模式。如果辨识出一个 Motif,则给所有序列增加一个特征,并标出它的位置。图 4.9 显示了一个蛋白质序列的匹 配、一个共有序列以及 Motif 搜索的结果。 (6)使用 Profile 进行相似性搜索并对比相关序列 序列分析的一个新的扩展领域是 Profile 技术。一个 profile 是一个位置特定的评分矩 阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有 序列中只包含每个位置的保守残基的信息。Profile 做好后可用于搜索数据库、数据库划分 或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列 与一个对比结果进行对比。 使用 ProfileMake 程序可创建一个序列对比结果的 profile。使用 ProfileSearch 程序 可用 profile 对数据库进行搜索,ProfileSegment 程序可以显示搜索结果。使用 ProfileGap 程序可将一个序列与 profile 进行对比。ProfileMake, ProfileSearch, ProfileSegments 以及 ProfileGap 程序都可以从 Functions 菜单中启动。 GCG 的主页 http://www.gcg.com 2. ACEDB ACEDB 是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的 基因组计划。该软件是免费的,并且可运行在 Unix 和 Macintosh OS 系统下,Windows 版本 马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱, 新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相 关的文献,基因,描述,和克隆的 DNA 等。可用于专用的数据分析以及许多永久性数据的采 集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限 的计划,这往往是决定使用 ACEDB 的关键因素
3.其它工具 不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完 善之中,具体细节可访问这些测序中心的网站了解 6.2人类和鼠类公共物理图谱数据库的使用 1.物理图谱的类型 物理图谱有许多结构和形式。限制性图谱( restriction map),用于对小区域、如kb 量级做精细结构制图,细胞遗传学图( cytogenetic map),用于对以104kb为长度量级 的区域制图。最常用的两种类型是STS含量图( STS content map)和放射性杂交图( radiation hybrid map),它们的分辨区域都大于1Mb,并且有能使用简易PCR中的定位标记物的优点 在STS含量图中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克 隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个 或多个STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不 是100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据STS 含量图已经建立起一系列重叠群,如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度 由一些因子决定,如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图 以长1Mb的插入YAC库为基础,分辨率为几百个bp。如果使用插入部分较小的克隆载体, 图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的STS。虽然 ˉ般有可能从STS含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精 确测得。尽管如此,STS含量图还是有与克隆原相关的优点,并且可将其用于更进一步的 研究,如次级克隆或DNA测序。到目前为止,STS含量图制图简单而使用最多的来源是巴黎 的CEPH( centre d Etudes du polymorphisme Humain)中的YAC库。它是一个10×覆盖率 的文库,平均插入长度为Mb 放射性杂交图(对片段DNA的断点作图。在此技术中,一个人体细胞系被致死性的 gamma 射线照射,染色体DMA分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几 代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更 多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成 套杂合组,供接下来的制图实验用了。 如果要在一个放射性杂交组中对一个STS作图,那就要将每种杂交组细胞系中的DNA 进行STS的PCR操作。细胞系中如果含有该STS的染色体片段,那么就能得到一个正的PCR 信号。在基因组中相邻很近的STS有相似的固位模式( retention pattern),因为放射性 引起的断点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低,相邻很远的 STS的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出STS在放 射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记 物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数 值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受 的辐射量。一般对基因组大小作图的细胞系分辨率为~1
3.其它工具 不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完 善之中,具体细节可访问这些测序中心的网站了解。 6.2 人类和鼠类公共物理图谱数据库的使用 1 .物理图谱的类型 物理图谱有许多结构和形式。限制性图谱(restriction map),用于对小区域、如 kb 量级做精细结构制图,细胞遗传学图(cytogenetic map),用于对以 10 4 kb 为长度量级 的区域制图。最常用的两种类型是 STS 含量图(STS content map)和放射性杂交图(radiation hybrid map),它们的分辨区域都大于 1Mb,并且有能使用简易 PCR 中的定位标记物的优点。 在 STS 含量图中,STS 标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克 隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个 或多个 STS 被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不 是 100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据 STS 含量图已经建立起一系列重叠群,如含有 STS 的重叠簇克隆。这样一张图的分辨率和覆盖度 由一些因子决定,如 STS 的密度、克隆群体的大小、以及克隆文库的深度。通常 STS 含量图 以长 1Mb 的插入 YAC 库为基础,分辨率为几百个 bp。如果使用插入部分较小的克隆载体, 图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的 STS。虽然 一般有可能从 STS 含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精 确测得。尽管如此,STS 含量图还是有与 克隆原相关 的优点,并且可将其用于更进一步的 研究,如次级克隆或 DNA 测序。到目前为止,STS 含量图制图简单而使用最多的来源是巴黎 的 CEPH(centre d Etudes du Polymorphisme Humain)中的 YAC 库。它是一个 10×覆盖率 的文库,平均插入长度为~1Mb。 放射性杂交图(对片段 DNA 的断点作图。在此技术中,一个人体细胞系被致死性的 gamma 射线照射,染色体 DNA 分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几 代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更 多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一 套杂合组,供接下来的制图实验用了。 如果要在一个放射性杂交组中对一个 STS 作图,那就要将每种杂交组细胞系中的 DNA 进行 STS 的 PCR 操作。细胞系中如果含有该 STS 的染色体片段,那么就能得到一个正的 PCR 信号。在基因组中相邻很近的 STS 有相似的固位模式(retention pattern),因为放射性 引起的断点落在它们中间的几率很小。相邻较远的 STS 固位模式相似性降低,相邻很远的 STS 的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出 STS 在放 射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记 物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数 值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受 的辐射量。一般对基因组大小作图的细胞系分辨率为~1M