生物信息学 人类基因组计划的目的之一就是找到人类基因组中的所有基因。 如何筛选分离各疾病的致病基因,获得疾病的表型相关基因信息的工 作才刚开始。我们需要在现有的基因测序的工作平台上,强化生物信 息学平台的建设,从而加快对突发性疫情、公共卫生的监控,以及对 致病源进行快速有效的分析和解决。此外,结合生物芯片数据分析, 确定药物作用靶,再利用计算机技术进行合理的药物设计,将是新药 开发的主要途径。 5.农林牧渔学 基因组计划也加快了农业生物功能基因组的研究,加快了转基因 动植物育种所需生物信息学研究的步伐。通过比较基因组学、表达分 析和功能基因组分析识别重要基因,为培育转基因动植物、改良动植 物的质量和数量性状奠定了基础。通过分析病虫害、寄生生物的信号 受体和转录途径组分,进行农业化合物设计,结合化学信息学方法, 鉴定可用于杀虫剂和除草剂的潜在化学成分。此外,通过此方法可以 进行动植物遗传资源研究,保护生物多样性;还可以对工业发酵菌进 行代谢工程的研究,有目的地控制产品的生产。 6.分子和生态进化 另一个重要的研究对象就是分子和生态进化。通过比较不同生物 基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。 从各种基因结构与成分的进化、密码子使用的进化,到进化树的构建, 各种理论上和实验上的课题都等待着生物信息学家的研究。 11
生物信息学 11 人类基因组计划的目的之一就是找到人类基因组中的所有基因。 如何筛选分离各疾病的致病基因,获得疾病的表型相关基因信息的工 作才刚开始。我们需要在现有的基因测序的工作平台上,强化生物信 息学平台的建设,从而加快对突发性疫情、公共卫生的监控,以及对 致病源进行快速有效的分析和解决。此外,结合生物芯片数据分析, 确定药物作用靶,再利用计算机技术进行合理的药物设计,将是新药 开发的主要途径。 5.农林牧渔学 基因组计划也加快了农业生物功能基因组的研究,加快了转基因 动植物育种所需生物信息学研究的步伐。通过比较基因组学、表达分 析和功能基因组分析识别重要基因,为培育转基因动植物、改良动植 物的质量和数量性状奠定了基础。通过分析病虫害、寄生生物的信号 受体和转录途径组分,进行农业化合物设计,结合化学信息学方法, 鉴定可用于杀虫剂和除草剂的潜在化学成分。此外,通过此方法可以 进行动植物遗传资源研究,保护生物多样性;还可以对工业发酵菌进 行代谢工程的研究,有目的地控制产品的生产。 6.分子和生态进化 另一个重要的研究对象就是分子和生态进化。通过比较不同生物 基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。 从各种基因结构与成分的进化、密码子使用的进化,到进化树的构建, 各种理论上和实验上的课题都等待着生物信息学家的研究
生物信息学 第三节生物信息学的主要应用 一、生物信息学数据库 生物信息学很大一部分工作体现在生物数据的收集、存储、管理 与提供上,包括:建立国际基本生物信息库和生物信息传输的国际联 网系统:建立生物信息数据质量的评估与检测系统:生物信息工具开 发和在线服务;生物信息可视化和专家系统。比较著名的与生物有关 的数据资源有NCBI、EMBL、KEGG等。 (一)数据库建设 生物数据库的建设是进行生物信息学研究的基础,尽管目前已有 许多公共数据库可供使用,如GenBank,且它们还同时集成开发了相 应的生物分析软件工具,如NCBI的BLAST系列工具 (http://blast.ncbi.nlm.nih.gov/Blast.cgi)。但我们进行专项研究时,往 往需要组建新的数据库。建立自己的数据库,就必须分析数据库的储 存形式和复杂程度,选择什么数据库,怎么开发信息交流平台,要不 要提供相应的分析程序,甚至要不要将各搜索算法硬件化,实行并行 计算、显卡处理器(GPU)计算和先进的内存管理以提高速度等。此 外,也需要考虑架设数据库的成本。Oracle(http:/www.oracle.com) 这类大型数据库的价格较高,而免费的MySQL(http:/www.mysql..com) 则可能会有功能上的缺失。目前来看,基于UNX开发的共享数据库 PostgreSQL(http:/www.postgresql.org)较为适宜。此外,XML类数 据库亦可提供一些解决方案。 (二)数据库整合和数据挖掘 12
生物信息学 12 第三节 生物信息学的主要应用 一、生物信息学数据库 生物信息学很大一部分工作体现在生物数据的收集、存储、管理 与提供上,包括:建立国际基本生物信息库和生物信息传输的国际联 网系统;建立生物信息数据质量的评估与检测系统;生物信息工具开 发和在线服务;生物信息可视化和专家系统。比较著名的与生物有关 的数据资源有 NCBI、EMBL、KEGG 等。 (一)数据库建设 生物数据库的建设是进行生物信息学研究的基础,尽管目前已有 许多公共数据库可供使用,如 GenBank,且它们还同时集成开发了相 应 的 生 物 分 析 软 件 工 具 , 如 NCBI 的 BLAST 系 列 工 具 (http://blast.ncbi.nlm.nih.gov/Blast.cgi)。但我们进行专项研究时,往 往需要组建新的数据库。建立自己的数据库,就必须分析数据库的储 存形式和复杂程度,选择什么数据库,怎么开发信息交流平台,要不 要提供相应的分析程序,甚至要不要将各搜索算法硬件化,实行并行 计算、显卡处理器(GPU)计算和先进的内存管理以提高速度等。此 外,也需要考虑架设数据库的成本。Oracle(http://www.oracle.com) 这类大型数据库的价格较高,而免费的 MySQL(http://www.mysql.com) 则可能会有功能上的缺失。目前来看,基于 UNIX 开发的共享数据库 PostgreSQL(http://www.postgresql.org)较为适宜。此外,XML 类数 据库亦可提供一些解决方案。 (二)数据库整合和数据挖掘
生物信息学 生物数据库覆盖面广,分布分散且异质。当根据一定的要求将多 个数据库整合在一起提供综合服务、提供数据库的一体化和集成环境 时,最简单的方法是用超级链接或进行拷贝再整理。但往往简单的链 接并不能符合要求,再整理涉及数据下载和更新的问题,而且不是真 正意义上的整合”。目前使用较多的是联合数据库系统,它是BM分 布式数据库解决方案的重要组成部分,支持用户或应用程序在同一条 SQL语句中查询不同数据库甚至不同数据库管理系统中的数据。也有 直接基于Internet技术而进行远程查询,从而进行文本数据挖掘和再 整理的。由于生物的分支学科较多,整合时还需从语义学的角度考虑 不同数据库的一致性问题,其实这已经成为了通过标准查询机制来连 接数据库的一大阻碍,Ontology技术可能可以解决这一问题。 二、序列分析 (一)序列比对 生物信息学最基本的操作对象是核酸序列和氨基酸序列。1955年 桑格(FrederickSanger)完成了第一个蛋白质一牛胰岛素化学结构 的测定。1977年,他领导的研究小组再一次成功地测定了第一个噬菌 体ΦX174全基因组5386个碱基对的核苷酸序列,并发明了快速测定 DNA序列的新方法。此后,全世界生物科学研究进入了分子水平。 在使用鸟枪法进行DNA测序时,完整的DNA链被打散为成千上万 条长600~800个核苷酸的DNA片段,这些DNA片段的两端相互重 叠,只有依照正确的顺序组合,才能还原为完整的DNA序列。对于 较大的基因组,鸟枪法能够迅速地测定DNA片段的序列,但将它们 13
生物信息学 13 生物数据库覆盖面广,分布分散且异质。当根据一定的要求将多 个数据库整合在一起提供综合服务、提供数据库的一体化和集成环境 时,最简单的方法是用超级链接或进行拷贝再整理。但往往简单的链 接并不能符合要求,再整理涉及数据下载和更新的问题,而且不是真 正意义上的“整合”。目前使用较多的是联合数据库系统,它是 IBM 分 布式数据库解决方案的重要组成部分,支持用户或应用程序在同一条 SQL 语句中查询不同数据库甚至不同数据库管理系统中的数据。也有 直接基于 Internet 技术而进行远程查询,从而进行文本数据挖掘和再 整理的。由于生物的分支学科较多,整合时还需从语义学的角度考虑 不同数据库的一致性问题,其实这已经成为了通过标准查询机制来连 接数据库的一大阻碍,Ontology 技术可能可以解决这一问题。 二、序列分析 (一)序列比对 生物信息学最基本的操作对象是核酸序列和氨基酸序列。1955年 桑格(FrederickSanger)完成了第一个蛋白质——牛胰岛素化学结构 的测定。1977 年,他领导的研究小组再一次成功地测定了第一个噬菌 体 ΦX174 全基因组 5386 个碱基对的核苷酸序列,并发明了快速测定 DNA 序列的新方法。此后,全世界生物科学研究进入了分子水平。 在使用鸟枪法进行 DNA 测序时,完整的 DNA 链被打散为成千上万 条长 600~800 个核苷酸的 DNA 片段,这些 DNA 片段的两端相互重 叠,只有依照正确的顺序组合,才能还原为完整的 DNA 序列。对于 较大的基因组,鸟枪法能够迅速地测定 DNA 片段的序列,但将它们
生物信息学 组装起来的工作则相当复杂。由于现今几乎所有基因序列均由鸟枪法 测定,基因重组算法是信息生物学研究的重点课题。比较序列的目的 是发现相似的序列,得到保守的区域,它们可能有功能、结构或进化 上的关系。对于一个感兴趣的DNA或蛋白质序列,寻找到与它同源 的序列是基本工作。目前已开发了很多的算法,其中BLAST或FASTA 都是不错的算法.在此基础上开发的PSI-BLAST和megaBLAST等, 针对不同情况有更好的性能。 (二)基因序列注释 越来越多的物种测序工作的开展,迫切需要全基因组的自动注释, 这一直都是生物信息学的研究领域。Ensembl是由EBI和Sanger研 究院合作的一个项目,利用大型计算机根据已有的蛋白质证据来对 DNA序列进行自动注释。自动寻找基因和调控元件的工作通常需要 的步骤包括:翻译起始点和终止点的确定,潜在的阅读框、剪切位点 的识别,基因结构的构建,各种反式和顺式调控元件的识别等。除此 以外,转录起始位点和可变剪切体的鉴定等工作都可利用计算生物学 方法从庞大的基因组数据中提取出生物学信息,把它注释并图形化显 示给生物学家。 三、其他主要应用 (一)比较基因组学 各种模式生物基因组测序任务的陆续完成,为从整个基因组的角 度来研究分子进化提供了条件。比较基因组学的核心课题是识别和建 立不同生物体的基因或其他基因组特征的联系。利用比较基因组学方 14
生物信息学 14 组装起来的工作则相当复杂。由于现今几乎所有基因序列均由鸟枪法 测定,基因重组算法是信息生物学研究的重点课题。比较序列的目的 是发现相似的序列,得到保守的区域,它们可能有功能、结构或进化 上的关系。对于一个感兴趣的 DNA 或蛋白质序列,寻找到与它同源 的序列是基本工作。目前已开发了很多的算法,其中BLAST或FASTA 都是不错的算法。在此基础上开发的 PSI-BLAST 和 megaBLAST 等, 针对不同情况有更好的性能。 (二)基因序列注释 越来越多的物种测序工作的开展,迫切需要全基因组的自动注释, 这一直都是生物信息学的研究领域。Ensembl 是由 EBI 和 Sanger 研 究院合作的一个项目,利用大型计算机根据已有的蛋白质证据来对 DNA 序列进行自动注释。自动寻找基因和调控元件的工作通常需要 的步骤包括:翻译起始点和终止点的确定,潜在的阅读框、剪切位点 的识别,基因结构的构建,各种反式和顺式调控元件的识别等。除此 以外,转录起始位点和可变剪切体的鉴定等工作都可利用计算生物学 方法从庞大的基因组数据中提取出生物学信息,把它注释并图形化显 示给生物学家。 三、其他主要应用 (一)比较基因组学 各种模式生物基因组测序任务的陆续完成,为从整个基因组的角 度来研究分子进化提供了条件。比较基因组学的核心课题是识别和建 立不同生物体的基因或其他基因组特征的联系。利用比较基因组学方
生物信息学 法可以研究不同物种间的基因组结构的关系和功能。发现基因组中新 的非编码功能元件是很有前途的应用。起初,真核生物中基因预测依 靠概率模型预测得到,该方法的缺点是会产生很多的假阳性。通过比 较不同物种间的同源基因可以大大提高预测的精度和准度。例如,在 人类基因预测上,老鼠的基因信息起到了很重要的作用。 (二)基因和蛋白质的表达分析 进入后基因组时代,高通量技术高速发展并得到广泛应用。多种 生物学技术可以用于测量基因的表达,如微阵列、表达序列标签、基 因表达连续分析、大规模平行信号测序、多元原位杂交法等。所有这 些方法均严重依赖于环境并能产生大量高噪声的数据,而生物信息学 致力于发展一套统计学工具,以从中提取有用的信息。通过蛋白质微 阵列技术或高通量质谱分析对生物标本进行测量所获得的数据中,包 含有大量生物标本内蛋白质的信息,生物信息学被广泛地应用于这些 数据的分析。对于前者,生物信息学所面临的问题与NA微阵列数 据分析中遇到的问题相似;对于后者,生物信息学将所获得的大量质 谱数据与通过已知蛋白质数据库预测的数据进行比较,并使用复杂的 统计学方法进行进一步分析。 (三)生物芯片大规模功能表达谱的分析 生物芯片因为其具有高集成度、高并行处理能力及可自动化分析 的优点,可对不同组织来源、不同细胞类型、不同生理状态的基因表 达和蛋白质反应进行监测,从而获得功能表达谱。此外,生物芯片还 可进行DNA、蛋白质的快速检测及药物筛选等。由此可见,无论是 15
生物信息学 15 法可以研究不同物种间的基因组结构的关系和功能。发现基因组中新 的非编码功能元件是很有前途的应用。起初,真核生物中基因预测依 靠概率模型预测得到,该方法的缺点是会产生很多的假阳性。通过比 较不同物种间的同源基因可以大大提高预测的精度和准度。例如,在 人类基因预测上,老鼠的基因信息起到了很重要的作用。 (二)基因和蛋白质的表达分析 进入后基因组时代,高通量技术高速发展并得到广泛应用。多种 生物学技术可以用于测量基因的表达,如微阵列、表达序列标签、基 因表达连续分析、大规模平行信号测序、多元原位杂交法等。所有这 些方法均严重依赖于环境并能产生大量高噪声的数据,而生物信息学 致力于发展一套统计学工具,以从中提取有用的信息。通过蛋白质微 阵列技术或高通量质谱分析对生物标本进行测量所获得的数据中,包 含有大量生物标本内蛋白质的信息,生物信息学被广泛地应用于这些 数据的分析。对于前者,生物信息学所面临的问题与 RNA 微阵列数 据分析中遇到的问题相似;对于后者,生物信息学将所获得的大量质 谱数据与通过已知蛋白质数据库预测的数据进行比较,并使用复杂的 统计学方法进行进一步分析。 (三)生物芯片大规模功能表达谱的分析 生物芯片因为其具有高集成度、高并行处理能力及可自动化分析 的优点,可对不同组织来源、不同细胞类型、不同生理状态的基因表 达和蛋白质反应进行监测,从而获得功能表达谱。此外,生物芯片还 可进行 DNA、蛋白质的快速检测及药物筛选等。由此可见,无论是