生物信息学 生物芯片还是蛋白质组技术的发展都更强烈地依赖于生物信息学的 理论与工具。鉴于生物芯片固有的缺陷及实验重复性等问题,以及有 关表达谱的分析还不很精确,仍需大量的工作来提高对斑点图像处理 的能力和系统的分析。近年来,随着第二代测序技术的使用,人们已 普遍运用RNA-Seg技术来进行大规模转录组表达谱的分析(第十四 章)。 (四)蛋白质结构的预测 蛋白质结构的预测是生物信息学最重要的任务之一。蛋白质的一 级结构决定其高级结构,而后者又决定着它的生物学功能,目标是通 过氨基酸序列来预测出蛋白质的三维空间结构。这方面的用途在医药 工业上特别突出,如药物设计、设计各种特殊用途的酶等。对于序列 同源性大于25%的蛋白质,可以使用比较同源模建的方法预测蛋白质 结构,如SWISS-.MODEL和Modeller软件。对于没有合适的模板的 蛋白质预测可以使用折叠识别方法。折叠识别方法尝试寻找该日标序 列可能适合的已知的蛋白质三维结构。如果前两种方法都无效,则要 从头预测(denovomodeling),它的缺点是计算量大、耗时,而且仅适 用于长度为几十个氨基酸的蛋白质片段,因此该方法目前主要作为前 两种基于模板预测法的补充。整体来看,蛋白质结构预测领域还有待 发展,特别是深度学习技术的成功应用有望推动该领域进入一个新的 阶段。 (五)蛋白质与蛋白质相互作用 蛋白质与蛋白质相互作用与识别是当今生命科学研究的前沿和 16
生物信息学 16 生物芯片还是蛋白质组技术的发展都更强烈地依赖于生物信息学的 理论与工具。鉴于生物芯片固有的缺陷及实验重复性等问题,以及有 关表达谱的分析还不很精确,仍需大量的工作来提高对斑点图像处理 的能力和系统的分析。近年来,随着第二代测序技术的使用,人们已 普遍运用 RNA-Seq 技术来进行大规模转录组表达谱的分析(第十四 章)。 (四)蛋白质结构的预测 蛋白质结构的预测是生物信息学最重要的任务之一。蛋白质的一 级结构决定其高级结构,而后者又决定着它的生物学功能,目标是通 过氨基酸序列来预测出蛋白质的三维空间结构。这方面的用途在医药 工业上特别突出,如药物设计、设计各种特殊用途的酶等。对于序列 同源性大于 25%的蛋白质,可以使用比较同源模建的方法预测蛋白质 结构,如 SWISS-MODEL 和 Modeller 软件。对于没有合适的模板的 蛋白质预测可以使用折叠识别方法。折叠识别方法尝试寻找该目标序 列可能适合的已知的蛋白质三维结构。如果前两种方法都无效,则要 从头预测(denovomodeling),它的缺点是计算量大、耗时,而且仅适 用于长度为几十个氨基酸的蛋白质片段,因此该方法目前主要作为前 两种基于模板预测法的补充。整体来看,蛋白质结构预测领域还有待 发展,特别是深度学习技术的成功应用有望推动该领域进入一个新的 阶段。 (五)蛋白质与蛋白质相互作用 蛋白质与蛋白质相互作用与识别是当今生命科学研究的前沿和
生物信息学 热点。基因的复制与转录、蛋白质的翻译与加工、免疫识别、信号传 导等重要细胞生理过程都是通过蛋白质相互作用实现的。能够鉴定特 定蛋白质是否相互作用的生物学实验技术有很多种,如免疫共沉淀、 酵母双杂交系统、双分子荧光互补等,但这些方法无法反映出蛋白质 从空间结构的角度是如何相互作用的。X射线晶体衍射和核磁共振等 结构生物学技术可以高分辨率地展示蛋白质之间在空间上是如何在 结合的,但实验操作十分困难且昂贵。利用计算机技术有望基于蛋白 质的各种性质,如理化性质、初级结构、三维结构等,来对蛋白质互 作进行预测。其中,卷积神经网络、循环神经网络等深度学习技术已 经大幅提高了蛋白质互作的预测精度,但其对训练集的依赖较大且可 解释性仍有待提高。但目前来看,这方面的工作还有很长的路要走。 (六)表型组学 表型组学即通过评估生物体的形态、生理和生化特征,以及与遗 传、表观遗传和环境因素的相关性,对表型进行高通量组学分析。近 年来,表型组学在植物学研究中应用广泛,且被认为可能是未来粮食 安全和第二次绿色革命的关键。植物表型组学是对植物生长发育、性 状等的调查分析。植物表型分析则是从图像和传感器数据中提取和分 析有关植物结构和功能的定量数据。这种方法可以将基因型与表型差 距对应,已普遍用于植物育种、通过遗传标记预测表型等领域。一些 高通量的自动化表型分析平台已被用于不同环境条件下的植物表型 组学研究,有助于研究人员将多参数表型信息与遗传变异联系起来。 其中,植物表型图像的识别与处理是表型组学的重点与难点。一些自 17
生物信息学 17 热点。基因的复制与转录、蛋白质的翻译与加工、免疫识别、信号传 导等重要细胞生理过程都是通过蛋白质相互作用实现的。能够鉴定特 定蛋白质是否相互作用的生物学实验技术有很多种,如免疫共沉淀、 酵母双杂交系统、双分子荧光互补等,但这些方法无法反映出蛋白质 从空间结构的角度是如何相互作用的。X 射线晶体衍射和核磁共振等 结构生物学技术可以高分辨率地展示蛋白质之间在空间上是如何在 结合的,但实验操作十分困难且昂贵。利用计算机技术有望基于蛋白 质的各种性质,如理化性质、初级结构、三维结构等,来对蛋白质互 作进行预测。其中,卷积神经网络、循环神经网络等深度学习技术已 经大幅提高了蛋白质互作的预测精度,但其对训练集的依赖较大且可 解释性仍有待提高。但目前来看,这方面的工作还有很长的路要走。 (六)表型组学 表型组学即通过评估生物体的形态、生理和生化特征,以及与遗 传、表观遗传和环境因素的相关性,对表型进行高通量组学分析。近 年来,表型组学在植物学研究中应用广泛,且被认为可能是未来粮食 安全和第二次绿色革命的关键。植物表型组学是对植物生长发育、性 状等的调查分析。植物表型分析则是从图像和传感器数据中提取和分 析有关植物结构和功能的定量数据。这种方法可以将基因型与表型差 距对应,已普遍用于植物育种、通过遗传标记预测表型等领域。一些 高通量的自动化表型分析平台已被用于不同环境条件下的植物表型 组学研究,有助于研究人员将多参数表型信息与遗传变异联系起来。 其中,植物表型图像的识别与处理是表型组学的重点与难点。一些自
生物信息学 动成像分析方法可将图像信息转换为生长、生理特征,以及抗性和产 量等表型测量值。基于深度学习的图像识别处理技术将会是一个重要 的研究方向。 (七)生物系统模拟 生物体是个复杂的系统,整个系统可以分成多个亚系统。现在的 生物学家越来越清楚地认识到网络涉及生物的方方面面,从而兴起了 一个新概念一系统生物学。LeroyHood认为系统生物学是确定、分 析和整合生物系统在遗传或环境的扰动下所有内部元件间相互作用 关系的一门学科。模拟生物系统对于更好地理解生命的本质活动至关 重要。细胞水平下的代谢网络、信号转导通路、基因调控网络的构建, 以及分析和可视化工作都给生物信息学带来了挑战。另外,人工生命 或虚拟进化的研究往往致力于通过计算机模拟简单的生命形式来理 解进化过程。 (八)代谢网络建模分析 代谢网络涉及生化反应途径、基因调控及信号转导过程(蛋白质 间的作用)等。后基因组时代将研究大规模网络的生命过程,又称为 “网络生物学研究。 1预测调控网络 尽管目前已有多个代谢网络途径数据库,有些数据可以直接参考 使用,而且这些数据库本身除了手工和自动检索文献以补充数据外, 也有开发预测工具的,但是都有局限性和准确性的问题,还需要从基 因组来预测网络,或有针对性地去整合某些数据,研究其规律,开发 18
生物信息学 18 动成像分析方法可将图像信息转换为生长、生理特征,以及抗性和产 量等表型测量值。基于深度学习的图像识别处理技术将会是一个重要 的研究方向。 (七)生物系统模拟 生物体是个复杂的系统,整个系统可以分成多个亚系统。现在的 生物学家越来越清楚地认识到网络涉及生物的方方面面,从而兴起了 一个新概念——系统生物学。LeroyHood 认为系统生物学是确定、分 析和整合生物系统在遗传或环境的扰动下所有内部元件间相互作用 关系的一门学科。模拟生物系统对于更好地理解生命的本质活动至关 重要。细胞水平下的代谢网络、信号转导通路、基因调控网络的构建, 以及分析和可视化工作都给生物信息学带来了挑战。另外,人工生命 或虚拟进化的研究往往致力于通过计算机模拟简单的生命形式来理 解进化过程。 (八)代谢网络建模分析 代谢网络涉及生化反应途径、基因调控及信号转导过程(蛋白质 间的作用)等。后基因组时代将研究大规模网络的生命过程,又称为 “网络生物学”研究。 1.预测调控网络 尽管目前已有多个代谢网络途径数据库,有些数据可以直接参考 使用,而且这些数据库本身除了手工和自动检索文献以补充数据外, 也有开发预测工具的,但是都有局限性和准确性的问题,还需要从基 因组来预测网络,或有针对性地去整合某些数据,研究其规律,开发
生物信息学 算法模型等。已有若干研究小组从事“基因组到代谢网络”的预测。 2.网络普遍性分析 构建调控网络之后,人们对网络的“图论”方面的属性作了分析, 如最短距离、连接度等,试图给出一些重要的结论;也有分析其最小 单元的代谢途径等。越来越多的人开始开发专门的软件工具来自动分 析大规模网络系统的物理属性,提供路径导航、模式搜索、图形简化 等分析手段。 3.建立模型分析 目前已有若干个比较优秀的代谢网络建模工具,如Copasi (htp:www.copasi.org)、E-cell(http:/ww.e-cell.org)等,它们大都 基于代谢控制分析原理,使用常微分方程来求解反应速率。基于标准 化数据输出输入考虑,已经组成了合作组,共同支持SBML (http://sbml..org)数据交换。其他形式的建模工具也很多,如用随机 方法处理的,因为毕竟确切的动态参数目前还很难得到。其他如用 Petrinet进行建模的,由于其强大的数学计算功能和明了的示图形式, 也越来越多地引起人们的兴趣。另外,如何自动建立大规模的代谢网 络,也是个正在进行中的课题。 与代谢分析直接相关的便是系统生物学研究,它将是后基因组时 代最为突出的研究方向。EMBL(http:/www.embl.de)2006~2015年 战略发展目标中已将系统生物学列为三大主要挑战之一。它要求我们 看待生命活动过程要用系统的眼光,而不能只盯住一个方面的数据分 析而隔离联系。所谓的VirtualCell(虚拟细胞)”模型就是基于系统考 19
生物信息学 19 算法模型等。已有若干研究小组从事“基因组到代谢网络”的预测。 2.网络普遍性分析 构建调控网络之后,人们对网络的“图论”方面的属性作了分析, 如最短距离、连接度等,试图给出一些重要的结论;也有分析其最小 单元的代谢途径等。越来越多的人开始开发专门的软件工具来自动分 析大规模网络系统的物理属性,提供路径导航、模式搜索、图形简化 等分析手段。 3.建立模型分析 目前已有若干个比较优秀的代谢网络建模工具,如 Copasi (http://www.copasi.org)、E-cell(http://www.e-cell.org)等,它们大都 基于代谢控制分析原理,使用常微分方程来求解反应速率。基于标准 化数据输出输入考虑,已经组成了合作组,共同支持 SBML (http://sbml.org)数据交换。其他形式的建模工具也很多,如用随机 方法处理的,因为毕竟确切的动态参数目前还很难得到。其他如用 Petrinet 进行建模的,由于其强大的数学计算功能和明了的示图形式, 也越来越多地引起人们的兴趣。另外,如何自动建立大规模的代谢网 络,也是个正在进行中的课题。 与代谢分析直接相关的便是系统生物学研究,它将是后基因组时 代最为突出的研究方向。EMBL(http://www.embl.de)2006~2015 年 战略发展目标中已将系统生物学列为三大主要挑战之一。它要求我们 看待生命活动过程要用系统的眼光,而不能只盯住一个方面的数据分 析而隔离联系。所谓的“VirtualCell(虚拟细胞)”模型就是基于系统考
生物信息学 虑。 (九)计算进化生物学 引入信息学到进化生物学中,使得生物学家可以通过测量DNA 上的变化来追踪大量生物的进化事件。通过比较全基因组,还可以研 究更复杂的进化事件,如基因复制、水平基因转移、物种形成等,为 种群进化建立复杂的计算模型,以预测种群随时间的演化。 (十)生物多样性研究 生物多样性数据库集合了物种的各种信息。计算模拟种群动力学 过程,或计算人工培育下或濒危情况下的遗传健康状况。生物信息学 在这方面一个重要的前景是保存大量物种的遗传信息,可以把自然的 遗传信息保存成电子信息,为濒危物种建立基因库,将各物种的基因 组信息保存下来,这样即便在将来这些物种灭绝了,人类也可能利用 它们的基因组信息重新创造出它们。 (十一)合成生物学 合成生物学这个术语是由波兰遗传学家瓦克罗·斯巴斯基 (WaclawSzybalski)在1974年提出的。目前合成生物学仍然没有一 个明确的定义,一般认为合成生物学是依据生物学、化学、物理学和 工程学等原理设计的优越的或新型的生物系统。合成生物学涉及许多 不同的生物学研究领域,如功能基因组学、蛋白质工程、化学生物学、 代谢工程、系统生物学和生物信息学,它将自然科学和工程科学结合 到一起进行生物学上的研究。由于近几年来在系统生物学和DNA合 成与测序等新技术上取得了长足的进步,合成生物学逐步形成了自己 20
生物信息学 20 虑。 (九)计算进化生物学 引入信息学到进化生物学中,使得生物学家可以通过测量 DNA 上的变化来追踪大量生物的进化事件。通过比较全基因组,还可以研 究更复杂的进化事件,如基因复制、水平基因转移、物种形成等,为 种群进化建立复杂的计算模型,以预测种群随时间的演化。 (十)生物多样性研究 生物多样性数据库集合了物种的各种信息。计算模拟种群动力学 过程,或计算人工培育下或濒危情况下的遗传健康状况。生物信息学 在这方面一个重要的前景是保存大量物种的遗传信息,可以把自然的 遗传信息保存成电子信息,为濒危物种建立基因库,将各物种的基因 组信息保存下来,这样即便在将来这些物种灭绝了,人类也可能利用 它们的基因组信息重新创造出它们。 (十一)合成生物学 合成生物学这个术语是由波兰遗传学家瓦克罗·斯巴斯基 (WaclawSzybalski)在 1974 年提出的。目前合成生物学仍然没有一 个明确的定义,一般认为合成生物学是依据生物学、化学、物理学和 工程学等原理设计的优越的或新型的生物系统。合成生物学涉及许多 不同的生物学研究领域,如功能基因组学、蛋白质工程、化学生物学、 代谢工程、系统生物学和生物信息学,它将自然科学和工程科学结合 到一起进行生物学上的研究。由于近几年来在系统生物学和 DNA 合 成与测序等新技术上取得了长足的进步,合成生物学逐步形成了自己