生物信息学课程Bioinformatics第十三章生物信息学实验基础陈迪俊南京大学
生物信息学 课程 Bioinformatics 陈迪俊 南京大学 第十三章 生物信息学实验基础
第一节生物信息学编程概述(生物技术与信息技术融合)目录Linux系统及编程语言简介(生物问题>信息表示)第二节数据分析流程搭建第三节(生物数据→知识发现)第四节数据库开发基础(生物数据/知识图谱→数据再利用
目 录 第一节 生物信息学编程概述(生物技术与信息技术融合) 第二节 Linux系统及编程语言简介(生物问题 → 信息表示) 第四节 数据库开发基础(生物数据/知识图谱 → 数据再利用) 第三节 数据分析流程搭建(生物数据 → 知识发现)
生物信息学课程第一节:生物信息学编程概述Bioinformatics·生物信息学编程·利用计算工具和算法来处理和分析生物“大”数据“高通量”生物技术生物学数据居,以解答生物学问题和测序、质谱、成像围推动生物科学新发现计算计算机(信息)技术方法·自的是将复杂的生物问题转化为可编程、机器学习、统计建模等以用信息化方法(包括代码和模型)表示并进行计算和分析从而发现新新规律或者新发现知识发现/图谱规律的过程。数据库、应用程序2
生物信息学 课程 Bioinformatics 第一节:生物信息学编程概述 • 生物信息学编程 • 利用计算工具和算法来处理和分析 生物学数据,以解答生物学问题和 推动生物科学新发现。 • 目的是将复杂的生物问题转化为可 以用信息化方法(包括代码和模型) 表示并进行计算和分析从而发现新 规律的过程。 生物“大”数据 新规律或者新发现 计算 方法 “高通量”生物技术 测序、质谱、成像 2 计算机(信息)技术 编程、机器学习、 统计建模等 知识发现/图谱 数据库、应用程序
生物信息学课程生物信息学编程Bioinformatics·生物问题→信息表示>新规律/发现福六生物表示(微观到宏观)信息表示(数据、模型和代码)结果表示(新规律、发现)3
生物信息学 课程 Bioinformatics 生物信息学编程 • 生物问题 → 信息表示 → 新规律/发现 3
生物信息学课程生物技术与信息技术的协同发展Bioinformatics生物信息起源期生物信息初创期生物信息成熟期:高通量时代分子进化理论:PaulingL(1962).GenBank释放(1982)-,二代测序技术(~2005)第一个生物序列数据库AtlasofProtein:Bloinformatics杂志前身被创建(1985)oRoche/454、Illumina Solexa,ABISOLiDSequences : Dayhoff M (1965).功能基因组计划NCBI成立(1988)-第一个生物信息学软件COMPROTEIN:。HapMap计划(2002)BLAST算法(1990)Dayhoff M和 LedleyRS (1958-1962)白80ENCODE计划(2003)Needleman-Wunsch序列比对算法:。表观基因组计划(2003)NeedlemanSB和WunschCD(1970)。癌症基因组计划(TCGA,2006)。宏基因组计划(HMP,2007)PAM矩阵:DayhoffM及其同事(1978)。1000基因组计划(2008)2010-至今1970-19801990-2000整合生物学OOOO系统生物学1950-19701980-19902000-2010生物信息萌芽期生物信息发展期:基因组学兴起生物信息黄金期:大数据时代第一代测序技术Sanger法(链终止法):Sanger中心成立(1993)三代测序技术(2010)SangerF (1977)OEMBL核酸数据库(1993)PacBio(2010)、ONT(2014)-Bioinformatics概念首次提出:HogewegP生物大数据科学计划-Pubmed数据库(1997)-和HesperB(1978)。英国10万人基因组计划(2012),人类基因组计划(HGP)第一款DNA序列分析软件Staden:。精准医疗(2015)。人类表型组计划BonfieldJ和StadenR(1979)模式物种基因组:酵母(1996)、果蜡(2017 )(1999)、线虫(1998)、拟南芥(2000)国家基因组科学数据中心成立(2016)-基因组拼接软件AlphaFold(2018),AlphaFold3(2024)GeneFormerscGPT,scFoundation(2023
生物信息学 课程 Bioinformatics 1950-1970 1970-1980 1990-2000 ▪ Sanger 中⼼成⽴(1993) ▪ EMBL 核酸数据库(1993) ▪ Pubmed数据库(1997) ▪ ⼈类基因组计划(HGP) ▪ 模式物种基因组:酵⺟(1996)、果蝇 (1999)、线⾍(1998)、拟南芥(2000) ▪ 基因组拼接软件 ▪ GenBank 释放(1982) ▪ Bioinformatics 杂志前⾝被创建(1985) ▪ NCBI 成⽴(1988) ▪ BLAST 算法(1990) 1980-1990 ⽣物信息萌芽期 ▪ 第⼀代测序技术 Sanger 法(链终⽌法): Sanger F(1977) ▪ Bioinformatics 概念⾸次提出:Hogeweg P 和 Hesper B(1978) ▪ 第⼀款DNA序列分析软件 Staden: Bonfield J 和 Staden R(1979) ⽣物信息起源期 ▪ 分⼦进化理论:Pauling L(1962) ▪ 第⼀个⽣物序列数据库 Atlas of Protein Sequences:Dayhoff M (1965) ▪ 第⼀个⽣物信息学软件 COMPROTEIN: Dayhoff M 和 Ledley RS(1958-1962) ▪ Needleman-Wunsch 序列⽐对算法: Needleman SB 和 Wunsch CD(1970) ▪ PAM矩阵: Dayhoff M及其同事(1978) 2000-2010 ⽣物信息发展期:基因组学兴起 ⽣物信息初创期 ⽣物信息成熟期:⾼通量时代 ▪ ⼆代测序技术(~2005) o Roche/454、Illumina Solexa、ABI SOLiD ▪ 功能基因组计划 o HapMap 计划(2002) o ENCODE 计划(2003) o 表观基因组计划(2003) o 癌症基因组计划( TCGA,2006) o 宏基因组计划(HMP,2007) o 1000基因组计划(2008) 2010-⾄今 生物信息黄金期:大数据时代 ▪ 三代测序技术(2010) o PacBio(2010)、ONT(2014) ▪ 生物大数据科学计划 o 英国10万人基因组计划(2012) o 精准医疗(2015)、人类表型组计划 (2017) ▪ 国家基因组科学数据中心成立(2016) ▪ AlphaFold(2018)、AlphaFold3(2024) ▪ GeneFormer、scGPT、scFoundatio 4 n(2023 整合生物学 系统生物学 生物技术与信息技术的协同发展