生物信息学基础 教学大纲 一、课程基本情况(中英文对照) 课程编号:02110700 课程中文名称:生物信息学基础 课程英文名称:Fundamental concept of bioinformatics 课程总学时:48 (其中,讲课16,实验32,上机 ,实习) 课程学分:2 开课学期:(春) 开课单位:(牛物学院植物学系生物信息教研室 适用专业:生物科学、生物技术 所需先修课:生物化学,分子生物学,英语四级以上 课程负责人:凌毅 二、课程内容简介(中英文对照) 生物信息学基础是生物学院本科生的专业基础必修课程。它综合了生物学、 遗传学、生物化学、计算机科学、数学、统计学等多学科的知识背景,是现代生 物学研究的重要方法与工具。本课程主要介绍该学科的基础内容,包括网络生物 资源的利用,序列相似性分析的原理及对库搜索方法与结果分析,多序列比对的 应用,序列进化关系的分析,与生物学实验室工作密切相关的生物信息分析工具 与方法,蛋白质的结构预测与模拟、基因组层次上的基因表达与转录分析等,使 学生能够掌握生物信息学的基础知识与概念,了解生物信息学网络资源,熟悉专 用的分析软件与工具,实践具体的操作方法,锻炼在特定的具体实验条件下运用 不同生物信息技术方法的能力。 Fundamental concept of bioinformatics is a required course for the students whose major is Biological Sciences or Bioengineering.It provides an introduction to bioinformatics,the combined field of biology and informatics (information science and technology).The course focuses on methods for protein and nucleotide sequence analysis.In addition, students should familiar with various biologic cal resources, basic principles of sequence or multiple-sequence alignment,phylogenetics, protein structure prediction and expression profile analysis. 三、各部分教学纲要 1、课堂讲授部分教学内容要点与基本要求(16学时) 第一章绪论(1学时) .什么是生物信息学
生物信息学基础 教学大纲 一、 课程基本情况(中英文对照) 课程编号: 02110700 课程中文名称:生物信息学基础 课程英文名称:Fundamental concept of bioinformatics 课程总学时: 48 (其中,讲课 16 ,实验 32 ,上机 ,实习 ) 课程学分:2 开课学期:( 春 ) 开课单位:( 生物学院植物学系生物信息教研室 ) 适用专业:生物科学、生物技术 所需先修课:生物化学,分子生物学,英语四级以上 课程负责人:凌毅 二、 课程内容简介(中英文对照) 生物信息学基础是生物学院本科生的专业基础必修课程。它综合了生物学、 遗传学、生物化学、计算机科学、数学、统计学等多学科的知识背景,是现代生 物学研究的重要方法与工具。本课程主要介绍该学科的基础内容,包括网络生物 资源的利用,序列相似性分析的原理及对库搜索方法与结果分析,多序列比对的 应用,序列进化关系的分析,与生物学实验室工作密切相关的生物信息分析工具 与方法,蛋白质的结构预测与模拟、基因组层次上的基因表达与转录分析等,使 学生能够掌握生物信息学的基础知识与概念,了解生物信息学网络资源,熟悉专 用的分析软件与工具,实践具体的操作方法,锻炼在特定的具体实验条件下运用 不同生物信息技术方法的能力。 Fundamental concept of bioinformatics is a required course for the students whose major is Biological Sciences or Bioengineering. It provides an introduction to bioinformatics, the combined field of biology and informatics (information science and technology). The course focuses on methods for protein and nucleotide sequence analysis. In addition, students should familiar with various biological resources, basic principles of sequence or multiple-sequence alignment, phylogenetics, protein structure prediction and expression profile analysis. 三、各部分教学纲要 •1、课堂讲授部分教学内容要点与基本要求(16 学时) 第一章 绪论 (1 学时) 什么是生物信息学?
令.生物信息学的主要研究领域 .重要的生物信息学中心站点 令.如何查找与研究相关的生物信息资源 第二章生物学数据库及数据的检索4学时 令.以NCBI的资源为例讲解数据库的种类及内容:文献、序列(及序列特 征)、结构、基因组、微阵列及芯片表达数据、蛋白质组学数据、代谢及信 号途径(primary and secondary,experimental and curated 令.数据库的文件格式,序列的格式 令.主要的核酸及蛋白质序列数据库 令.维护核酸序列数据库的重要性 令NCBI各数据库记录间的联系(Neighboring and Hard Link),如何判 别数据库内部的邻近关系 ◆NCBI的Entrez使用方法 令.穿插于课堂内容中的各类相关的专业术语及含义(如BAC、YAC、HTG、 GSS、SNP、STS、genetic map、.physical map、.assembly、.contig、cDNA、 CDS、ORF、EST、exon、intron、primer、promoter、pseudogene等) 第三章序列的相似性分析4学时 令基本概念:比对,空位与空位罚分,同源性,相似性,同一性,直系 同源,旁系同源,记分矩阵,记分与位记分,E值,P值 常用记分矩阵(PAM、BLOSUM)及区别 令.比对的基本类型(序列类型一数据库类型) 令.结果的分析(如何判断结果的显著性) ◇.对库搜索的步骤与策略调整(根据搜索目的调整目标数据库、重复序 列的屏蔽、使用的比对类型及相关参数的调整) 高级比对搜索的应用(快速搜索基因组DNA, 寻找远缘相关蛋白 PSI-BLAST,模式识别的PHI-BAST) 选进: ◆PAM矩阵(PAMI的由来,PAM其他矩阵的推导) ◆比对算法(全局与局部动态规化算法的执行过程) ◆BLAST算法的原理 第四章多序列比对(1学时) 令.多序列比对的应用范围。 .由多序列比对得到的序列特征数据库。 ◇特征序列在数据库中的形式:motif、pattern、consensus sequence、.PSSM、 HMM profile ◇利用Clustal进行多序列比对,工具的特点与步骤。 第五章系统发生分析(1学时) 令.建立进化树的目的 令.基本概念:树根、分支、节点、外组、有根树与无根树、基因树与物 种树、特征和距离
生物信息学的主要研究领域 重要的生物信息学中心站点 如何查找与研究相关的生物信息资源 第二章 生物学数据库及数据的检索(4 学时) 以 NCBI 的资源为例讲解数据库的种类及内容:文献、序列(及序列特 征)、结构、基因组、微阵列及芯片表达数据、蛋白质组学数据、代谢及信 号途径(primary and secondary, experimental and curated) 数据库的文件格式,序列的格式 主要的核酸及蛋白质序列数据库 维护核酸序列数据库的重要性 NCBI 各数据库记录间的联系(Neighboring and Hard Link),如何判 别数据库内部的邻近关系。 NCBI 的 Entrez 使用方法 穿插于课堂内容中的各类相关的专业术语及含义(如 BAC、YAC、HTG、 GSS、SNP、STS、genetic map、physical map、assembly、contig、cDNA、 CDS、ORF、EST、exon、intron、primer、promoter、pseudogene 等) 第三章 序列的相似性分析 (4 学时) 基本概念:比对,空位与空位罚分,同源性,相似性,同一性,直系 同源,旁系同源,记分矩阵,记分与位记分,E 值,P 值 常用记分矩阵(PAM、BLOSUM)及区别 比对的基本类型(序列类型-数据库类型) 结果的分析(如何判断结果的显著性) 对库搜索的步骤与策略调整(根据搜索目的调整目标数据库、重复序 列的屏蔽、使用的比对类型及相关参数的调整) 高级比对搜索的应用(快速搜索基因组 DNA,寻找远缘相关蛋白 PSI-BLAST,模式识别的 PHI-BLAST) 选讲: ◆ PAM 矩阵(PAM1 的由来,PAM 其他矩阵的推导) ◆ 比对算法(全局与局部动态规化算法的执行过程) ◆ BLAST 算法的原理 第四章 多序列比对(1 学时) 多序列比对的应用范围。 由多序列比对得到的序列特征数据库。 特征序列在数据库中的形式:motif、pattern、consensus sequence、PSSM、 HMM profile 利用 Clustal 进行多序列比对,工具的特点与步骤。 第五章 系统发生分析(1 学时) 建立进化树的目的。 基本概念:树根、分支、节点、外组、有根树与无根树、基因树与物 种树、特征和距离
◇.系统发生分析的方法(距离矩阵法PGMA、Neighbor joining,基于特 征的最大简约法)与区别。 ◇.树的置信度检验(自举检验) 令区别系统发生图(phylogram)与进化分子图树(cladogram)的不同。 令.了解进化树图拓朴结构与分支长度的含义。 选讲: ,基因内的替换模式(功能约束、同义与异义替换、插入删除与伪基因, 替换与突变) ◆.估算替换数目 ◆.基因间进化率的变化 ◆.分子时钟假说 第六章核酸及蛋白质序列的预测分析(2学时) ◇,序列中的特征信息 核酸(TF binding domain,promoter,splice site,polyA signal.) 蛋白质:定位信号、跨膜区、功能结构域(模体)、修饰位点。)。 令.特征序列预测的方法(比对,多序列比对,机器学习)。 令.预测结果的准确性指标:概率、敏感性与特异性 选讲: ◆特征序列的预测方法原理(M,神经网络)。 第七章蛋白质的结构预测(2学时) ◆,获得核酸或蛋白质三维结构的方法(实验方法与预测)。 令.PDB数据库及各种结构数据浏览器 令.蛋白质结构类型数据库(SCOP、CATH、DALI、FSSP等) 第八章转录组学内容与数据分析方法简介(1学时) 基因表达的研究内容 令.全基因组表达研究的意义。 ◇.基本概念(cDNA array,0ligonucleotide array,probe,target,PM and MM,probe pair set,MIAME,hybridization, ◆.cDNA array与Oligo array的区别及各自的优缺点。 令微阵列实验的全过程介绍(实验设计、NA样品及探针制备、样本标 记与杂交、图像分析、数据分析、生物学证实、微阵列数据的存储、深 入分析)。 选讲: ◆.芯片数据分析 A.数据的预处理(归一化及散点分析) B. Inferential statistics (t-test,ANOVA) C.Descriptive statistics(欧式距离,Pearson相关系数,clustering, K mean clustering,SOM,PCA) 2、实验部分教学内容与要求(共32学时) 实验一、国际性生物信息中心及重要的生物学资源(类型:演示与验证,4学时)
系统发生分析的方法(距离矩阵法 UPGMA、Neighbor joining,基于特 征的最大简约法)与区别。 树的置信度检验(自举检验) 区别系统发生图(phylogram)与进化分子图树(cladogram)的不同。 了解进化树图拓朴结构与分支长度的含义。 选讲: ◆ 基因内的替换模式(功能约束、同义与异义替换、插入删除与伪基因、 替换与突变) ◆ 估算替换数目 ◆ 基因间进化率的变化 ◆ 分子时钟假说 第六章 核酸及蛋白质序列的预测分析(2 学时) 序列中的特征信息 核酸(TF binding domain, promoter, splice site, polyA signal .) 蛋白质:定位信号、跨膜区、功能结构域(模体)、修饰位点。)。 特征序列预测的方法(比对,多序列比对,机器学习)。 预测结果的准确性指标:概率、敏感性与特异性 选讲: ◆ 特征序列的预测方法原理(HMM,神经网络)。 第七章 蛋白质的结构预测(2 学时) 获得核酸或蛋白质三维结构的方法(实验方法与预测)。 PDB 数据库及各种结构数据浏览器 蛋白质结构类型数据库(SCOP、CATH、DALI、FSSP 等) 第八章 转录组学内容与数据分析方法简介(1 学时) 基因表达的研究内容。 全基因组表达研究的意义。 基本概念(cDNA array, Oligonucleotide array, probe, target, PM and MM, probe pair set, MIAME, hybridization, ) cDNA array 与 Oligo array 的区别及各自的优缺点。 微阵列实验的全过程介绍(实验设计、RNA 样品及探针制备、样本标 记与杂交、图像分析、数据分析、生物学证实、微阵列数据的存储、深 入分析)。 选讲: ◆ 芯片数据分析 A. 数据的预处理(归一化及散点分析) B. Inferential statistics (t-test, ANOVA) C. Descriptive statistics(欧式距离,Pearson 相关系数,clustering, K mean clustering, SOM, PCA) 2、实验部分教学内容与要求(共 32 学时) 实验一、国际性生物信息中心及重要的生物学资源(类型:演示与验证,4 学时)
目的:了解生物信息学的门户网站以及其中的主要资源 内谷容: I、记录NCBI、EBI、ExPASy的全称及网址。 2、NCBI资源的浏览。利用NCBI的site map,了解NCBI的资源分为 哪几类?每一类中又分为哪几个小类?诸如PubMed、OMIM、BLAST、 TaxBrowser、Books、MMDB、Cn3D、VAST等分别属于NCBI的哪一类资源? (EBI、ExPASy选作) 3、根据要求查找相关的数据库及相关信息: 1))植物、动物、微生物专业方向各查找相关模式生物基因组数据库 网站(水稻、拟南芥、人类、小鼠、果蝇、线虫、酵母、大肠杆菌): 写出数据库的名称、网址、建库目的及包含的主要内容: 2)查找一种蛋白质(或核酸)序列数据库的名称、网址及主要内容 3)查找一种蛋白质家族数据库的名称、网址及主要内容。 4)写出你查找相关数据库所使用的方法,步骤。 要求:个人完成实验报告,并以小组为单位进行交流 实验二、数掘库内容、结构与注释的浏览(类型:验证:4学时,实验室:开放) 目的:了解主要数据库的内容及结构,理解各数据库注释的含义。 内容: 1、以NCI、FBI及ExPASV的主要粉据库资源为列,根据且休桔况刘 览研究目标在不同数据库中的记录内容,熟悉不同数据库记录的结构,学会 看懂其中的注释,解释给定序列或基因组数据的含义。 2、学习三维结构浏览器及图谱浏览器的使用方法 要求:熟悉Entrez的检索方法,并根据要求查找文献、基因或相应的结 构,通过数据库间的链接了解相关的各种信息。 实验三、文献信息的查找与管理(类型:设计;2学时,实验室:开放) 目的:以PubMed为例,学会文献数据库的基本查询检索方法,并将下载 的文献信息进行有效的管理。 内容: 有效地使用NCBI Entrez提供的各种主要功能(包括MyNCBI),查 询并下载相关课题或研究方向的论文文摘与文献全文 国内购置的期刊全文数据库及文献获取方法。 Reference Man ag r(及类似软件)的功能与使用。 要求:学会对给定课题进行文献信息的查找。 作业:(综合实验二、三的内容,对给定课题进行研究课题小组、已发 表的文章、相关研究的具体情况(如具体的基因己得到了哪些方面的研究 如果对此基因进行进一步研究,应该从哪方面入手?) 实验四、序列的相似性及同源性分析(类型:综合,4学时 目的:学习序列比对工具BLAST、FASTA等的各种使用方法,学习高级 BLAST的运用,能够对序列数据进行初步的分析
目的:了解生物信息学的门户网站以及其中的主要资源。 内容: 1、记录 NCBI、EBI、ExPASy 的全称及网址。 2、NCBI 资源的浏览。利用 NCBI 的 site map,了解 NCBI 的资源分为 哪几类?每一类中又分为哪几个小类?诸如 PubMed、OMIM、BLAST、 TaxBrowser、Books、MMDB、Cn3D、VAST 等分别属于 NCBI 的哪一类资源? (EBI、ExPASy 选作) 3、根据要求查找相关的数据库及相关信息: 1)植物、动物、微生物专业方向各查找相关模式生物基因组数据库 网站(水稻、拟南芥、人类、小鼠、果蝇、线虫、酵母、大肠杆菌); 写出数据库的名称、网址、建库目的及包含的主要内容; 2)查找一种蛋白质(或核酸)序列数据库的名称、网址及主要内容。 3)查找一种蛋白质家族数据库的名称、网址及主要内容。 4)写出你查找相关数据库所使用的方法,步骤。 要求:个人完成实验报告,并以小组为单位进行交流。 实验二、数据库内容、结构与注释的浏览(类型:验证;4 学时,实验室:开放) 目的:了解主要数据库的内容及结构,理解各数据库注释的含义。 内容: 1、以 NCBI、EBI 及 ExPASy 的主要数据库资源为例,根据具体情况浏 览研究目标在不同数据库中的记录内容,熟悉不同数据库记录的结构,学会 看懂其中的注释,解释给定序列或基因组数据的含义。 2、学习三维结构浏览器及图谱浏览器的使用方法。 要求:熟悉 Entrez 的检索方法,并根据要求查找文献、基因或相应的结 构,通过数据库间的链接了解相关的各种信息。 实验三、文献信息的查找与管理(类型:设计;2 学时,实验室:开放) 目的:以 PubMed 为例,学会文献数据库的基本查询检索方法,并将下载 的文献信息进行有效的管理。 内容: 有效地使用 NCBI Entrez 提供的各种主要功能(包括 MyNCBI),查 询并下载相关课题或研究方向的论文文摘与文献全文。 国内购置的期刊全文数据库及文献获取方法。 Reference Manager(及类似软件)的功能与使用。 要求:学会对给定课题进行文献信息的查找。 作业:(综合实验二、三的内容,对给定课题进行研究课题小组、已发 表的文章、相关研究的具体情况(如具体的基因已得到了哪些方面的研究, 如果对此基因进行进一步研究,应该从哪方面入手?) 实验四、序列的相似性及同源性分析(类型:综合,4 学时) 目的:学习序列比对工具 BLAST、FASTA 等的各种使用方法,学习高级 BLAST 的运用,能够对序列数据进行初步的分析
内容: 根据需要选择BLAST、FASTA的类型进行对库搜索,对得到的结果进 行解释与分析。 利用PSI-BLAST来寻找远缘相关蛋白 利用序列相似性预测蛋白质可能的三级结构。 作业:用BLAST的方法来发现“新基因”。 实验五、多序列比对及系统发育(类型:综合,2学时) 目的:了解蛋白质(序列)功能结构域数据库的基本内容,明确多序列 比对的目的。 内容: 1、了解常用的功能摸体、结构域数据库及数据库记录内容(P0SITE Pfam,InterPro,SMART),发现特定蛋白质中的特征序列(PrositeScan, PfamScan,InterProScan.)。 2、学习利用本地ClustalX,远程服务器Jalview进行家族基因的多 序列比对分析,了解多序列分析中的注意事项。 3、系统发育分析工具MEGA4的使用。 要求:实验报告,对给定的序列进行蛋白质保守结构域的分析并对 pattern或profile进行描述,对系统发育分析的结果进行解释。 实验六、核酸序列的综合分析(类型:综合,4学时) 目的:学习通过常用的在线/本地化的分析与预测工具进行核酸序列的分 析。 内容 基因预测网上工具:利用给定的基因组序列进行1)基因编码区的预 测:2)启动子预测:3)转录因子结合位点的查找。 利用相似性原则来去除测序序列中的载体、对齐基因组与cDNM序列, 用实验室分析软件/网上工具进行序列的拼接,得到较长或完整 cDNM的 致性序列(consensus sequence) 引物设计(primer3vs.DNAMAN),确定最佳引物对并根据实验目的 确定是否需要引入特定的酶切位点、引物对的特异性分析。 限制性酶切分析(WebCutter vs.DNAMAN), 根据实验目的及载体确 定克隆策略,在DNAMAN中进行目的片段的虚拟克隆,进行PCR扩增目的 片段的初步酶切鉴定分析。 实验七、蛋白质序列的综合分析(类型:综合,4学时) 目的:学习通过常用的在线/本地化的分析与预测工具进行蛋白质序列的 分析 内容 蛋白质的物化特性分析(ExPASy vs,.DNAMAN); 预测蛋白酶的消化模式
内容: 根据需要选择 BLAST、FASTA 的类型进行对库搜索,对得到的结果进 行解释与分析。 利用 PSI-BLAST 来寻找远缘相关蛋白。 利用序列相似性预测蛋白质可能的三级结构。 作业:用 BLAST 的方法来发现“新基因”。 实验五、多序列比对及系统发育(类型:综合,2 学时) 目的:了解蛋白质(序列)功能结构域数据库的基本内容,明确多序列 比对的目的。 内容: 1、了解常用的功能模体、结构域数据库及数据库记录内容(PROSITE, Pfam, InterPro, SMART),发现特定蛋白质中的特征序列(PrositeScan, PfamScan, InterProScan.)。 2、学习利用本地 ClustalX,远程服务器 Jalview 进行家族基因的多 序列比对分析,了解多序列分析中的注意事项。 3、系统发育分析工具 MEGA4 的使用。 要求:实验报告,对给定的序列进行蛋白质保守结构域的分析并对 pattern 或 profile 进行描述,对系统发育分析的结果进行解释。 实验六、核酸序列的综合分析(类型:综合,4 学时) 目的:学习通过常用的在线/本地化的分析与预测工具进行核酸序列的分 析。 内容: 基因预测网上工具:利用给定的基因组序列进行 1)基因编码区的预 测;2)启动子预测;3)转录因子结合位点的查找。 利用相似性原则来去除测序序列中的载体、对齐基因组与 cDNA 序列。 利用实验室分析软件/网上工具进行序列的拼接,得到较长或完整 cDNA 的一致性序列(consensus sequence)。 引物设计(primer3 vs. DNAMAN),确定最佳引物对并根据实验目的 确定是否需要引入特定的酶切位点、引物对的特异性分析。 限制性酶切分析(WebCutter vs. DNAMAN),根据实验目的及载体确 定克隆策略,在 DNAMAN 中进行目的片段的虚拟克隆,进行 PCR 扩增目的 片段的初步酶切鉴定分析。 实验七、蛋白质序列的综合分析(类型:综合,4 学时) 目的:学习通过常用的在线/本地化的分析与预测工具进行蛋白质序列的 分析。 内容: 蛋白质的物化特性分析(ExPASy vs. DNAMAN); 预测蛋白酶的消化模式