一、引言 快速、经济的核酸序列测序方法的出现使包括分子生物学、遗传学以及生物化学在内的许多 科学领域发生了革命。(Gi bert,1981: Sanger,1981)这项技术的发展同时也使人们需 要构建公用数据库来存储在全世界范围的实验室内得到的序列信息(Benson et al.1997 Stoesser et al.1997)。由于提交到数据库中的序列需要进行分析和解释,同时已经存在 的数据库中的条目需要进行辨识和修补以供研究人员进一步研究之用,因此随着公用数据库 的建立,生物信息学和计算生物学逐渐走向成熟
文件格式: PDF大小: 153.77KB页数: 15
这一章讨论的是解释DNA序列的方法,这些方法主要依赖于功能模式的检测,而不是与其它单 个序列的比较。这些方法中的绝大部分意在先寻找并遮蔽重复的和低复杂性的序列,再寻找 基因以及与其相关的调控区域。在针对单个序列的集中调查分析,以及为可能的基因、整个 基因组或相应较大区域建立初步清单的快速扫描过程中,这些方法都发挥了主要作用
文件格式: PDF大小: 190.97KB页数: 16
要在分子生物学领域进行计算分析,从公共数据库( DDBJ/EMBL/GenBank)中获得DNA序列记录 是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的 方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的 生物学注解。对于将其作为 BLAST或Eηtrez的检索结果来硏究的科学家来说,编码的蛋白质 产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测 序?)构成了序列记录的直接的确切涵义 本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据 库:DDBJ、EMBL和 Gen Bank密切相关的核苷酸序列数据库
文件格式: PDF大小: 239.08KB页数: 21
几年前,几张已经制成的人类基因组图谱还只是在小面积上的低分辨率图。生物医学研究者 如果希望定位和克隆一个致病基因,总的说来就不得不对目的区域制图,而这是一个费时费 力的过程。这种情况在近几年发生了巨大的变化。现在已经有了高质量的人类基因组基因图 谱,它以单一序列重复多态性( Murray et al..1994: Dib et al.,1996)为基础,提供分 辨率达1-5b的图谱信息
文件格式: PDF大小: 198.76KB页数: 18
背景 ACEDB(一种线虫C.e/ egans数据库)是一种被广泛应用的管理和提供基因组数据的工具组。它 是在1991年由 Ri chard duri n和 Jean Thi erry-Mi eg首先提供的,他们发展它来支持和整理 C. elegans领域中的大范围序列和物理图谱的工作。在本章结尾所列出的因特网资源和资料中 可见1和2条。后续的程序由 Durbin和 Thierry- Mi eg编制和完善,还有许多其他人参与了代码 的编制。这一时期, ACEDB适用于许多动物和植物的基因组计划[3]
文件格式: PDF大小: 162.79KB页数: 12
本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数 量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸 序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取 这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射 和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧 都有很高要求
文件格式: PDF大小: 239.24KB页数: 20
生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相 同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的 数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆 臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有 意义的预测和检验
文件格式: PDF大小: 193.98KB页数: 15
在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作 比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比 究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于 某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造 出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以 对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性
文件格式: PDF大小: 166.26KB页数: 11
如第二章所述,建立 GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信 息爆炸。总的来说, GenBank是带有注释的公用DNA蛋白质序列的集合。写作本书时, GenBank中有160万条链的纪录,含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方 法:通过 Sequi nBankl和等工具直接提交,或通过国际核苷酸序列数据库的组成部分 GenBank,eml,和DDB等相互之间传递数据的共享协议
文件格式: PDF大小: 169.91KB页数: 8
一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些 普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是如何汇集到一起的,这将 有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。 GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋 白质序列
文件格式: PDF大小: 189.77KB页数: 11