蛋自质序列三级结构的搜索
蛋白质序列二级结构的搜索
Abstract 生命科学家使用的生物数据集的查询工具效率 低下 在基于级结构的大型数据集上搜索的问题 定义了直观的二级结构的查询语言 平估查询的算法 在 Periscope、 ORDBMS上实现算法 框架优化查询、平估各种查询估计计划的开销 高效、交互式的二级结构查询、(犬型蛋白质数据集
Abstract • 生命科学家使用的生物数据集的查询工具效率 低下 • 在基于二级结构的大型数据集上搜索的问题 – 定义了直观的二级结构的查询语言 – 评估查询的算法 – 在Periscope、ORDBMS上实现算法 • 框架:优化查询、评估各种查询估计计划的开销 • 高效、交互式的二级结构查询(大型蛋白质数据集)
1 Introduction 人类基因组工程: 从蛋自庚和DNA序列中得出有意义的生物信 息、知识( bioinformatics 确定基因的位置和功能,观察蛋白质之间的 反应,蛋白质保持时蛋白质的功能结构 提出间题: 与大型生物数据集的分析密切相关 存储和查询大型基因、蛋白质数据库
1. Introduction • 人类基因组工程: – 从蛋白质和DNA序列中得出有意义的生物信 息、知识(bioinformatics)。 – 确定基因的位置和功能,观察蛋白质之间的 反应,蛋白质保持时蛋白质的功能结构。 • 提出问题: – 与大型生物数据集的分析密切相关 – 存储和查询大型基因、蛋白质数据库
1生物背景知 蛋自质的结构组织:四层 主结构:氢基酸的线性序列,蛋质识别 级结构:氨基酸的线性序列折叠成三维结构 螺旋(eix),p片(ske),了翻转(o 三维结构决定蛋自质的功能 模式和排列:变革性的关系 级结构折叠的类型、长度、开始位置:功能
1.1 生物背景知识 • 蛋白质的结构组织:四层 – 主结构:氨基酸的线性序列,蛋白质识别 – 二级结构:氨基酸的线性序列折叠成三维结构:- 螺旋(helix), -片(sheet),翻转(loop) – 三维结构决定蛋白质的功能 – 模式和排列:变革性的关系 • 二级结构折叠的类型、长度、开始位置:功能
2科学动力 发现新的蛋白质、新的功能:确定蛋白质的功能和类 型 已有方法 搜索已知的蛋自质数据库,和未知的蛋白质相匹配 分析相似蛋自质的功能和分类,得出共同点 简单基础:定义了蛋白质相似性 蛋自质结构和搜索目标的不同,相似性的定义不同:匹配主结构 匹配二级结构预测生物分子反应 同样的级别上也有不同:部分整个序列 Flexible: efficient BLAST 服务器负载重;查询估计算法的效率 互式的结果:验证、否定一些假设 高效的查询估计技术
1.2 科学动力 • 发现新的蛋白质、新的功能:确定蛋白质的功能和类 型 • 已有方法 – 搜索已知的蛋白质数据库,和未知的蛋白质相匹配 – 分析相似蛋白质的功能和分类,得出共同点 – 简单基础:定义了蛋白质相似性 • 蛋白质结构和搜索目标的不同,相似性的定义不同:匹配主结构; 匹配二级结构(预测生物分子反应); • 同样的级别上也有不同:一部分;整个序列 – Flexible;efficient – BLAST • 服务器负载重;查询估计算法的效率 • 交互式的结果:验证、否定一些假设 • 高效的查询估计技术