章结构数据库 页码,1/10 第三章结构数据库 【前介】 本章将集中介绍生物信息学中生物分子结构的有关内容,并将研究重点放在三维结构实际存 在的氨基酸序列上,力图使读者了解结构数据库记录的内容及如何合理应用各类通用软件程 序处理这类记录。本章不涉及结构生物学家们建立三维分子结构的计算程序,也不讨论相似 蛋白质构象的精细结构。在本章参考书目后列出了一些优秀的讨论蛋白质构象的有关专著和 蛋白质结构决定方法。 用图象直观表示蛋白质和核酸结构在生物化学教科书和硏究论文中屡屡出现。这些图象是美 丽迷人的反而使我们忽视了图象背后所反映的实验细节���实验中应用的生物物理 方法,X射线晶体衍射学家和核磁共振波谱分析学家们努力工作的成效.在结构数据库中记录 的数据是实用化的实验数据。它既不同于直接由仪器获得的原始数据,也并非原始数据的简 单数学转换。每一个结构数据库记录都内含着随结构预测技术的进步而不断变化的假设和偏 好。尽管如此,每个生物分子结构蕴涵着有关序列所缺失数据的至关重要的信息。 ·三维分子结构数据的一些概念 首先做一个关于如何记录生物高聚物的三维数据的思想实验。考虑一下如何在纸上记录如肌 球素这类蛋白质的三维球棒模型的所有细节和尺度关系。一条开始的途径是从由三维模型主 干描绘出的氨基酸序列入手。从N端开始,我们通过将每个残基的化学结构与20种普通氨基 酸化学结构(其结构的图解可以从教科书中找到)比较,以识别每个氨基酸侧链。 旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符 号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在 纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同 时也提供了球�棒结构中每个原子“球”的x,y,z坐标距离数据。 下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐 标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三 元坐标值。 以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性 的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原 子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。 坐标、序列、化学图像 典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中 原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标 数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分 子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能 够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如 早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图 像。序列是生物高聚物分子完整化学图谱的固有表示。 当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化 学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类 似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的 原子类型与化学键信息表。 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18
ϝゴ㒧ᵘ᭄ᑧ Ǐࠡҟǐ ᴀゴᇚ䲚Ёҟ㒡⫳⠽ֵᙃᄺЁ⫳⠽ߚᄤ㒧ᵘⱘ᳝݇ݙᆍˈᑊᇚⷨお䞡⚍ᬒϝ㓈㒧ᵘᅲ䰙ᄬ ⱘ⇼䝌ᑣ߫ϞˈՓ䇏㗙њ㾷㒧ᵘ᭄ᑧ䆄ᔩⱘݙᆍঞབԩড়⧚ᑨ⫼㉏䗮⫼䕃ӊ ᑣ໘⧚䖭㉏䆄ᔩDŽᴀゴϡ⍝ঞ㒧ᵘ⫳⠽ᄺᆊӀᓎゟϝ㓈ߚᄤ㒧ᵘⱘ䅵ㅫᑣˈгϡ䅼䆎ⳌԐ 㲟ⱑ䋼ᵘ䈵ⱘ㊒㒚㒧ᵘDŽᴀゴখ㗗кⳂৢ߫ߎњϔѯӬ⾔ⱘ䅼䆎㲟ⱑ䋼ᵘ䈵ⱘ᳝݇ϧ㨫 㲟ⱑ䋼㒧ᵘއᅮᮍ⊩DŽ ⫼䈵Ⳉ㾖㸼⼎㲟ⱑ䋼Ḍ䝌㒧ᵘ⫳⠽࣪ᄺᬭ⾥кⷨお䆎᭛Ёስስߎ⦃DŽ䖭ѯ䈵ᰃ㕢 Б䗋Ҏⱘড㗠Փ៥Ӏᗑ㾚њ䈵㚠ৢ᠔ডⱘᅲ偠㒚㡖���ᅲ偠Ёᑨ⫼ⱘ⫳⠽⠽⧚ ᮍ⊩ˈ;ᇘ㒓ԧ㸡ᇘᄺᆊḌ⺕݅ᤃ⊶䈅ߚᵤᄺᆊӀࡾᎹⱘ៤ᬜ㒧ᵘ᭄ᑧЁ䆄ᔩ ⱘ᭄ᰃᅲ⫼࣪ⱘᅲ偠᭄DŽᅗ᮶ϡৠѢⳈ⬅Ҿ఼㦋ᕫⱘॳྟ᭄ˈгᑊ䴲ॳྟ᭄ⱘㅔ ऩ᭄ᄺ䕀ᤶDŽ↣ϔϾ㒧ᵘ᭄ᑧ䆄ᔩ䛑ݙⴔ䱣㒧ᵘ乘⌟ᡔᴃⱘ䖯ℹ㗠ϡᮁব࣪ⱘ؛䆒أ དDŽሑㅵབℸˈ↣Ͼ⫳⠽ߚᄤ㒧ᵘ㭈⎉ⴔ᳝݇ᑣ߫᠔㔎༅᭄ⱘ㟇݇䞡㽕ⱘֵᙃDŽ z ϝ㓈ߚᄤ㒧ᵘ᭄ⱘϔѯὖᗉ 佪خܜϔϾ݇Ѣབԩ䆄ᔩ⫳⠽催㘮⠽ⱘϝ㓈᭄ⱘᗱᛇᅲ偠DŽ㗗㰥ϔϟབԩ㒌Ϟ䆄ᔩབ㙠 ⧗㋴䖭㉏㲟ⱑ䋼ⱘϝ㓈⧗Ầൟⱘ᠔᳝㒚㡖ሎᑺ݇㋏DŽϔᴵᓔྟⱘ䗨ᕘᰃҢ⬅ϝ㓈ൟЏ ᑆᦣ㒬ߎⱘ⇼䝌ᑣܹ߫DŽҢN’ッᓔྟˈ៥Ӏ䗮䖛ᇚ↣Ͼ⅟ⱘ࣪ᄺ㒧ᵘϢ20⾡᱂䗮⇼ 䝌࣪ᄺ㒧ᵘ˄݊㒧ᵘⱘ㾷ৃҹҢᬭ⾥кЁᡒࠄ↨˅䕗ˈҹ䆚߿↣Ͼ⇼䝌ջ䫒DŽ ϔᮺᑣ߫㹿ߎݭᴹˈ៥Ӏᇚ㒬ࠊ⫳⠽催㘮⠽ⱘѠ㓈㤝ˈ㤝Ёࣙᣀ᠔᳝ⱘॳᄤǃᴀヺ োǃ࣪ᄺ䬂ˈৃ㛑Ӯऴ⫼义㒌DŽѮ࣪㸔㑶㋴䜡ড়ⱘ㒬ࠊेЎϔ՟DŽᇚᅗⱘ࣪ᄺ㒧ᵘ⬏ 㒌Ϟৢˈ៥Ӏৃҹ䗮䖛䞣⌟ൟЁ↣Ͼॳᄤ䆒ᅮⱘⳈ㾦തᷛ㋏Ёⱘ䎱⾏䆄ᔩϝ㓈᭄DŽৠ ᯊгᦤկњ⧗�Ầ㒧ᵘЁ↣ϾॳᄤĀ⧗āⱘ[ˈ\ˈ]തᷛ䎱⾏᭄DŽ ϟϔℹᰃᦤߎϔϾ㋏㒳ⱘߚ䮼߿㉏ⱘ䆄ᔩᮍḜҹֱᄬϢ䆚߿᳝݇ⱘ↣Ͼॳᄤⱘ˄[ˈ\ˈ]˅ത ֵᷛᙃDŽ᳔ㅔऩⱘᮍ⊩ᰃ⫳⠽催㘮⠽ⱘѠ㓈㤝Ϟˈ↣Ͼॳᄤⱘেջˈᷛߎ˅[ˈ\ˈ]˄ϝ ܗതᷛؐDŽ ҹϞᗱᛇᅲ偠᳝ࡽѢ៥Ӏᇍϝ㓈㒧ᵘ᭄ᑧᑨࣙાѯݙᆍᔶ៤߱ℹⱘὖᗉDŽҢҎ㉏ৃ䇏ᗻ ⱘ㾦ᑺ㗠㿔ˈ䖭ḋⱘ㒧ᵘ䆄ᔩᔶᓣᰃ䎇ⱘˈԚ䅵ㅫᴎैϡϔᅮ㛑⧚㾷ᅗDŽ䅵ㅫᴎ䳔㽕ॳ ᄤǃ࣪ᄺ䬂ǃതᷛǃ⅟ǃߚᄤ䯈㒧ড়݇㋏ⱘ⏙᱄ᯢᰒⱘ㓪ⷕDŽ z തᷛǃᑣ߫ǃ࣪ᄺڣ ൟⱘϝ㓈㒧ᵘ䆄ᔩЁϢՓ⫼ⱘ᭛ӊḐᓣ᮴݇ⱘ᳔ᯢᰒⱘ᭄ᰃത᭄ᷛˈᅗ㸼ᕕњߚᄤЁ ॳᄤⱘぎ䯈ԡ㕂ˈ⫼⊓ⴔ↣Ͼതᷛ䕈ࠄᶤ⡍ᅮॳ⚍ⱘ䎱⾏˄[ˈ\ˈ]˅㸼⼎DŽ↣Ͼॳᄤⱘതᷛ ᭄ᔦሲѢ㒧ᵘ䆄ᔩЁⱘᷛ⊼ֵᙃ߫㸼˖ぎ䯈Ёⱘ↣ϔ⚍ҷ㸼њ䆄ᔩЁⱘܗ㋴ǃ⅟ߚ ᄤDŽᇍѢ⫳⠽㘮ԧˈ䖭ᷛ⊼ֵᙃᴹ⑤Ѣᑣ߫DŽ↣Ͼᑣ߫ⱘᰃ䞡㽕ⱘ࣪ᄺ᭄DŽ៥Ӏ㛑 ⳈҢᑣ߫Ёᮁߎᅠᭈⱘࣙ᠔᳝ॳᄤ࣪ᄺ䬂ⱘ⫳⠽催㘮⠽ߚᄤ࣪ᄺ㘨ˈ㛑ᙄབ ᮽܜ᠔ᦣ䗄ⱘҙҢᑣֵ߫ᙃߎথᦣ㒬ߎ㤝DŽ៥Ӏᡞ䖭ߚᄤĀ㤝ā⿄ϝ㓈㒧ᵘⱘ࣪ᄺ ڣDŽᑣ߫ᰃ⫳⠽催㘮⠽ߚᄤᅠᭈ࣪ᄺ䈅ⱘ᳝㸼⼎DŽ ᔧᦣ㒬ҢሲॳᄤϢ࣪ᄺ䬂ⱘ⬹ҹ㸼⼎ᑣ߫ᯊˈ៥Ӏৃҹ׳䡈ᬭ⾥кЁᦣ㒬ⱘ↣Ͼ⅟ⱘ࣪ ᄺ㒧ᵘˈҹܡ䴆ᥝϔϸϾ⬆DŽৠḋഄˈ䅵ㅫᴎৃ߽⫼Ā⅟䆡āݙᄬЁᓎゟ㒧ᵘⱘ㉏ ԐѢ⬹ⱘ࣪ᄺڣ㸼⼎ˈĀ⅟䆡āЁ߭ࣙᣀϔ㒘ᇍᑨѢ↣Ͼ᱂䗮⇼䝌Ḍ䝌ഫⱘ ॳᄤ㉏ൟϢ࣪ᄺ䬂ֵᙃ㸼DŽ ϝゴ㒧ᵘ᭄ᑧ 义ⷕˈ1/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϝゴ㒧ᵘ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第三章结构数据库 页码,2/10 原子、化学键和完整性 分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科书 中所见到的完美的蛋白质结构图像,例如图3.1所示的胰岛素3NS结构( I saacs, Agarwal, 1978)。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两 种不同的键数据信息优化存储方法。 记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准 则,比如稳定的碳、碳键的平均长度大约1.5埃。应用这些来源于化学键的规则,意味着空间 中两个1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存 储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息 最初的三维生物分子结构文件记录格式, Brookhaven蛋白质数据库( Bernstei n等,1977)的 PDB格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需 “残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法 编码的数据。 PDB数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释PDB文件中 的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应 用了不同的算法和距离容差,这类情况更为严重。虽然PDB文件组织方案在记录数据存储方面 的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进 行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程 中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明 第二种方法在由PDB衍生而来的分子建模数据库(MADB)的数据库记录中得到应用。MMDB运用 标准的“残基词典”,其中记录了氨基酸、核酸残基这样以聚合体形式存在,具有末端多样 性的分子中所有原子、化学键信息。在结构科学家解决分子结构而使用的专用软件中,这类 数据词典是很普遍的。读入MDB数据的软件能利用词典所提供的键信息将原子连为一体,而 无须力图满足化学准则的要求。最终,用软件获得准确的三维坐标数据。这种方法使软件开 发简单化,因为连键规则中的例外情况在数据库文件中已被记录,而无须附加逻辑控制代码 即可将之读入 些不熟悉结构数据的科学家常常希望在公共数据库中的结构信息表达类同于教科书。他们 会对结构中某部分的数据丢失感到惊讶。相应于某一特定分子的三维数据库记录的适用性并 不意味着完整性。结构的完整性定义如下:化学图像中任一原子至少有一维坐标值确定, 在结构数据库中,完整的记录是不多见的。大多数由X射线衍射获得的结构缺少氢原子坐标, 因为氢原子的空间位置不能用实验手段决定。但一些建模软件可用于估计氢原子位置,并用 其重建结构记录。在结构数据库中识别由模型构造的分子是容易的。它们常常有过于复杂的 坐标数据和所有用实验手段无法确认的氢原子可能表达形式。 【PDB: Brookhaven国家实验室蛋白质数据库】 概述 计算机在生物学中的运用起源于生物物理方法的应用,如X射线结晶衍射。于是最初的“生物 信息学”数据库被用于存储复杂的三维数据不足为怪。现代的蛋白质数据库以收集的蛋白质 三维结构公共数据为核心,附带核酸、糖类三维结构和各类由X射线衍射结晶学家、核磁共振 谱分析学家通过实验测定的合成物。本部分集中详细介绍由蛋白质数据库PDB提供的生物信息 学数据库服务 PDB数据库服务 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18
z ॳᄤǃ࣪ᄺ䬂ᅠᭈᗻ ߚᄤڣৃ㾚࣪䕃ӊᅠ៤њ㊒㒚ⱘĀ⚍㘨ā䖛ˈ㗠㒬ߎࠊབ៥Ӏ⫳⠽ߚᄤ㒧ᵘᬭ⾥к Ё᠔㾕ࠄⱘᅠ㕢ⱘ㲟ⱑ䋼㒧ᵘڣˈ՟བ3.1᠔⼎ⱘ㛄ቯ㋴3INS㒧ᵘ˄IsaacsˈAgarwalˈ 1978˅DŽᰒ✊ॳᄤ䯈㘨ձ䴴࣪ᄺ䬂DŽⳂࠡⱘᑨ⫼Ёˈϝ㓈ߚᄤ㒧ᵘ᭄ᑧ䆄ᔩՓ⫼њϸ ⾡ϡৠⱘ䬂᭄ֵᙃӬ࣪ᄬټᮍ⊩DŽ 䆄ᔩॳᄤϢ࣪ᄺ䬂ֵᙃⱘ㒣䗨ᕘᰃձ䴴Ā࣪ᄺޚ߭āDŽ䖭ѯޚ߭ᰃᰒ㗠ᯧ㾕ⱘ⠽⧚࣪ᄺޚ ߭ˈ↨བ〇ᅮⱘ⺇ǃ⺇䬂ⱘᑇഛ䭓ᑺ㑺1.5DŽᑨ⫼䖭ѯᴹ⑤Ѣ࣪ᄺ䬂ⱘ㾘߭ˈᛣੇⴔぎ䯈 ЁϸϾ1.5䎱⾏ⱘ⺇ॳᄤᘏᔶ៤ऩ䬂DŽ᳝њ䖭ѯ࣪ᄺޚˈ߭៥Ӏৃᅠܼㅔ࣪࣪ᄺ䬂ֵᙃᄬ ټDŽ㢹㒧ᵘᴀ䑿䖱㚠ӏԩ࣪ᄺ㾘߭ˈ߭㛑㹿ᅠᭈ䆄ᔩ㗠ϡᏺӏԩ䰘ࡴ䬂ֵᙃDŽ ᳔߱ⱘϝ㓈⫳⠽ߚᄤ㒧ᵘ᭛ӊ䆄ᔩḐᓣˈBrookhaven㲟ⱑ䋼᭄ᑧ˄Bernsteinㄝˈ1977˅ⱘ PDBḐᓣⱚҹ࣪ᄺޚ߭ᮍ⊩Ў⸔DŽϔ㠀㗠㿔ˈ䖭ѯ䆄ᔩ≵᳝⫳⠽催㘮⠽ⱘᅠᭈ䬂ֵᙃDŽ᮴䳔 Ā⅟䆡āˈ㗠ҙ⫼ৃ㛑៤䬂ॳᄤᇍⱘ䬂䭓Ϣ䬂㉏ൟऍ䜡㸼ेৃ㾷䆥⫼Ā࣪ᄺޚ߭ᮍ⊩” 㓪ⷕⱘ᭄DŽ PDB᭄᭛ӊ䇏ܹ䕃ӊࣙᖙ乏㛑Ѣ䖭㉏㾘߭䞡ᵘ࣪ᄺ䬂DŽᇍѢᑣਬˈབԩ㾷䞞PDB᭛ӊЁ ⱘ䬂ֵᙃᇮᔶ៤ᯢ⹂㒳ϔⱘ㾘߭ˈ㗠ᇐ㟈њ㉏䕃ӊ㒬࣪ࠊᄺ䬂䖲ᯊⱘϡϔ㟈ˈᇸ݊ᑨ ⫼њϡৠⱘㅫ⊩䎱⾏ᆍᏂˈ䖭㉏ᚙމЎϹ䞡DŽ㱑✊PDB᭛ӊ㒘㒛ᮍḜ䆄ᔩ᭄ᄬټᮍ䴶 ⱘ㽕∖᳔ԢˈԚ↨䕗䖲䬂ֵᙃ࣪ᄺڣᦣ䗄Ꮖ䆄ᔩЁ䆺㒚䇈ᯢⱘᚙމ߭ˈᇍᄬټֵᙃ䖯 㸠ᙄᔧ㾷䞞᠔䳔ㅫ⊩гⳌᑨᴖDŽ䖭ᇚ䖿Փᑣᓔথ㗙خⱘᎹDŽѢџӊⱘ㓪 Ёˈ㗗㰥䖲䬂㾘߭Ёⱘ⾡⾡՟ᚙމˈ䳔㽕ᴖⱘ䘏䕥䇈ᯢDŽ Ѡ⾡ᮍ⊩⬅PDB㸡⫳㗠ᴹⱘߚᄤᓎ᭄ᑧ˄MMDB˅ⱘ᭄ᑧ䆄ᔩЁᕫࠄᑨ⫼DŽMMDB䖤⫼ ᷛޚⱘĀ⅟䆡āˈ݊Ё䆄ᔩњ⇼䝌ǃḌ䝌⅟䖭ḋҹ㘮ড়ԧᔶᓣᄬˈ᳝ッḋ ᗻⱘߚᄤЁ᠔᳝ॳᄤǃ࣪ᄺ䬂ֵᙃDŽ㒧ᵘ⾥ᄺᆊ㾷ߚއᄤ㒧ᵘ㗠Փ⫼ⱘϧ⫼䕃ӊЁˈ䖭㉏ ᭄䆡ᰃᕜ᱂䘡ⱘDŽ䇏ܹMMDB᭄ⱘ䕃ӊ㛑߽⫼䆡᠔ᦤկⱘ䬂ֵᙃᇚॳᄤ䖲Ўϔԧˈ㗠 ᮴乏⒵䎇࣪ᄺޚ߭ⱘ㽕∖DŽ᳔㒜ˈ⫼䕃ӊ㦋ᕫޚ⹂ⱘϝ㓈ത᭄ᷛDŽ䖭⾡ᮍ⊩Փ䕃ӊᓔ থㅔऩ࣪ˈЎ䖲䬂㾘߭Ёⱘ՟ᚙމ᭄ᑧ᭛ӊЁᏆ㹿䆄ᔩˈ㗠᮴乏䰘ࡴ䘏䕥ࠊҷⷕ ेৃᇚП䇏ܹDŽ ϔѯϡ❳ᙝ㒧ᵘ᭄ⱘ⾥ᄺᆊᐌᐌᏠᳯ᭄݀݅ᑧЁⱘ㒧ᵘֵᙃ㸼䖒㉏ৠѢᬭ⾥кDŽҪӀ Ӯᇍ㒧ᵘЁᶤ䚼ߚⱘ᭄϶༅ᛳࠄ䆊DŽⳌᑨѢᶤϔ⡍ᅮߚᄤⱘϝ㓈᭄ᑧ䆄ᔩⱘ䗖⫼ᗻᑊ ϡᛣੇⴔᅠᭈᗻDŽ㒧ᵘⱘᅠᭈᗻᅮНབϟ˖࣪ᄺڣЁӏϔॳᄤ㟇ᇥ᳝ϔ㓈തᷛؐ⹂ᅮDŽ 㒧ᵘ᭄ᑧЁˈᅠᭈⱘ䆄ᔩᰃϡ㾕ⱘDŽ᭄⬅;ᇘ㒓㸡ᇘ㦋ᕫⱘ㒧ᵘ㔎ᇥ⇶ॳᄤതᷛˈ Ў⇶ॳᄤⱘぎ䯈ԡ㕂ϡ㛑⫼ᅲ偠↉އᅮDŽԚϔѯᓎ䕃ӊৃ⫼ѢԄ䅵⇶ॳᄤԡ㕂ˈᑊ⫼ ݊䞡ᓎ㒧ᵘ䆄ᔩDŽ㒧ᵘ᭄ᑧЁ䆚߿ൟ⬅ᵘ䗴ⱘߚᄤᰃᆍᯧⱘDŽᅗӀᐌᐌ᳝䖛Ѣᴖⱘ ത᭄ᷛ᠔᳝⫼ᅲ偠↉᮴⊩⹂䅸ⱘ⇶ॳᄤৃ㛑㸼䖒ᔶᓣDŽ ǏPDB˖Brookhavenᆊᅲ偠ᅸ㲟ⱑ䋼᭄ᑧǐ z ὖ䗄 䅵ㅫᴎ⫳⠽ᄺЁⱘ䖤⫼䍋⑤Ѣ⫳⠽⠽⧚ᮍ⊩ⱘᑨ⫼ˈབ;ᇘ㒓㒧㸡ᇘDŽѢᰃ᳔߱ⱘĀ⫳⠽ ֵᙃᄺā᭄ᑧ㹿⫼Ѣᄬټᴖⱘϝ㓈᭄ϡ䎇ЎᗾDŽ⦄ҷⱘ㲟ⱑ䋼᭄ᑧҹᬊ䲚ⱘ㲟ⱑ䋼 ϝ㓈㒧ᵘ᭄݀݅ЎḌᖗˈ䰘ᏺḌ䝌ǃ㊪㉏ϝ㓈㒧ᵘ㉏⬅;ᇘ㒓㸡ᇘ㒧ᄺᆊǃḌ⺕݅ᤃ 䈅ߚᵤᄺᆊ䗮䖛ᅲ偠⌟ᅮⱘড়៤⠽DŽᴀ䚼ߚ䲚Ё䆺㒚ҟ㒡⬅㲟ⱑ䋼᭄ᑧPDBᦤկⱘ⫳⠽ֵᙃ ᄺ᭄ᑧ᳡ࡵDŽ z PDB᭄ᑧ᳡ࡵ ϝゴ㒧ᵘ᭄ᑧ 义ⷕˈ2/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϝゴ㒧ᵘ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第三章结构数据库 页码,3/10 brookhaven国家实验室(详见本章末列表)蛋白质数据库的WW站点为三维结构数据的提交、 检索提供了大量的服务。 提交结构数据 对于那些希望向PDB提交三维结构信息的人们而言,可以经由 AutoDep服务机构按照一定 的基于网页的程序步骤实现其愿望。因为提交程序是随编写时间而不断变化的,所以在 PDB的网络站点上应该能找到最新信息。核酸结构数据保存在核酸数据库NDB中。 Biotech vali dati on sui te站点是镜像站点,提供在提交结构数据前屏蔽立体化学构象 与几何学构象不一致的PDB文件的服务。 PDB明文规定拒收依靠计算机三维建模而非实验手段获得的结构数据。而关于已被宣布 为例外结构的最新细节数据的提交需与PDB商议。容纳结构模型的单独的数据库是现成 的,可以在本书的网络站点上查询有关信息。 PDB的D编码 PDB中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为PDB-1D或PDB编码的四位 字符串,可由数字0~9和大写字母A~Z组合而成。因此可能的组合方案超过了130万种,没有 按某特定顺序分配PDB-D。但蛋白质数据库PDB的索引编撰者尽量设计好的记忆方法,使结构 名称易于记忆,如早先如图3.1所示的胰岛素记录3|NS。 数据库查询、PDB文件检索与链接 PDB和它的一些镜像站点提供由每个PDB记录的所有文本信息索引的文本搜索引擎,可按一些 专门的査询项目(如提交数据、作者姓名、结构表达)检索。PDB最新的搜索引擎,3DB 本数据库,支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些的套 Atl as,可用于PDB记录检索,如图3.2示。3 DB Atl as也是链接有PDB结构数据第三方注解的基 维、三维浏览器,如 Kinemage( Ri chardon, Ri chardon,1992)、 Resol( Sayl e, li ner�: Whi te,1995)。图3.2b显示了蛋白质1BNR的到3DB记录 Barnase的一些链接。创建 的图像有助于调整三维结构方向,以获得观察结合位点这类确定特征的最好视角。3 DB Atlas 也与专门设计的数据库相连,这些数据库由对诸如结构进化(FSSP:Holm, Sandar, 1993)、结构相似性(DALl:Holm, Sander,19%6)和蛋白质运动( Gerstein等,1994)等 相关课题有兴趣的研究者维护。3DB可相应链接№CBl的MDB服务( Hogue等,1996),提供了 条到 Entrez( Schuler等,1996)系统(包括序列、分类、 PubMed/ MEDI CINE服务和VAST结 构相似性比较)的通路。 源自PDB结构记录的序列 PDB文件编码格式的序列是众人皆知的。因为不能确保结构的完整,PDB记录包括两个序列信 息备份:隐性序列和显性序列。两者都被用于重构生物高聚体的化学图像。 显性序列在PDB文件中以关键词 SEORES打头逐行存储。不同于其它序列数据库,PDB记录用三 字母氨基酸编码,任意选择三个字母作为名称的非标准氨基酸在许多PDB记录序列条目中可被 找到。在PDB中,一些双螺旋核酸序列条目被指定依照在条目中按从3′到5′端的顺序排列的 条链在上,从5′到3′端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序 列对人类而言是容易理解的,但直接由计算机阅读此类从3′到5′端排列的显性序列是荒堂 的 因为三维结构可能对应有多个生物高聚物链,所以使用者必须借助PDB链识别标记方可确定需 要的序列。PDB文件 SEORES入口用一个大写字母或空格作为链识别标记,以识别条目中的每个 单独的生物高聚体链。如图3.1所示的3NS结构,在记录中便存在两种胰岛素分子。3|NS序 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18
Brookhavenᆊᅲ偠ᅸ˄䆺㾕ᴀゴ߫㸼˅㲟ⱑ䋼᭄ᑧⱘWWWキ⚍Ўϝ㓈㒧ᵘ᭄ⱘᦤѸǃ Ẕ㋶ᦤկњ䞣ⱘ᳡ࡵDŽ z ᦤѸ㒧ᵘ᭄ ᇍѢ䙷ѯᏠᳯPDBᦤѸϝ㓈㒧ᵘֵᙃⱘҎӀ㗠㿔ˈৃҹ㒣⬅AutoDep᳡ࡵᴎᵘᣝ✻ϔᅮ ⱘѢ㔥义ⱘᑣℹ偸ᅲ⦄݊ᜓᳯDŽЎᦤѸᑣᰃ䱣㓪ݭᯊ䯈㗠ϡᮁব࣪ⱘˈ᠔ҹ PDBⱘ㔥㒰キ⚍Ϟᑨ䆹㛑ᡒࠄ᳔ᮄֵᙃDŽḌ䝌㒧ᵘ᭄ֱᄬḌ䝌᭄ᑧNDBЁDŽ Biotech Validation Suiteキ⚍ᰃ䬰ڣキ⚍ˈᦤկᦤѸ㒧ᵘ᭄ࠡሣ㬑ゟԧ࣪ᄺᵘ䈵 Ϣԩᄺᵘ䈵ϡϔ㟈ⱘPDB᭛ӊⱘ᳡ࡵDŽ PDBᯢ᭛㾘ᅮᢦᬊձ䴴䅵ㅫᴎϝ㓈ᓎ㗠䴲ᅲ偠↉㦋ᕫⱘ㒧ᵘ᭄DŽ㗠݇ѢᏆ㹿ᅷᏗ Ў՟㒧ᵘⱘ᳔ᮄ㒚㡖᭄ⱘᦤѸ䳔ϢPDBଚ䆂DŽᆍ㒇㒧ᵘൟⱘऩ⣀ⱘ᭄ᑧᰃ⦄៤ ⱘˈৃҹᴀкⱘ㔥㒰キ⚍Ϟᶹ䆶ֵ᳝݇ᙃDŽ z PDBⱘID㓪ⷕ PDBЁⱏ䆄ܹݠⱘ㒧ᵘ䆄ᔩᢹ᳝ϔϾଃϔⱘࣙᄫ↡Ϣ᭄ᄫⱘ㹿⿄ЎPDB-IDPDB㓪ⷕⱘಯԡ ᄫヺІˈৃ⬅᭄ᄫ̚ݭᄫ↡$̚=㒘ড়㗠៤DŽℸৃ㛑ⱘ㒘ড়ᮍḜ䍙䖛њ130ϛ⾡ˈ≵᳝ ᣝᶤ⡍ᅮ乎ᑣߚ䜡PDB-IDDŽԚ㲟ⱑ䋼᭄ᑧPDBⱘ㋶ᓩ㓪᪄㗙ሑ䞣䆒䅵དⱘ䆄ᖚᮍ⊩ˈՓ㒧ᵘ ৡ⿄ᯧѢ䆄ᖚˈབᮽܜབ3.1᠔⼎ⱘ㛄ቯ㋴䆄ᔩ3INSDŽ z ᭄ᑧᶹ䆶ǃPDB᭛ӊẔ㋶Ϣ䫒 PDBᅗⱘϔѯ䬰ڣキ⚍ᦤկ⬅↣ϾPDB䆄ᔩⱘ᠔᳝᭛ᴀֵᙃ㋶ᓩⱘ᭛ᴀ᧰㋶ᓩ᪢ˈৃᣝϔѯ ϧ䮼ⱘᶹ䆶乍Ⳃ˄བᦤѸ᭄ǃ㗙ྦྷৡǃ㒧ᵘ㸼䖒˅Ẕ㋶DŽPDB᳔ᮄⱘ᧰㋶ᓩ᪢ˈ3DB Atlasˈৃ⫼ѢPDB䆄ᔩẔ㋶ˈབ3.2⼎DŽ3DB Atlasгᰃ䫒᳝PDB㒧ᵘ᭄ϝᮍ⊼㾷ⱘ ᴀ᭄ᑧˈᬃᣕ䞣ⱘࠄѢ⡍㔥ϝ㓈㒧ᵘ᳡ࡵⱘ݊ᅗ㔥⚍ⱘ䫒DŽ݊ЁࣙᣀњϔѯѠ 㓈ǃϝ㓈⌣㾜఼ˈབKinemage˄RichardsonˈRichardsonˈ1992˅ǃResmol˄Sayleˈ Milner�Whiteˈ1995˅DŽ3.2bᰒ⼎њ㲟ⱑ䋼1BNRⱘࠄ3DB䆄ᔩBarnaseⱘϔѯ䫒DŽ߯ᓎ ⱘڣ᳝ࡽѢ䇗ᭈϝ㓈㒧ᵘᮍˈҹ㦋ᕫ㾖ᆳ㒧ড়ԡ⚍䖭㉏⹂ᅮ⡍ᕕⱘ᳔ད㾚㾦DŽ3DB Atlas гϢϧ䮼䆒䅵ⱘ᭄ᑧⳌ䖲ˈ䖭ѯ᭄ᑧ⬅ᇍ䇌བ㒧ᵘ䖯࣪˄FSSP˖HolmˈSandarˈ 1993˅ǃ㒧ᵘⳌԐᗻ˄DALI˖HolmˈSanderˈ1996˅㲟ⱑ䋼䖤ࡼ˄Gersteinㄝˈ1994˅ㄝ Ⳍ݇䇒乬᳝݈䍷ⱘⷨお㗙㓈ᡸDŽ3DBৃⳌᑨ䫒NCBIⱘMMDB᳡ࡵ˄Hogueㄝˈ1996˅ˈᦤկњ ϔᴵࠄEntrez˄Schulerㄝˈ1996˅㋏㒳˄ࣙᣀᑣ߫ǃߚ㉏ǃPubMed/MEDICINE᳡ࡵVAST㒧 ᵘⳌԐᗻ↨䕗˅ⱘ䗮䏃DŽ z ⑤㞾PDB㒧ᵘ䆄ᔩⱘᑣ߫ PDB᭛ӊ㓪ⷕḐᓣⱘᑣ߫ᰃӫҎⱚⶹⱘDŽЎϡ㛑⹂ֱ㒧ᵘⱘᅠᭈˈPDB䆄ᔩࣙᣀϸϾᑣֵ߫ ᙃӑ˖䱤ᗻᑣ߫ᰒᗻᑣ߫DŽϸ㗙䛑㹿⫼Ѣ䞡ᵘ⫳⠽催㘮ԧⱘ࣪ᄺڣDŽ ᰒᗻᑣ߫PDB᭛ӊЁҹ݇䬂䆡SEQRESᠧ༈䗤㸠ᄬټDŽϡৠѢ݊ᅗᑣ᭄߫ᑧˈPDB䆄ᔩ⫼ϝ ᄫ↡⇼䝌㓪ⷕˈӏᛣ䗝ᢽϝϾᄫ↡Ўৡ⿄ⱘ䴲ᷛޚ⇼䝌䆌PDB䆄ᔩᑣ߫ᴵⳂЁৃ㹿 ᡒࠄDŽPDBЁˈϔѯঠ㶎ᮟḌ䝌ᑣ߫ᴵⳂ㹿ᣛᅮձ✻ᴵⳂЁᣝҢ3’ࠄ5’ッⱘ乎ᑣᥦ߫ⱘ ϔᴵ䫒ϞˈҢ5’ࠄ3’ッᥦ߫ⱘѦ㸹䫒ϟⱘᮍᓣᥦ߫DŽ㱑✊䖭ѯҹঠ㶎ᮟᔶᓣ㸼䖒ⱘᑣ ߫ᇍҎ㉏㗠㿔ᰃᆍᯧ⧚㾷ⱘˈԚⳈ⬅䅵ㅫᴎ䯙䇏ℸ㉏Ң3’ࠄ5’ッᥦ߫ⱘᰒᗻᑣ߫ᰃ㤦ූ ⱘDŽ Ўϝ㓈㒧ᵘৃ㛑ᇍᑨ᳝Ͼ⫳⠽催㘮⠽䫒ˈ᠔ҹՓ⫼㗙ᖙ乏ࡽ׳PDB䫒䆚߿ᷛ䆄ᮍৃ⹂ᅮ䳔 㽕ⱘᑣ߫DŽPDB᭛ӊSEQRESܹষ⫼ϔϾݭᄫ↡ぎḐЎ䫒䆚߿ᷛ䆄ˈҹ䆚߿ᴵⳂЁⱘ↣Ͼ ऩ⣀ⱘ⫳⠽催㘮ԧ䫒DŽབˊ᠔⼎ⱘ3INS㒧ᵘˈ䆄ᔩЁ֓ᄬϸ⾡㛄ቯ㋴ߚᄤDŽ3INSᑣ ϝゴ㒧ᵘ᭄ᑧ 义ⷕˈ3/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϝゴ㒧ᵘ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第三章结构数据库 页码,4/10 列包括A、B、C、D四个氨基酸序列。由胰岛素的生物化学背景知识知道A、B蛋白质链源自同 基因,在翻译修饰的过程中,胰岛素序列被切为如PDB记录所示的两段。这个信息没有在三 维结构数据库中被记录。单字母链命名方案与所枚举的大齐分子量聚合物,如衣壳病毒,的 三维结构是有困难的,因为单字母链识别器的可识别总数是有限的 PDB记录中的隐性序列蕴涵在由PDB文件中的ATOM记录及相应(X,Y,Z)位置坐标构成的化学 立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解 决的问题时,隐性序列是十分有用的。实践中,许多PDB文件浏览器,如 Rasmol,仅用隐性序 列重构PDB记录蛋白质的化学图象,而忽略由 SEORES引导的显性序列信息。若要求这类软件打 印某不完整的分子序列,其打印结果序列在现实中将并不存在。所以说隐性序列尚不足于重 构完整的化学图像 举例说明,假设在PDB文件 SEORES条目中存在一个序列 ELVI SISALI NES,但缺少子序列ISA的 (X,Y,Z)位置坐标信息,阅读隐性序列的软件会错误地构建ELⅥSLNS的化学图象。用于 测试软件是否仅依赖隐性序列去分析结构信息的样本测试结构3TS1( Brick等,1989)在Java 维结构浏览器 Webmol中的图像如图3.3所示 PDB序列验证 为合理地检验来自PDB记录的序列,必须先获得ATOM记录中的隐性序列。这一步并不繁琐。若 结构因间断而不完整,则给定链会拥有一套隐性序列框架。每个框架与 SEORES条目中相应链 的显性序列相对应。用这种方式可产生包括可能丢失坐标信息的那部分生物序列在内的完整 化学图象。而这种验证需以MMDB、 mmcIF数据库的建立为物质基础。 由PDB结构记录衍生出来的单字母编码类型蛋白质、核酸序列检验样本最好来自 NCBI Entrez 体系的MMDB。如对胰岛素这样的序列记录系统地建立了数据库附录,利用附录: db|3NS|A,pdb|3NS|B,pdb3|Ns|C,pdb|3NS|D,可以由 Entrez中被分割的蛋白质序 列恢复完整的序列。PDB文件中包含 Swi ss-Port蛋白质数据库 DBXREF序列记录的参考说明。以 下两点需要注意:其一,因为检验程序在链接过程中未被实现,所以 Swiss-Port中的序列不 需与结构 对应;其二,许多PDB文件分类简单而含糊不清,这一点在一些源自不同种类 的分子复合物的三维结构中有所表现 【MDB:NCB的分子建模数据库】 概述 NCBI的分子模型数据库MMDD( Hogue等,1996)是 NCBI Entrez体系( Schuler等,1996)的 部分。其中囊括了由晶体衍射和核磁共振实验研究得到的所有PDB( Bernstein等,1977)生 物分子三维结构。MMDB是ASN.1记录格式,而非PDB记录格式的数据库。MDB结构与原始的PDB 结构相比,增加了一些附加信息,包括经程序验证的显性化学图像信息,一致的二级结构衍 生定义,与 MEDLINE相匹配的引用,基于源自生物实体的蛋白质或核酸链进行分类的分子匹 配 MDB数据库服务 NCB的MMDB提供了诸如被检验序列的 BLAST检索,结构-序列匹配,文件格式转换,编程界面 显示等服务。 结构记录文本查询 正如其它三维结构服务那样,MMDB数据库可利用 WW Entrez及 Network entrez( Schuler 等,1996)进行文本查询。MMDB亦称为 Entrez structure组分。MMDB检索域包含PDB、MMDB的 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18
߫ࣙᣀ$ǃ%ǃ&ǃ'ಯϾ⇼䝌ᑣ߫DŽ⬅㛄ቯ㋴ⱘ⫳⠽࣪ᄺ㚠᱃ⶹ䆚ⶹ䘧$ǃ%㲟ⱑ䋼䫒⑤㞾ৠ ϔˈ㗏䆥ׂ佄ⱘ䖛Ёˈ㛄ቯ㋴ᑣ߫㹿ߛЎབPDB䆄ᔩ᠔⼎ⱘϸ↉DŽ䖭Ͼֵᙃ≵᳝ϝ 㓈㒧ᵘ᭄ᑧЁ㹿䆄ᔩDŽऩᄫ↡䫒ੑৡᮍḜϢ᠔ᵮВⱘ唤ߚᄤ䞣㘮ড়⠽ˈབ㸷⮙↦ˈⱘ ϝ㓈㒧ᵘᰃ᳝ೄ䲒ⱘˈЎऩᄫ↡䫒䆚߿఼ⱘৃ䆚߿ᘏ᭄ᰃ᳝䰤ⱘDŽ PDB䆄ᔩЁⱘ䱤ᗻᑣ߫㭈⎉⬅PDB᭛ӊЁⱘATOM䆄ᔩঞⳌᑨ˄;ˈ<ˈ=˅ԡ㕂തᷛᵘ៤ⱘ࣪ᄺ ゟԧ㒧ᵘЁDŽ㾷އ䇌བḌ䝌ᑣ߫ৢ㓪ⷕ䴲ᷛޚ⇼䝌䆚߿ㄝ߽⫼ᰒᗻᑣ߫᮴⊩ᯢ⹂㾷 އⱘ䯂乬ᯊˈ䱤ᗻᑣ߫ᰃकߚ⫼᳝ⱘDŽᅲ䏉Ёˈ䆌PDB᭛ӊ⌣㾜఼ˈབRasmolˈҙ⫼䱤ᗻᑣ ߫䞡ᵘPDB䆄ᔩ㲟ⱑ䋼ⱘ࣪ᄺ䈵ˈ㗠ᗑ⬹⬅SEQRESᓩᇐⱘᰒᗻᑣֵ߫ᙃDŽ㢹㽕∖䖭㉏䕃ӊᠧ ॄᶤϡᅠᭈⱘߚᄤᑣ߫ˈ݊ᠧॄ㒧ᵰᑣ߫⦄ᅲЁᇚᑊϡᄬDŽ᠔ҹ䇈䱤ᗻᑣ߫ᇮϡ䎇Ѣ䞡 ᵘᅠᭈⱘ࣪ᄺڣDŽ В՟䇈ᯢˈ؛䆒PDB᭛ӊSEQRESᴵⳂЁᄬϔϾᑣ߫ELVISISALINESˈԚ㔎ᇥᄤᑣ߫ISAⱘ ˄;ˈ<ˈ=˅ԡ㕂തֵᷛᙃˈ䯙䇏䱤ᗻᑣ߫ⱘ䕃ӊӮ䫭䇃ഄᵘᓎELVISLINESⱘ࣪ᄺ䈵DŽ⫼Ѣ ⌟䆩䕃ӊᰃ৺ҙձ䌪䱤ᗻᑣ߫এߚᵤ㒧ᵘֵᙃⱘḋᴀ⌟䆩㒧ᵘ3TS1˄Brickㄝˈ1989˅Java ϝ㓈㒧ᵘ⌣㾜఼WebmolЁⱘڣབ3.3᠔⼎DŽ z PDBᑣ߫偠䆕 Ўড়⧚ഄẔ偠ᴹ㞾PDB䆄ᔩⱘᑣ߫ˈᖙ乏ܜ㦋ᕫATOM䆄ᔩЁⱘ䱤ᗻᑣ߫DŽ䖭ϔℹᑊϡ㐕⧤DŽ㢹 㒧ᵘ䯈ᮁ㗠ϡᅠᭈˈ߭㒭ᅮ䫒Ӯᢹ᳝ϔ༫䱤ᗻᑣ߫ḚᶊDŽ↣ϾḚᶊϢSEQRESᴵⳂЁⳌᑨ䫒 ⱘᰒᗻᑣ߫ⳌᇍᑨDŽ⫼䖭⾡ᮍᓣৃѻ⫳ࣙᣀৃ㛑϶༅തֵᷛᙃⱘ䙷䚼ߚ⫳⠽ᑣ߫ݙⱘᅠᭈ ࣪ᄺ䈵DŽ㗠䖭⾡偠䆕䳔ҹMMDBǃmmCIF᭄ᑧⱘᓎゟЎ⠽䋼⸔DŽ ⬅PDB㒧ᵘ䆄ᔩ㸡⫳ߎᴹⱘऩᄫ↡㓪ⷕ㉏ൟ㲟ⱑ䋼ǃḌ䝌ᑣ߫Ẕ偠ḋᴀ᳔དᴹ㞾NCBI Entrez ԧ㋏ⱘMMDBDŽབᇍ㛄ቯ㋴䖭ḋⱘᑣ߫䆄ᔩ㋏㒳ഄᓎゟњ᭄ᑧ䰘ᔩˈ߽⫼䰘ᔩ˖ pdb|3INS|Aˈ pdb|3INS| Bˈpdb|3INS|Cˈ pdb|3INS|Dˈৃҹ⬅EntrezЁ㹿ࡆߚⱘ㲟ⱑ䋼ᑣ ߫ᘶᅠᭈⱘᑣ߫DŽPDB᭛ӊЁࣙSwiss-Port㲟ⱑ䋼᭄ᑧDBXREFᑣ߫䆄ᔩⱘখ㗗䇈ᯢDŽҹ ϟϸ⚍䳔㽕⊼ᛣ˖݊ϔˈЎẔ偠ᑣ䫒䖛Ё㹿ᅲ⦄ˈ᠔ҹSwiss-PortЁⱘᑣ߫ϡ 䳔Ϣ㒧ᵘϔǃϔᇍᑨ˗݊Ѡˈ䆌PDB᭛ӊߚ㉏ㅔऩ㗠㊞ϡ⏙ˈ䖭ϔ⚍ϔѯ⑤㞾ϡৠ⾡㉏ ⱘߚᄤড়⠽ⱘϝ㓈㒧ᵘЁ᳝᠔㸼⦄DŽ ǏMMDB˖NCBIⱘߚᄤᓎ᭄ᑧǐ z ὖ䗄 NCBIⱘߚᄤൟ᭄ᑧMMDD˄Hogueㄝˈ1996˅ᰃNCBI Entrezԧ㋏˄Schulerㄝˈ1996˅ⱘϔ 䚼ߚDŽ݊Ёಞᣀњ⬅ԧ㸡ᇘḌ⺕݅ᤃᅲ偠ⷨおᕫࠄⱘ᠔᳝PDB˄Bernsteinㄝˈ1977˅⫳ ⠽ߚᄤϝ㓈㒧ᵘDŽMMDBᰃASN.1䆄ᔩḐᓣˈ㗠䴲PDB䆄ᔩḐᓣⱘ᭄ᑧDŽMMDB㒧ᵘϢॳྟⱘPDB 㒧ᵘⳌ↨ˈࡴњϔѯ䰘ࡴֵᙃˈࣙᣀ㒣ᑣ偠䆕ⱘᰒᗻ࣪ᄺڣֵᙃˈϔ㟈ⱘѠ㑻㒧ᵘ㸡 ⫳ᅮНˈϢMEDLINEⳌऍ䜡ⱘᓩ⫼ˈѢ⑤㞾⫳⠽ᅲԧⱘ㲟ⱑ䋼Ḍ䝌䫒䖯㸠ߚ㉏ⱘߚᄤऍ 䜡DŽ z MMDB᭄ᑧ᳡ࡵ NCBIⱘMMDBᦤկњ䇌བ㹿Ẕ偠ᑣ߫ⱘBLASTẔ㋶ˈ㒧ᵘᑣ߫ऍ䜡ˈ᭛ӊḐᓣ䕀ᤶˈ㓪⬠䴶 ᰒ⼎ㄝ᳡ࡵDŽ z 㒧ᵘ䆄ᔩ᭛ᴀᶹ䆶 ℷབ݊ᅗϝ㓈㒧ᵘ᳡ࡵ䙷ḋˈMMDB᭄ᑧৃ߽⫼WWW EntrezঞNetwork Entrez˄Schuler ㄝˈ1996˅䖯㸠᭛ᴀᶹ䆶DŽMMDBѺ⿄ЎEntrez Structure㒘ߚDŽMMDBẔ㋶ඳࣙPDBǃMMDBⱘ ϝゴ㒧ᵘ᭄ᑧ 义ⷕˈ4/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϝゴ㒧ᵘ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第三章结构数据库 页码,5/10 编码,源自PDB注释记录的自由文本,作者名及其它著书目录检索域 ·MDB结构摘要 MADB的网络界面提供了每个MMDB结构记录的结构摘要网页,如图3.2b示。MMDB结构摘要 网页为结构中的每条链提供了 FASTA格式的序列,并提供了到MEDL|NE、3DB Brookhaven PDB网页及站点的链接,结构中每条氨基酸链和核酸链邻近序列的链接和到每条 链中各域间WAST结构比较服务的链接。 BLAST:新序列相似性 当研究者希望找到新序列的相似结构,NCB的 BLaST( Al tsch等,1990)在 BLAST检索 数据库pdb”中提供了MDB所有验证序列的拷贝。 BLAST网页界面,可以 FASTA格式将序列粘 贴到序列条目“箱”中,并选择相应“pdb"序列数据库,在目前公共结构数据库的所有验证 序列中进行检索。 Entrez Nel ghori ng:已知序列相似性 Entrez中的序列已经完成了 BLAST操作。依靠 Entrez的" nei ghboring”操作,可找到与给定 蛋白质序列相似的序列结构。 下面说明如何利用 Entrez” Nei ghori ng”操作以决定与已知序列相似的序列三维结构是否 存在。首先找到 W Entrez的" Search the NCBI protei n database”选项,再执行对感兴 趣序列进行检索的查询请求。如査询 oncomodul in,若在查询中检索记录摘要,可在下拉式菜 单上选择“ Structure inks"项,按 Di spl ay键可显示出两个MDB记录:IRO( Ahmed等, 1990)和|OMD。 通过执行蛋白质" nei ghori ng”邻接操作,然后从三维结构邻近的蛋白质族列表中找出链接 对象并链接,可完成细微相似性的扩展查询。仍以查询 oncomodul in为例,每个蛋白质记录将 显示有几百个“邻近”蛋白质。首先选择“邻近”蛋白质列表,再执行在包含所有“邻近 蛋白质的网页顶部的[ Di spl ay][ Structure i st]命令,结果将给出很长的包括三维结构数据 库中所有其它同源钙指蛋白质(如 parval bumi n)在内的查询清单 VAST:基于三维形状的结构相似性 ⅥAST(矢量分析检索工具, Gi bral等,1996)用于检索三维结构的相似性。它舍弃了序 列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。ⅥAST具有检索结构相似而序 列不相似的生物高聚体的能力。如同 BLAST一样,ⅥAST可以N*N方式操作数据库中的所有条 目,并存储结果,以利于 Entrez界面快速检索。利用VAST算法,对10,000多个局部结构 匹配比较,并记录了结构之间的匹配与重叠关系如图3.2C示。ⅥAST算法是基于统计意义下的 相似性比较算法,故而检验蛋白质结构比较中偶然发生的局部结构的诸多相似性是没有必要 的。例如, sheets中有许多小片段具有显而易见的相似性,用ⅥAST检验其相似性,结论是 具有细微同源性,而这是用普通序列对比算法无法检验的。正基于此,这类相似性将提供 个关于研究蛋白质家族结构、功能、进化的更宽广的视角。 序列相似性检验程序提供了两序列的匹配信息,结构相似性检验程序提供了三维结构的 重叠信息。利用一套三维旋转、变换矩阵操作可将结构的相似部分集中在一起。一种方便的 序列匹配方法是通过蛋白质骨架中α碳的空间堆叠寻找三维重叠。除了相似结构的列表,由 ⅥAST获得的邻近结构检索结果还包括详细的残基间匹配和关于结构重叠的三维转换阵。在实 践中,选择具高度相似性的局部结构,并与DALI(Holm和 Sander,1996)比较,可知通过 ⅥAST获得的匹配是保守的。利用VAST重叠区可以容易地识别由于蛋白质进化而结构改变的区 域,因而DALl在为构建结构模型而进行的序列、结构比较中更有用。在研究蛋白质结构关系 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18
ID㓪ⷕˈ⑤㞾PDB⊼䞞䆄ᔩⱘ㞾⬅᭛ᴀˈ㗙ৡঞ݊ᅗ㨫кⳂᔩẔ㋶ඳDŽ z MMDB㒧ᵘᨬ㽕 MMDBⱘ㔥㒰⬠䴶ᦤկњ↣ϾMMDB㒧ᵘ䆄ᔩⱘ㒧ᵘᨬ㽕㔥义ˈབ3.2b⼎DŽMMDB㒧ᵘᨬ㽕 㔥义Ў㒧ᵘЁⱘ↣ᴵ䫒ᦤկњFASTAḐᓣⱘᑣ߫ˈᑊᦤկњࠄMEDLINEǃ3DB Atlasǃ Brookhaven PDB㔥义ঞキ⚍ⱘ䫒ˈ㒧ᵘЁ↣ᴵ⇼䝌䫒Ḍ䝌䫒䚏䖥ᑣ߫ⱘ䫒ࠄ↣ᴵ 䫒Ёඳ䯈VAST㒧ᵘ↨䕗᳡ࡵⱘ䫒DŽ z BLAST˖ᮄᑣ߫ⳌԐᗻ ᔧⷨお㗙Ꮰᳯᡒࠄᮄᑣ߫ⱘⳌԐ㒧ᵘˈNCBIⱘBLAST˄Altschulㄝˈ1990˅BLASTẔ㋶ ᭄ᑧ“pdb”ЁᦤկњMMDB᠔᳝偠䆕ᑣ߫ⱘᣋ䋱DŽBLAST㔥义⬠䴶ˈৃҹFASTAḐᓣᇚᑣ߫㉬ 䌈ࠄᑣ߫ᴵⳂĀㆅāЁˈᑊ䗝ᢽⳌᑨ“pdb”ᑣ᭄߫ᑧˈⳂࠡ݀݅㒧ᵘ᭄ᑧⱘ᠔᳝偠䆕 ᑣ߫Ё䖯㸠Ẕ㋶DŽ z Entrez Neighboring˖Ꮖⶹᑣ߫ⳌԐᗻ EntrezЁⱘᑣ߫Ꮖ㒣ᅠ៤њBLAST᪡DŽձ䴴Entrezⱘ“neighboring”᪡ˈৃᡒࠄϢ㒭ᅮ 㲟ⱑ䋼ᑣ߫ⳌԐⱘᑣ߫㒧ᵘDŽ ϟ䴶䇈ᯢབԩ߽⫼Entrez“ Neighboring” ᪡ҹއᅮϢᏆⶹᑣ߫ⳌԐⱘᑣ߫ϝ㓈㒧ᵘᰃ৺ ᄬDŽ佪ܜᡒࠄWWW Entrezⱘ“Search the NCBI protein database”䗝乍ˈݡᠻ㸠ᇍᛳ݈ 䍷ᑣ߫䖯㸠Ẕ㋶ⱘᶹ䆶䇋∖DŽབᶹ䆶oncomodulinˈ㢹ᶹ䆶ЁẔ㋶䆄ᔩᨬ㽕ˈৃϟᢝᓣ㦰 ऩϞ䗝ᢽ“Structure links”乍ˈᣝDisplay䬂ৃᰒ⼎ߎϸϾMMDB䆄ᔩ˖IRRO˄Ahmedㄝˈ 1990˅IOMDDŽ 䗮䖛ᠻ㸠㲟ⱑ䋼“neighboring”䚏᪡ˈ✊ৢҢϝ㓈㒧ᵘ䚏䖥ⱘ㲟ⱑ䋼ᮣ߫㸼Ёᡒߎ䫒 ᇍ䈵ᑊ䫒ˈৃᅠ៤㒚ᖂⳌԐᗻⱘᠽሩᶹ䆶DŽҡҹᶹ䆶oncomodulinЎ՟ˈ↣Ͼ㲟ⱑ䋼䆄ᔩᇚ ᰒ⼎᳝ⱒϾĀ䚏䖥ā㲟ⱑ䋼DŽ佪ܜ䗝ᢽĀ䚏䖥ā㲟ⱑ䋼߫㸼ˈݡᠻ㸠ࣙ᠔᳝Ā䚏䖥” 㲟ⱑ䋼ⱘ㔥义乊䚼ⱘ[Display][Structure list]ੑҸˈ㒧ᵰᇚ㒭ߎᕜ䭓ⱘࣙᣀϝ㓈㒧ᵘ᭄ ᑧЁ᠔᳝݊ᅗৠ⑤䩭ᣛ㲟ⱑ䋼˄བparvalbumin˅ݙⱘᶹ䆶⏙ऩDŽ z VAST˖Ѣϝ㓈ᔶ⢊ⱘ㒧ᵘⳌԐᗻ VAST˄ⶶ䞣ߚᵤẔ㋶ᎹˈGibralㄝˈ1996˅⫼ѢẔ㋶ϝ㓈㒧ᵘⱘⳌԐᗻDŽᅗ㟡ᓗњᑣ ֵ߫ᙃˈ㗠ऩ㒃ձ䴴⬅Ѡ㑻㒧ᵘ㸡⫳ⱘϝ㓈ⶶ䞣ᣛᷛ䖯㸠Ẕ㋶DŽVAST᳝Ẕ㋶㒧ᵘⳌԐ㗠ᑣ ߫ϡⳌԐⱘ⫳⠽催㘮ԧⱘ㛑DŽབৠBLASTϔḋˈVASTৃҹN*Nᮍᓣ᪡᭄ᑧЁⱘ᠔᳝ᴵ Ⳃˈᑊᄬټ㒧ᵰˈҹ߽ѢEntrez⬠䴶ᖿ䗳Ẕ㋶DŽ߽⫼VASTㅫ⊩ˈᇍ10ˈ000Ͼሔ䚼㒧ᵘϔϔ ऍ䜡↨䕗ˈᑊ䆄ᔩњ㒧ᵘП䯈ⱘऍ䜡Ϣ䞡݇㋏བ3.2c⼎DŽVASTㅫ⊩ᰃѢ㒳䅵ᛣНϟⱘ ⳌԐᗻ↨䕗ㅫ⊩ˈᬙ㗠Ẕ偠㲟ⱑ䋼㒧ᵘ↨䕗Ёي✊থ⫳ⱘሔ䚼㒧ᵘⱘ䇌ⳌԐᗻᰃ≵᳝ᖙ㽕 ⱘDŽ՟བˈ sheetsЁ᳝䆌ᇣ⠛↉᳝ᰒ㗠ᯧ㾕ⱘⳌԐᗻˈ⫼VASTẔ偠݊ⳌԐᗻˈ㒧䆎ᰃ ᳝㒚ᖂৠ⑤ᗻˈ㗠䖭ᰃ⫼᱂䗮ᑣ߫ᇍ↨ㅫ⊩᮴⊩Ẕ偠ⱘDŽℷѢℸˈ䖭㉏ⳌԐᗻᇚᦤկϔ Ͼ݇Ѣⷨお㲟ⱑ䋼ᆊᮣ㒧ᵘǃࡳ㛑ǃ䖯࣪ⱘᆑᑓⱘ㾚㾦DŽ ᑣ߫ⳌԐᗻẔ偠ᑣᦤկњϸᑣ߫ⱘऍ䜡ֵᙃˈ㒧ᵘⳌԐᗻẔ偠ᑣᦤկњϝ㓈㒧ᵘⱘ 䞡ֵᙃDŽ߽⫼ϔ༫ϝ㓈ᮟ䕀ǃবᤶⶽ䰉᪡ৃᇚ㒧ᵘⱘⳌԐ䚼ߚ䲚Ёϔ䍋DŽϔ⾡ᮍ֓ⱘ ᑣ߫ऍ䜡ᮍ⊩ᰃ䗮䖛㲟ⱑ䋼偼ᶊЁ ⺇ⱘぎ䯈ේᇏᡒϝ㓈䞡DŽ䰸њⳌԐ㒧ᵘⱘ߫㸼ˈ⬅ VAST㦋ᕫⱘ䚏䖥㒧ᵘẔ㋶㒧ᵰ䖬ࣙᣀ䆺㒚ⱘ⅟䯈ऍ䜡݇Ѣ㒧ᵘ䞡ⱘϝ㓈䕀ᤶ䰉DŽᅲ 䏉Ёˈ䗝ᢽ催ᑺⳌԐᗻⱘሔ䚼㒧ᵘˈᑊϢDALI˄HolmSanderˈ1996˅↨䕗ˈৃⶹ䗮䖛 VAST㦋ᕫⱘऍ䜡ᰃֱᅜⱘDŽ߽⫼VAST䞡ऎৃҹᆍᯧഄ䆚߿⬅Ѣ㲟ⱑ䋼䖯࣪㗠㒧ᵘᬍবⱘऎ ඳˈ㗠DALIЎᵘᓎ㒧ᵘൟ㗠䖯㸠ⱘᑣ߫ǃ㒧ᵘ↨䕗Ё᳝⫼DŽⷨお㲟ⱑ䋼㒧ᵘ݇㋏ ϝゴ㒧ᵘ᭄ᑧ 义ⷕˈ5/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϝゴ㒧ᵘ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com