随着测序技术的迅速发展与普及, 越来越多的DNA序列已被测定并存贮在 各种分子数据库中(如GenBank)。对这些 序列进行分析,可以获得如下几个方面 的信息: 数理与生物工程学院 2025/5/27 BIOINFORMATICS 6
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 6 随着测序技术的迅速发展与普及, 越来越多的DNA序列已被测定并存贮在 各种分子数据库中(如GenBank)。对这些 序列进行分析,可以获得如下几个方面 的信息:
DNA碱基组成、密码子的偏向、内部重复序 列等; •序列及所代表的类群间的系统发育关系: •特殊位点(限制性位点及转录、翻译和表达 调控相关信号); ·内含子/外显子(intron/exon)预测所确定的遗传 结构; ·可读框(open-reading frame,ORF)分析所推导 数理与生 的蛋白质编码序列(coding sequence,CDS)等。 工程学院 2025/5/27 BIOINFORMATICS
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 7 •DNA碱基组成、密码子的偏向、内部重复序 列等; •序列及所代表的类群间的系统发育关系; •特殊位点(限制性位点及转录、翻译和表达 调控相关信号); •内含子/外显子(intron/exon)预测所确定的遗传 结构; •可读框(open-reading frame,ORF)分析所推导 的蛋白质编码序列(coding sequence, CDS)等
4.1.2核酸序列的基本分析 4.1.2.1核酸序列的检索 已知核酸序列的检索是核酸序列分析最为 基本的一个方面。可通过多种方式实现该功能。 例 如 可通 过NCBI使 用 EntreZ(http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucl eotide)系统进行检索,在输入框中输入需要检索 的内容,然后点击按钮“G0”即可开始(图4- I)。同样,也可使用EBI的SRS服务器 (http:/srs.ebi.ac.uk/)进行检索,可参考第三章。 理与生 工程 院 2025/5/27 BIOINFORMATICS 8
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 8 4.1.2 核酸序列的基本分析 4.1.2.1核酸序列的检索 已知核酸序列的检索是核酸序列分析最为 基本的一个方面。可通过多种方式实现该功能。 例 如 , 可通过 NCBI 使 用 Entrez(http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucl eotide)系统进行检索,在输入框中输入需要检索 的内容,然后点击按钮“Go”即可开始(图4- 1) 。 同 样 , 也 可 使 用 EBI 的 SRS 服务器 (http://srs.ebi.ac.uk/)进行检索,可参考第三章
CGCTCAGGAT ATCGGATCCCCGG ATTATATAGC TCGATCGATCT TTCTC TAT ATATACACACA NCBI TTCGCATACGTG Nucleotide TTAC TAAC CAAT All Databases PubMed Nucleotide Protein Genome Structure Search Nucleotide for AF113672 GoClear Save Search Limits Preview/Index History Clipboard Details 图4-1NCB核酸序列检索的网络界面 2025/5/27 BIOINFORMATICS 9
2025/5/27 BIOINFORMATICS 9 图4-1 NCBI核酸序列检索的网络界面
在进行序列检索时,往往需要同时检索多条 序列。这一,点可通过逻辑关系式按照GenBank接 受号进行批量检索。例如,需要检索序列接受号 分别为AF113671、AF113672、AF113673、 AF113674、AF113675、AF113676的序列,可在 序列输入框中输入“AF113671[ac]OR AF113672 [ac]OR AF113673 [ac]OR AF113674 [ac]OR AF113675[ac]ORAF113676[ac]”,即可同时检索 出这些序列。其中,“[ac”是序列接受号的描述 数 字段。GenBank数据库中所采用的描述字段详见 http://www.ncbi.nlm.nih gov/Entrez/entrezhelp.html#SearchFields 物 程 院 2025/5/27 BIOINFORMATICS 10
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 10 在进行序列检索时,往往需要同时检索多条 序列。这一点可通过逻辑关系式按照GenBank接 受号进行批量检索。例如,需要检索序列接受号 分别为 AF113671 、 AF113672 、 AF113673 、 AF113674、AF113675、AF 113676的序列,可在 序列输入框中输入“AF113671 [ac] OR AF113672 [ac] OR AF113673 [ac] OR AF113674 [ac] OR AF113675 [ac] OR AF113676 [ac]”,即可同时检索 出这些序列。其中, “[ac]”是序列接受号的描述 字段。GenBank数据库中所采用的描述字段详见 网 址 http://www.ncbi.nlm.nih.gov/Entrez/entrezhelp.html#SearchFields