生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>IUPAC简并码碱基IUPAC简并码IUPAC简并码碱基WBA或TC、G或TRA或GDA,G或THKG或TAC或 TsVC或GA、C或GYNC或TA、C、G或TMA或C6
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 6 ➢ IUPAC简并码 IUPAC简并码 碱基 IUPAC简并 码 碱基 W A 或 T B C、G 或 T R A 或 G D A、G 或 T K G 或 T H A、C 或 T S C 或 G V A、C 或 G Y C 或 T N A、C、G或 T M A 或 C
生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>表示方法2:位置频率矩阵(positionfrequencymatrix,PFM)0.090.27A[0.090.180.0971132A13C0.550.270.360.090.64C64G0.090.550.180.270.45G613521T0.270.09T30.270.180.00320.位置频率矩阵
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 ➢ 表示方法2:位置频率矩阵(position frequency matrix,PFM) C C G G C A G C G G G T G G C G C T G G A T C C T G A A G A T G G C G C T G C T G C C A A C A G G A G G C G C T G C T A C C T G C T G G T G G C G C T G T G G G C A G C A G G A G G C A G T G T G G C C T G T A G G A G G C A G C A T C T C C A G C A G G G G G A G A G C C T G A C A C T A G A T G G C G C T T A C A C C A C T T G G T G G C G C T C C C A C C A G C A G G A G G A G G A G C G C A C T G A A G G G G G C G C T C 𝐴 1 1 3 2 . 1 𝐶 6 4 1 7 . 3 𝐺 1 3 5 2 . 6 𝑇 3 3 2 0 . 1 𝐴 0.09 0.09 0.27 0.18 . 0.09 𝐶 0.55 0.36 0.09 0.64 . 0.27 𝐺 0.09 0.27 0.45 0.18 . 0.55 𝑇 0.27 0.27 0.18 0.00 . 0.09 位置频率矩阵 7
生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>表示方法3:序列标识图(sequencelogo)V序列标识图第j位上某个碱基的高度heightij=qij×R.其中,R=2-(Hj+en)·H是位置处的信息炳:Hi=-α4=1qij×log2qij13·e,是针对小样本的近似矫正:en=元2×2n.-CAG-AGC.CGCo01CGCT0-56893435序列标识图8
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 ➢ 表示方法3:序列标识图(sequence logo) ✓ 序列标识图第j位上某个碱基i的高度 ℎ𝑒𝑖𝑔ℎ𝑡𝑖,𝑗 = 𝑞𝑖,𝑗 × 𝑅𝑗 • 其中,𝑅𝑗 = 2 − (𝐻𝑗+ 𝑒𝑛) i=1 • Hj是位置i处的信息熵:𝐻𝑖= −σ 4 𝑞𝑖,𝑗 × log2𝑞𝑖,𝑗 n 𝑛 • e 是针对小样本的近似矫正:𝑒 = × 1 3 𝑙𝑛2 2𝑛 序列标识图 8
生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics转录因子结合模体数据库>JASPAR(https:lliaspar.elixir.no/)V200Rf8JASPAR4BASPReWmSearchQOAbonseanPAR COREQBrowseJASPARCOREfor6differenttaxonomicgroupAVelitatedProflThehigh-qualitytranscriptionfactorbindingprofiledatabaseInvectiNematoLUrocherdauVertebratmstriCJASPAR数据库主页9
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 转录因子结合模体数据 库 ➢ JASPAR( https://jaspar.elixir.no/) ✓ 2004年发布第一版;目前为2024年更新版 JASPAR数据库主页 9
生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics基于已知模体的转录因子结合位点预测>位置权重矩阵(positionweightmatrix,PWM)V由于DNA序列碱基组成具有一定偏好性,进行转录因子结合位点预测时需要将位置频率矩阵转换为位置权重矩阵。SA,1,SA.2,.,SAnSij = log2(qA,1,qA,2,..,qA,nSc.1,Sc,2,.,Sc.nqc,1,qc,2..qc,nSG1,SG,2, .,SG,nqG,1,qG,2,..,qG,nb是碱基i在DNAST,1,ST,2,.,ST.nLqT,1,qT,2,...,qT,n序列中出现频率位置权重矩阵位置频率矩阵10
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 基于已知模体的转录因子结合位点预测 ➢ 位置权重矩阵(position weight matrix,PWM) ✓由于DNA序列碱基组成具有一定偏好性,进行转录因子结合位点 预测时需要将位置频率矩阵转换为位置权重矩阵。 𝑆𝐴,1, 𝑆𝐴,2,., 𝑆𝐴,𝑛 𝑆𝐶,1 ,𝑆𝐶,2 ,., 𝑆𝐶,𝑛 𝑞𝐴,1 , 𝑞𝐴,2 ,., 𝑞𝐴,𝑛 𝑞𝐶,1, 𝑞𝐶,2,.,𝑞𝐶,𝑛 𝑖,𝑗 2 𝑞 10 𝑖. 𝑗𝑏 𝑆 = 𝑙𝑜𝑔 ( ) bi是碱基i在DNA 序列中出现频率 𝑞𝐺,1,𝑞𝐺,2,.,𝑞𝐺,𝑛 𝑞𝑇,1, 𝑞𝑇,2, .,𝑞𝑇,𝑛 位置频率矩阵 𝑆𝐺,1, 𝑆𝐺,2, .,𝑆𝐺,𝑛 𝑆𝑇,1, 𝑆𝑇,2,.,𝑆𝑇,𝑛 位置权重矩阵