生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics基于已知模体的转录因子结合位点预测GTTATTACGCTGGCCACTAGCGGGCGCGTTGTAACGCTG>预测一段DNA序列中某一P2P3PsPgP1P4P6P7P8P10P11转录因子的潜在结合位点0.04830.0000.09240.09900.02310.00630.20380.62180.05670.90340.38660.07100.86500.99500.03500.05500.55200.20000.00000.03300.00200.01800.59660.05250.00420.61340.69960.99160.26470.36970.07770.05880.0500V滑动窗口(长度为n);C0.12820.03360.0000.07770.01680.27730.01890.49700.00000.24370.0000√窗用行极重矩对每个10.5966+0.8650+0.9950+0.6218-0.055+0.2773+0.9034-0.0500+0.0000+0.6996+0.9916=5.8453V基于阈值筛选应用位置权重矩阵预测转录因子潜在结合位点11
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 应用位置权重矩阵预测转录因子潜在结合位点 基于已知模体的转录因子结合位点预 测 ➢预测一段DNA序列中某一 转录因子的潜在结合位点 ✓ 滑动窗口(长度为n); ✓ 应用位置权重矩阵对𝑖 =每个 1 窗口进行打分𝑆 = σ 𝑛 𝑆𝑡 ,𝑗 ✓ 基于阈值筛选 11
生物信息学课程转录调控:转录因子结合模体从头发现Bioinformatics>转录因子结合模体从头发现通过收集多条相关的DNA序列,在其中寻找具有统计显著性的短片段模式,预测为该转录因子潜在的结合模体√基于共有序列的方法/基于位置频率矩阵的方法·基于EM算法的识别方法·基于吉布斯抽样法的识别方法12
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体从头发现 12 ➢ 转录因子结合模体从头发现 ✓通过收集多条相关的DNA序列,在其中寻找具有统计显著性的短片段模 式,预测为该转录因子潜在的结合模体 ✓ 基于共有序列的方法 ✓ 基于位置频率矩阵的方法 • 基于EM算法的识别方法 • 基于吉布斯抽样法的识别方法
生物信息学课程转录调控:转录因子结合模体从头发现Bioinformatics基于共有序列的结合模体从头发现>穷举所有可能的序列组合,得到具有统计显著性的短片段模式穷举策略的计算复杂度为4,不适用于片段长度L较大的情况VMobyDick方法在此基础上,应用启发式策略,只将序列中出现的片段作为候选序列,降低了计算量13
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体从头发现 13 基于共有序列的结合模体从头发现 ➢ 穷举所有可能的序列组合,得到具有统计显著性的短片段模式 ✓穷举策略的计算复杂度为4L ,不适用于片段长度L较大的情况 ✓MobyDick方法在此基础上,应用启发式策略,只将序列中出现的片段作 为候选序列,降低了计算量
生物信息学课程转录调控:转录因子结合模体从头发现Bioinformatics基于EM算法的结合模体从头发现>EM算法是一种迭代算法VE-步骤(期望步骤):观察数据和现有模型来估计参数,并用估计的参数值来计算似然函数的期望值√M-步骤(最大化步骤):寻找似然函数最大化时对应的参数√EM算法可以保证在每次迭代之后似然函数增加14
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体从头发现 14 基于EM算法的结合模体从头发现 ➢ EM算法是一种迭代算法 ✓E-步骤(期望步骤):观察数据和现有模型来估计参数,并用估计的参 数值来计算似然函数的期望值 ✓ M-步骤(最大化步骤):寻找似然函数最大化时对应的参数 ✓ EM算法可以保证在每次迭代之后似然函数增加
生物信息学课程101计划转录调控:转录因子结合模体从头发现Bioinformatics基于EM算法的结合模体从头发现>E-步骤:V给定序列:CCGGCAGCGGGTGGCGCTG0.0020.7107、假看因群合体明器度8化囊频毒短阵9%9.00500.114G0.6780.9300.0050.0300.0670.2020.0030.9050.0110.1090.021T0.0560.0400.3020.0100.1230.8990.003V对给定序列中的每个长度为9的片段,计算似然比(以第3个片段为例):e:位置频率矩阵,o:四种碱基在基因组上P(GGCAGCGGG|0)LR33一出现的概率,此处假设均为0.25P(GGCAGCGGG|00)0.678×0.930×0.194×0.956×0.202×0.004×0.905×0.011×0.067=0.01660.25×0.25×0.25×0.25×0.25×0.25×0.25×0.25×0.2515
15 生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体从头发现 基于EM算法的结合模体从头发 现 ➢ E-步骤: ✓ 给定序列:CCGGCAGCGGGTGGCGCTG ✓ 假设转录因子结合模体的长度为9,位置频率矩阵为: 𝐴 0.261 0.028 0.499 0.956 0.005 0.095 0.075 0.002 0.710 𝐶 0.005 0.002 0.194 0.004 0.670 0.004 0.017 0.966 0.114 𝐺 0.678 0.930 0.005 0.030 0.202 0.003 0.905 0.011 0.067 𝑇 0.056 0.040 0.302 0.010 0.123 0.899 0.003 0.021 0.109 ✓ 对给定序列中的每个长度为9的片段,计算似然比(以第3个片段为例): 3 LR = 𝑃 GGCAGCGGG 𝜃) 𝑃(GGCAGCGGG | 𝜃0) = 0.678 × 0.930 × 0.194 × 0.956 × 0.202 × 0.004 × 0.905 × 0.011 × 0.067 0.25 × 0.25 × 0.25 × 0.25 × 0.25 × 0.25 × 0.25 × 0.25 × 0.25 = 0.0166 θ: 位 置 频 率 矩 阵 , θ0:四种碱基在基因组上 出现的概率,此处假设均为0.25