字符串操作 ★ 字符串连接操作: 两个序列s和的连接:S++t 例如 ACC++CTA= ACCCTA ★ 字符串k操作一删除字符串两端的字符 其定义如下: prefix(s, D)=skis-l suffix(s, I)=ksi-ls i Si=k'skclsly 2021/1/26
2021/1/26 16 字符串操作 字符串连接操作: 两个序列s和t的连接: s + + t 例如: ACC++CTA = ACCCTA 字符串k操作— 删除字符串两端的字符 其定义如下: – prefix(s,l) = sk|s|-l – suffix(s,l) = k|s|-l s – i :s:j = k i sk|s|-j
序列比对的四种基本应用: (1)两条长度相近的序列相似→找出序列的差别 两个实验室测定同一序列,实验结果比较 (2)判断一条序列的前缀与另一条序列的后缀相似 大规模DNA测序中序列片断的组装 (3)判断一条序列是否是另一条序列的子序列 搜索特定模式 (4)判断两条序列中是否有非常相似的子序列 分析保守序列 2021/1/26
2021/1/26 17 序列比对的四种基本应用: (1)两条长度相近的序列相似 →找出序列的差别 两个实验室测定同一序列,实验结果比较 (2)判断一条序列的前缀与另一条序列的后缀相似 大规模DNA测序中序列片断的组装 (3)判断一条序列是否是另一条序列的子序列 搜索特定模式 (4)判断两条序列中是否有非常相似的子序列 分析保守序列
2、编辑距离( Edit distance) GCATGACGAATCAG TATGACAAACAGC GCATGACGAATCAG TATGAC-AAACAGC 说明两条序列的相似程度——〉定量计算 2021/1/26
2021/1/26 18 2、编辑距离(Edit Distance) GCATGACGAATCAG TATGACAAACAGC GCATGACGAATCAG TATGAC-AAACAGC 说明两条序列的相似程度 ——〉定量计算
●两条序列的相似程度的定量计算 相似度,它是两个序列的函数,其值越大,表示 两个序列越相似 两个序列之间的距离。距离越大,则两个序列的 相似度就越小 2021/1/26
2021/1/26 19 ⚫ 两条序列的相似程度的定量计算 – 相似度,它是两个序列的函数,其值越大,表示 两个序列越相似 – 两个序列之间的距离。距离越大,则两个序列的 相似度就越小
海明距离: 两条长度相等的序列, Hamming距离等于对应 位置字符不同的个数。 AAT AGCAA AGCACACA t TAA ACATA ACACACTA Harmming Distance(s, t= 2 图31海明距离 不足: (1)序列长度不同 (2)未必反映两条序列的真正对应关系 2a1na6(3)DNA复制过程中的碱基插入、删除
2021/1/26 20 海明距离: 两条长度相等的序列,Hamming距离等于对应 位置字符不同的个数。 不足: (1)序列长度不同 (2)未必反映两条序列的真正对应关系 (3)DNA复制过程中的碱基插入、删除