生信慕课-序列比较笔记

来自:中国大学mooc-山东大学 生物信息学 课程

1.什么是序列?

序列就是字符串。

s就是一个序列。(原来序列是这么简单的,听着太高大上了)

蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。

核酸序列:由4个不同的字母(碱基,ATCGU)排列组合而成,包括DNA序列和RNA序列。

FASTA格式:第一行>表示注释;第二行及以后:每行60个字母或80,不一定。

 

图1.数据格式

2.序列相似性

图2.相似比较

扫描二维码关注公众号,回复: 3431289 查看本文章

图中显示了序列的相似性比较,对于序列长度是非常非常长的,肉眼根本无法识别,所以就需要技术来进行识别。

 那么有序列一致度identity与相似度similarity两个概念:

图3.一致度和相似度定义

图4.例子

 那么这两个序列的一致度就是50%,很好计算。

但是相似度是怎么计算的呢?哪个残基和哪个残基算作相似

答:残基两两相似关系被  替换积分矩阵 所定义。

图5.蛋白质替换积分矩阵长这个样子

 3.替换记分矩阵

 描述了残基两两相似性的量化关系。

图6.DNA

 3种常见的替分矩阵:

猜你喜欢

转载自www.cnblogs.com/BlueBlueSea/p/9746254.html
今日推荐