FPKM、TPM数据标准化

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/weixin_43700050/article/details/102751560

FPKM

定义: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的片段数)

公式:
在这里插入图片描述

参数介绍:

  • X i X_i :基因 i 的表达量(转录本数/fragments数/raw_counts)。
  • l i l_i :基因 i 的所有外显子长度总和。
  • N N :一个样本中所有基因的表达量,也叫做测序深度。

意义: 对于原始测序数据,同时标准化基因长度和测序深度,这样基因之间的表达量才可以进行比较。

TPM

定义: Transcripts Per Kilobase of exon model per Million mapped reads(每千个碱基的转录每百万映射读取的转录本数)

公式:
在这里插入图片描述

意义: 对于原始测序数据,先标准化基因长度,然后再标准化测序深度

对比

相比于FPKM标准化表达数据,TPM标准化后的每个样本的测序深度都是 1 0 6 10^6 ,基因的表达量转化为比例,基因表达量的组间比较结果更为可靠。

R中实现

表达矩阵FPKM标准化

数据:

  • 原始表达矩阵
    在这里插入图片描述
  • 转录本长度
    在这里插入图片描述
expr1 = expr/transcript_len$length
fpkm = t(t(expr1)/colSums(expr)) * 10^9

在这里插入图片描述

表达矩阵TPM标准化

tpm = t(t(expr1)/colSums(expr1)) * 10^6

在这里插入图片描述

扫描二维码关注公众号,回复: 7636329 查看本文章

FPKM数据转为TPM数据

fpkm_to_tpm = t(t(fpkm)/colSums(fpkm))*10^6

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43700050/article/details/102751560