理想状态下,人们进行基因表达量的比较分析时,希望比较的应该是任意两个细胞之间基因表达量的绝对差异,虽然这是一种resolution最高的状态。然而,实际在比较的时候,比较的是基因的相对表达量。对于qRT-PCR,是一个基因对应于内参(endogenous control)的表达在两个样本中的差异,endogenous control一般选取表达量不太高的基因。对于RNA-Seq来说,是一个基因在两个样本中proportion的差异。因此,这里其实暗含的假设是:两个样本间的转录组大小不能有巨大的变化。这个假设被分解成两个经常被提及的假设,即:
- 大多数基因的表达量没有发生变化
- 高表达量的基因的表达量没有发生变化
不过,这个假设其实往往是不成立的,无论是在样本本身,或是制备及测序过程中,都可能引入偏差。样本本身的问题是相对最难控制的,比如在比较二倍体和多倍体时,这就是个不能忽略的问题。现在通用的计算表达量的方法,很明显的就是在计算一个proportion。
通常用于计算RNA-Seq表达量时,主要考虑的是测序深度和基因长度。RPKM和FPKM分别对应于single-end和pair-end sequencing。FPKM只是对于pair-end reads无论两个片段都map到还是一个片段map到基因上,都算成一次mapped fragment。这两者的具体做法就是把基因上reads/fragments的数量先处以所有map到的reads的数量,然后再处以基因长度。所以RPKM和FPKM是名字是很误导人的,准确的说应该是Reads (Fragements) per Million reads per Kilobase。
另外一种更流行的做法时TPM,具体的做法其实只是先除以基因的长度,再处以所有mapped reads数量,这样各个样本表达量的总和就会是相同的数值(即100%)。但TPM的全名更没有实际意义,Transcripts Per Million(RNA-Seq领域起名都很随意而没有实际意义)。