Tissue-specific and Cell type-specific Genes

Paper 1

A benchmark of gene expression tissue-specificity metrics, 2017年发在Bioinformatics
组织特异性基因的定义
分为两个类别,一类是直接给一个总值来说明组织特异性与否:Tau, Gini, TSI, Counts and Hg

;还有一种是每一个组织一个值来说明特异性:z-score,SPM,EE,PEM

比较时候的方法

    1. score基本都呈现双峰分布
    1. 考虑在小数据集和大数据集上的情况,1000次的随机抽样
    1. 基因是否在不同物种中保守,计算correlation
    1. 利用已知的信息来进行验证,使用了GO term
    1. 考虑多种方法找的基因的交集。多余的基因做富集分析。
    1. quantile normalization和FPKM和RPKM影响不大,log的影响很大。

考虑数据的时候,需要考虑组织的数量,高或者低表达
microarray的数据对于组织特异性计算不友好:因为物种保守性不好

该文章推荐的方法:Tau

当需要在每一个组织一个socre的时候,PEM的表现良好(non-log
数据除外)

TissueEnrich:使用超几何分布来计算组织特异性基因的富集,使用HPA,ENCODE,GTEx数据来作为参照,来计算组织特异性基因,同时也可以输入自己的数据集

超几何分布:不放回的二抽样。
$P(X=k)=\frac{C_m^k*C_{N-m}^{m-k}}{C_N^m}$