广义线性模型GLM及负二项回归
参考,小白鱼的生统笔记写的非常棒:
https://cloud.tencent.com/developer/article/1667175
一般线性模型:假设应变量Y呈正态分布
$u_y=\beta_0+\sum_{j+=1}^p\beta_jX_j$
广义线性模型:$g(u_y)$代表了条件均值的函数(指数、泊松、二项式、负二项式等),因此应变量Y服从指数分布的某一种,因此广义线性模型也涵盖了许多非线性模型的存在。
$g(u_y)=\beta_0+\sum_{j+=1}^p\beta_jX_j$
生物数据常见计数型数据,常常偏离正态性,之前常用泊松回归,现在更多被负二项回归取代,可解决过大离差问题,广泛用于计数型因变量的生物统计领域。基于二、三代测序获得的基因表达值通常以reads count值等表示,就是典型的计数型数据。要计算基因表达值这类计数型数值在组间的差异,常规的t检验等方法的统计功效会降低,这时负二项回归就是很好的选择。这也是那些总所周知的基因表达分析R包如edgeR、DESeq2等广为流行的原因,它们的原理就是负二项回归。
负二项回归