layout: post title: “生物知识概念理解” date: 2021-05-20 description: “”
tag:
概念
参数理解
-
GSEA gene ranking方法
默认为Signal2Noise, 还有log2_Ratio_of_Classes, 基因与样本表型之间的相关性
-
Max Size和Min Size参数
有时会发现你的GSEA结果为啥富集的通路很少,一些关心的通路则根本没在结果中出现,一种原因就是其根本没参与GSEA的计算。
当您运行基因集富集分析时,GSEA软件自动标准化基因集大小变异的富集分数,如GSEA统计中所述。然而,对于非常小或非常大的基因集,归一化不是非常准确。例如,对于少于10个基因的基因集,只要2个或3个基因就可以产生显著的结果。因此,当你的表达矩阵的gene数目在10000-20000之间时,GSEA默认忽略包含小于25个基因或大于500个基因的基因集;
-
ES值(enrichment scores)
ES值相当于
Phit - Pmiss
差值的最大累计值(绝对值);N就是总gene list的数目;NH则是Hit gene list的数目;NR在不同情况下含义有点差别,比如在Signal2Noise下,其就是Hits-Gene在Ranking gene所对应的signal to noise scores总和,从图片上就是中间竖直黑线所对应值的求和;所以简单的说,以Signal2Noise为例,Phit值就是Hit gene的scores除以所有Hit gene的scores值的和 -
Permutation type参数
当选择Phenotype时,计算ES值需要用到ranking scores,所以每随机置换一次,都会ranking一次gene list,然后计算一个ES值,然后根据这一系列的ES值形成一个null distribution,然后将observe或者说actual的ES值与上述一系列ES比较,最终获得一个显著性P值,作者建议当每组样本数大于7个时使用