生物知识概念理解

目录

layout: post title: “生物知识概念理解” date: 2021-05-20 description: “”

tag:


概念

参数理解

  1. GSEA gene ranking方法

    默认为Signal2Noise, 还有log2_Ratio_of_Classes, 基因与样本表型之间的相关性

  2. Max Size和Min Size参数

    有时会发现你的GSEA结果为啥富集的通路很少,一些关心的通路则根本没在结果中出现,一种原因就是其根本没参与GSEA的计算。

    当您运行基因集富集分析时,GSEA软件自动标准化基因集大小变异的富集分数,如GSEA统计中所述。然而,对于非常小或非常大的基因集,归一化不是非常准确。例如,对于少于10个基因的基因集,只要2个或3个基因就可以产生显著的结果。因此,当你的表达矩阵的gene数目在10000-20000之间时,GSEA默认忽略包含小于25个基因或大于500个基因的基因集;

  3. ES值(enrichment scores)

    ES值相当于Phit - Pmiss差值的最大累计值(绝对值);N就是总gene list的数目;NH则是Hit gene list的数目;NR在不同情况下含义有点差别,比如在Signal2Noise下,其就是Hits-Gene在Ranking gene所对应的signal to noise scores总和,从图片上就是中间竖直黑线所对应值的求和;所以简单的说,以Signal2Noise为例,Phit值就是Hit gene的scores除以所有Hit gene的scores值的和

    image-20210520145111679

  4. Permutation type参数

    当选择Phenotype时,计算ES值需要用到ranking scores,所以每随机置换一次,都会ranking一次gene list,然后计算一个ES值,然后根据这一系列的ES值形成一个null distribution,然后将observe或者说actual的ES值与上述一系列ES比较,最终获得一个显著性P值,作者建议当每组样本数大于7个时使用