2025-06-14 12:55:53

有关富集分析各种表和图怎么看的问题

富集分析可以绘制很多不同的图形和两种结果表一、两种结果表1、GO富集分析结果以及表头各列的含义如下:

GO富集结果表

1)ONTOLOGY:表示GO分类的种类,通常有三个主要的类别:

① BP:生物过程(Biological Process)

② CC:细胞组成(Cellular Component)

③ MF:分子功能(Molecular Function)

2)ID:GO条目的编号,唯一标识某个GO术语(例如GO:0008150代表生物过程类别中的“生物学过程”)。

3)Description:GO条目的描述,通常会简要说明该GO条目所涉及的生物学概念或功能。

4)GeneRatio:基因比率,指的是在某一GO条目富集的基因数与输入基因总数的比值。例如,若某GO条目包含10个基因,而输入基因集总共有100个基因,则GeneRatio为10/100 = 0.1。

5)BgRatio:背景比率,指的是在所有背景基因(通常是参考基因集)中属于某一GO条目的基因数与所有背景基因总数的比值。它帮助确定某GO条目在输入基因集中的显著性。

6)RichFactor:富集因子,表示基因比率与背景比率的比值(GeneRatio / BgRatio)。该值用于衡量某一GO条目相较于背景的富集程度,富集因子越大,说明该GO条目在输入基因集中越富集。

7)FoldEnrichment:富集倍数,类似于富集因子,用来衡量目标基因集在某一GO条目中的富集程度。与RichFactor类似,越大表示越富集。

8)zScore:Z得分,反映某GO条目富集的统计显著性。较大的zScore值(正数)表明该GO条目较为显著地富集,负值则表示较少富集。

9)pvalue:P值,表示某个GO条目富集的统计显著性。P值越小,富集结果越显著。

10)p.adjust:经过多重检验校正后的P值。为了控制假阳性率,通常会进行FDR(假发现率)校正,调整后的P值比原始P值更可靠。

11)qvalue:调整后的P值,通常与p.adjust相似,主要用于控制假阳性率的影响,确保结果的可靠性。

12)geneID:富集在该GO条目中的基因列表。显示哪些基因符合该GO条目的富集标准。

13)Count:在该GO条目中富集的基因数量。

2、KEGG富集分析结果的表头各列的含义如下:

1)category:KEGG路径分类。表示该通路所属的一级分类。例如,代谢通路(Metabolism)、信号转导通路(Signal Transduction)、免疫系统(Immune System)等。

2)subcategory:KEGG路径的二级分类。进一步细分通路的类别,通常反映了更具体的生物学功能或机制。例如,代谢通路下的二级分类可能包括“氨基酸代谢”、“糖类代谢”等。

3)ID:KEGG通路的ID(编号),是该通路在KEGG数据库中的唯一标识符。例如,hsa00010代表“糖酵解通路”在KEGG数据库中的ID。

4)Description:KEGG通路的描述,简要说明该通路的功能或生物学意义。例如,“糖酵解通路”描述了糖类分解为能量的过程。

5)GeneRatio:基因比率,指的是在某一KEGG通路中富集的基因数与输入基因总数的比值。例如,如果某通路包含10个基因,而输入基因集总共有100个基因,那么GeneRatio为 10/100 = 0.1。

6)BgRatio:背景比率,指的是在背景基因集(通常是参考基因集)中属于某个KEGG通路的基因数与背景基因总数的比值。这个比率用于衡量该通路在背景基因集中的分布情况。

7)RichFactor:富集因子,表示基因比率与背景比率的比值(GeneRatio / BgRatio)。富集因子越高,说明该KEGG通路在输入基因集中的富集程度越高。

8)FoldEnrichment:富集倍数,类似于富集因子,用于衡量输入基因集中某一KEGG通路的富集程度。富集倍数越大,说明该通路在输入基因集中的富集程度越高。

9)zScore:Z得分,反映某个KEGG通路富集的统计显著性。较大的zScore(通常为正值)表示该通路较为显著地富集,负值则表示较少富集。

10)pvalue:P值,表示某个KEGG通路富集的统计显著性。P值越小,表示富集结果越显著。

11)p.adjust:经过多重检验校正后的P值。为了减少假阳性结果,通常会进行FDR(假发现率)校正。调整后的P值比原始P值更加可靠。

12)qvalue:调整后的P值,与p.adjust类似,表示经过多重检验校正后的显著性。q值通常用于控制假发现率,确保结果的可靠性。

13)geneID:富集在该KEGG通路中的基因列表。显示哪些基因符合该KEGG通路的富集标准。

14)Count:富集在该KEGG通路中的基因数量,表示输入基因集中有多少个基因被分配到了该KEGG通路中。

二、各种富集图的说明

1. KEGG条形图(Barplot)

条形图用于直观地展示富集分析结果中显著的KEGG通路。它通过条形的长度来展示每个通路的富集程度,可以很清晰地比较不同通路之间的显著性。

1)解析:

-X轴:显示的是KEGG通路上的基因数目。

-Y轴:显示的是KEGG通路的名称(每个条形代表一个通路)。

-条形的颜色:条形的颜色表示调整后的p值(p.adjust),通常颜色越深表示p值越小,通路富集的显著性越高。

-显示数量:showCategory = 15表示只显示排名前15的 KEGG 通路。

2)图的解读:

-长度较长的条形代表该通路在你的基因集中的富集较高。

-p值越小,通路越显著。

-可以通过颜色的深浅看到富集的显著性:颜色较深表示该通路具有较低的p值,富集较为显著。

2. KEGG气泡图(Dotplot)

用于显示KEGG富集分析结果。它结合了通路的显著性、富集基因数和 p.adjust值的大小。

解析:

-X轴:基因比率。若值越高,代表在所研究的基因集中,与特定通路相关的基因占比较高。这可能意味着该通路在所研究的生物学问题中扮演重要角色。

-Y轴:表示每个通路的富集程度(通路的名称)。

-气泡的大小:气泡的大小通常表示该通路中的富集基因数量。气泡越大,代表该通路中的基因数量越多。

-气泡的颜色:气泡的颜色根据p.adjust值来表示,颜色越深表示该通路的富集越显著,p值越小。

-显示数量:showCategory = 15也表示仅显示排名前15的通路。

图的解读:

-每个气泡代表一个KEGG通路,气泡的大小和颜色反映了该通路富集的强度。

-如果气泡较大且颜色较深,说明该通路不仅富集程度较高,而且具有较高的显著性。

-气泡图可以帮助你快速识别出既富集基因数量多,又富集显著的KEGG通路。

3. KEGG小弦图(Cnetplot)

小弦图是一种将基因与KEGG通路之间的关系通过网络形式展示的图形。它可以直观地显示基因如何在不同的 KEGG 通路中富集,并且展示不同通路之间的关系。

解析:

节点:

-基因节点(Gene Nodes):展示了参与KEGG通路富集的基因。

-通路节点(Category Nodes):展示了被富集的KEGG通路。每个通路是一个节点。

-边缘:边缘连接基因和KEGG通路,表示基因和通路之间的关系。边缘的颜色和粗细通常表示边缘的显著性或其他相关属性。

-圆形布局:整个图呈现圆形布局,通路节点和基因节点通过边缘连接,形成一个网络结构。

-节点标签:我这里选择了node_label = "category",意味着节点标签为通路的名称。如果设置为"gene",则会显示基因名称。

图的解读:

-节点大小:节点的大小通常代表该通路中的基因数量或富集程度。较大的节点表示该通路中的富集基因更多。

-颜色和边缘:边缘的颜色表示显著性,颜色较深的边缘连接表示该通路与基因的富集关系更为显著。

-基因与通路的关系:通过小弦图,你可以清晰地看到哪些基因参与了哪些KEGG通路,并且可以观察到不同通路之间的相互关系。

总结:

在KEGG中,① 条形图和气泡图主要用于展示KEGG通路的显著性和富集程度,可以帮助你从全局上看到哪些通路被显著富集。② 小弦图则侧重于基因和通路之间的关系,适合用来揭示基因在各个通路中的分布和富集情况。

4、GO条形图(Barplot)、气泡图(Dotplot)

与KEGG不同的是,GO的气泡图和条形图分为三小类。

① BP:生物过程(Biological Process)

② CC:细胞组成(Cellular Component)

③ MF:分子功能(Molecular Function)

5、GO小弦图(Cnetplot)

解析:

节点:

-基因节点(Gene Nodes):展示了参与GO通路富集的基因。

-通路节点(Category Nodes):展示了被富集的GO通路。每个通路是一个节点。

-边缘:边缘连接基因和GO通路,表示基因和通路之间的关系。边缘的颜色和粗细通常表示边缘的显著性或其他相关属性。

-圆形布局:整个图呈现圆形布局,通路节点和基因节点通过边缘连接,形成一个网络结构。

-节点标签:我这里选择了node_label = "category",意味着节点标签为通路的名称。如果设置为"gene",则会显示基因名称。

图的解读:

-节点大小:节点的大小通常代表该通路中的基因数量或富集程度。较大的节点表示该通路中的富集基因更多。

-颜色和边缘:边缘的颜色表示显著性,颜色较深的边缘连接表示该通路与基因的富集关系更为显著。

-基因与通路的关系:通过小弦图,你可以清晰地看到哪些基因参与了哪些GO通路,并且可以观察到不同通路之间的相互关系。

6、富集圈图(Enrichment Circle Plot)

这个是GO的图

从外到内共4个track,中间的为图例(从上到下依次为:分类,p值,上调或者下调)

- 分类track

相同颜色的为同一分类,例如黄色表示BP,蓝色表示MF,最外圈刻度表示总的基因数,10的次方表示。总的基因数即图2中所有黄色圈所包含的基因去重后的基因数,或者推荐使用比所有条目中基因数最大值更大的一个值(一般设置为整百或者整千)。

- term里边的基因数

矩形长度表示该term中包含的基因数(例如GO:0031625这个term中包含306个基因),与最外圈的刻度成比例。矩形的颜色表示该term的富集p值(或者FDR值,q值等,经过-log10转化),颜色越深表示P越小。

- 重叠基因数

矩形长度表示该term中包含的基因与进行基因富集分析时所输入的基因的重叠基因数。例如进行富集分析的基因有500个,其中与GO:0031625中306个基因重叠的基因为38个。由于这个数字一般较小,因此矩形的长度与该track中最的基因数成比例。一般我们要么使用up的基因,要么使用down的基因进行富集分析,因此这里仅一种颜色。

- 富集分数bar

Bar的高度即第三个track里的基因数占第二个track里对应基因数的比例。数值范围为0到1,这里每个小圈表示0.2。

KEGG的图

圆圈 从外向内看

- 第1圈是通路编号和分类,具体编号对应什么通路名称可以在代码输出的Excel文件中查询;

- 第2圈表示这个通路有多少个基因;

- 第3圈分为两种颜色,二者加和始终是一样的,表示高表达基因的数目,深色表示其中有多少基因属于这个通路,浅色是不属于这个通路的基因数目;

- 第4圈是富集因子,等于差异基因中落到这个通路的基因数除以这个通路的基因总数(第三圈深色除以第二圈)

- 内部标签是,基因数量、上调、下调、富因子 (0-1)。

7、Z-score气泡图(Z-score Bubble Plot)

Z-score气泡图是展示基因集富集结果的一种方式,气泡的大小和颜色反映了每个GO条目或KEGG通路的显著性和富集程度。

- 气泡的大小:通常代表该GO条目或KEGG通路中富集的基因数或GeneRatio。较大的气泡表示富集程度较高。

- 气泡的颜色:表示z-score值。z-score反映了富集的显著性,通常为正值时表示富集显著,- 负值表示富集较弱。颜色的深浅或渐变通常用来表示z-score的值。

解读:

- 大气泡表示该GO条目或KEGG通路富集的基因数较多,富集程度较高。

- 颜色深的气泡通常表示该GO条目或KEGG通路的富集显著性较高(通常对应正的z-score)。

- 负的z-score值表示富集较弱或不显著,而正的z-score值表示富集程度显著。

生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~