富集分析可以绘制很多不同的图形和两种结果表一、两种结果表1、GO富集分析结果以及表头各列的含义如下:
GO富集结果表
1)ONTOLOGY:表示GO分类的种类,通常有三个主要的类别:
① BP:生物过程(Biological Process)
② CC:细胞组成(Cellular Component)
③ MF:分子功能(Molecular Function)
2)ID:GO条目的编号,唯一标识某个GO术语(例如GO:0008150代表生物过程类别中的“生物学过程”)。
3)Description:GO条目的描述,通常会简要说明该GO条目所涉及的生物学概念或功能。
4)GeneRatio:基因比率,指的是在某一GO条目富集的基因数与输入基因总数的比值。例如,若某GO条目包含10个基因,而输入基因集总共有100个基因,则GeneRatio为10/100 = 0.1。
5)BgRatio:背景比率,指的是在所有背景基因(通常是参考基因集)中属于某一GO条目的基因数与所有背景基因总数的比值。它帮助确定某GO条目在输入基因集中的显著性。
6)RichFactor:富集因子,表示基因比率与背景比率的比值(GeneRatio / BgRatio)。该值用于衡量某一GO条目相较于背景的富集程度,富集因子越大,说明该GO条目在输入基因集中越富集。
7)FoldEnrichment:富集倍数,类似于富集因子,用来衡量目标基因集在某一GO条目中的富集程度。与RichFactor类似,越大表示越富集。
8)zScore:Z得分,反映某GO条目富集的统计显著性。较大的zScore值(正数)表明该GO条目较为显著地富集,负值则表示较少富集。
9)pvalue:P值,表示某个GO条目富集的统计显著性。P值越小,富集结果越显著。
10)p.adjust:经过多重检验校正后的P值。为了控制假阳性率,通常会进行FDR(假发现率)校正,调整后的P值比原始P值更可靠。
11)qvalue:调整后的P值,通常与p.adjust相似,主要用于控制假阳性率的影响,确保结果的可靠性。
12)geneID:富集在该GO条目中的基因列表。显示哪些基因符合该GO条目的富集标准。
13)Count:在该GO条目中富集的基因数量。
2、KEGG富集分析结果的表头各列的含义如下:
1)category:KEGG路径分类。表示该通路所属的一级分类。例如,代谢通路(Metabolism)、信号转导通路(Signal Transduction)、免疫系统(Immune System)等。
2)subcategory:KEGG路径的二级分类。进一步细分通路的类别,通常反映了更具体的生物学功能或机制。例如,代谢通路下的二级分类可能包括“氨基酸代谢”、“糖类代谢”等。
3)ID:KEGG通路的ID(编号),是该通路在KEGG数据库中的唯一标识符。例如,hsa00010代表“糖酵解通路”在KEGG数据库中的ID。
4)Description:KEGG通路的描述,简要说明该通路的功能或生物学意义。例如,“糖酵解通路”描述了糖类分解为能量的过程。
5)GeneRatio:基因比率,指的是在某一KEGG通路中富集的基因数与输入基因总数的比值。例如,如果某通路包含10个基因,而输入基因集总共有100个基因,那么GeneRatio为 10/100 = 0.1。
6)BgRatio:背景比率,指的是在背景基因集(通常是参考基因集)中属于某个KEGG通路的基因数与背景基因总数的比值。这个比率用于衡量该通路在背景基因集中的分布情况。
7)RichFactor:富集因子,表示基因比率与背景比率的比值(GeneRatio / BgRatio)。富集因子越高,说明该KEGG通路在输入基因集中的富集程度越高。
8)FoldEnrichment:富集倍数,类似于富集因子,用于衡量输入基因集中某一KEGG通路的富集程度。富集倍数越大,说明该通路在输入基因集中的富集程度越高。
9)zScore:Z得分,反映某个KEGG通路富集的统计显著性。较大的zScore(通常为正值)表示该通路较为显著地富集,负值则表示较少富集。
10)pvalue:P值,表示某个KEGG通路富集的统计显著性。P值越小,表示富集结果越显著。
11)p.adjust:经过多重检验校正后的P值。为了减少假阳性结果,通常会进行FDR(假发现率)校正。调整后的P值比原始P值更加可靠。
12)qvalue:调整后的P值,与p.adjust类似,表示经过多重检验校正后的显著性。q值通常用于控制假发现率,确保结果的可靠性。
13)geneID:富集在该KEGG通路中的基因列表。显示哪些基因符合该KEGG通路的富集标准。
14)Count:富集在该KEGG通路中的基因数量,表示输入基因集中有多少个基因被分配到了该KEGG通路中。
二、各种富集图的说明
1. KEGG条形图(Barplot)
条形图用于直观地展示富集分析结果中显著的KEGG通路。它通过条形的长度来展示每个通路的富集程度,可以很清晰地比较不同通路之间的显著性。
1)解析:
-X轴:显示的是KEGG通路上的基因数目。
-Y轴:显示的是KEGG通路的名称(每个条形代表一个通路)。
-条形的颜色:条形的颜色表示调整后的p值(p.adjust),通常颜色越深表示p值越小,通路富集的显著性越高。
-显示数量:showCategory = 15表示只显示排名前15的 KEGG 通路。
2)图的解读:
-长度较长的条形代表该通路在你的基因集中的富集较高。
-p值越小,通路越显著。
-可以通过颜色的深浅看到富集的显著性:颜色较深表示该通路具有较低的p值,富集较为显著。
2. KEGG气泡图(Dotplot)
用于显示KEGG富集分析结果。它结合了通路的显著性、富集基因数和 p.adjust值的大小。
解析:
-X轴:基因比率。若值越高,代表在所研究的基因集中,与特定通路相关的基因占比较高。这可能意味着该通路在所研究的生物学问题中扮演重要角色。
-Y轴:表示每个通路的富集程度(通路的名称)。
-气泡的大小:气泡的大小通常表示该通路中的富集基因数量。气泡越大,代表该通路中的基因数量越多。
-气泡的颜色:气泡的颜色根据p.adjust值来表示,颜色越深表示该通路的富集越显著,p值越小。
-显示数量:showCategory = 15也表示仅显示排名前15的通路。
图的解读:
-每个气泡代表一个KEGG通路,气泡的大小和颜色反映了该通路富集的强度。
-如果气泡较大且颜色较深,说明该通路不仅富集程度较高,而且具有较高的显著性。
-气泡图可以帮助你快速识别出既富集基因数量多,又富集显著的KEGG通路。
3. KEGG小弦图(Cnetplot)
小弦图是一种将基因与KEGG通路之间的关系通过网络形式展示的图形。它可以直观地显示基因如何在不同的 KEGG 通路中富集,并且展示不同通路之间的关系。
解析:
节点:
-基因节点(Gene Nodes):展示了参与KEGG通路富集的基因。
-通路节点(Category Nodes):展示了被富集的KEGG通路。每个通路是一个节点。
-边缘:边缘连接基因和KEGG通路,表示基因和通路之间的关系。边缘的颜色和粗细通常表示边缘的显著性或其他相关属性。
-圆形布局:整个图呈现圆形布局,通路节点和基因节点通过边缘连接,形成一个网络结构。
-节点标签:我这里选择了node_label = "category",意味着节点标签为通路的名称。如果设置为"gene",则会显示基因名称。
图的解读:
-节点大小:节点的大小通常代表该通路中的基因数量或富集程度。较大的节点表示该通路中的富集基因更多。
-颜色和边缘:边缘的颜色表示显著性,颜色较深的边缘连接表示该通路与基因的富集关系更为显著。
-基因与通路的关系:通过小弦图,你可以清晰地看到哪些基因参与了哪些KEGG通路,并且可以观察到不同通路之间的相互关系。
总结:
在KEGG中,① 条形图和气泡图主要用于展示KEGG通路的显著性和富集程度,可以帮助你从全局上看到哪些通路被显著富集。② 小弦图则侧重于基因和通路之间的关系,适合用来揭示基因在各个通路中的分布和富集情况。
4、GO条形图(Barplot)、气泡图(Dotplot)
与KEGG不同的是,GO的气泡图和条形图分为三小类。
① BP:生物过程(Biological Process)
② CC:细胞组成(Cellular Component)
③ MF:分子功能(Molecular Function)
5、GO小弦图(Cnetplot)
解析:
节点:
-基因节点(Gene Nodes):展示了参与GO通路富集的基因。
-通路节点(Category Nodes):展示了被富集的GO通路。每个通路是一个节点。
-边缘:边缘连接基因和GO通路,表示基因和通路之间的关系。边缘的颜色和粗细通常表示边缘的显著性或其他相关属性。
-圆形布局:整个图呈现圆形布局,通路节点和基因节点通过边缘连接,形成一个网络结构。
-节点标签:我这里选择了node_label = "category",意味着节点标签为通路的名称。如果设置为"gene",则会显示基因名称。
图的解读:
-节点大小:节点的大小通常代表该通路中的基因数量或富集程度。较大的节点表示该通路中的富集基因更多。
-颜色和边缘:边缘的颜色表示显著性,颜色较深的边缘连接表示该通路与基因的富集关系更为显著。
-基因与通路的关系:通过小弦图,你可以清晰地看到哪些基因参与了哪些GO通路,并且可以观察到不同通路之间的相互关系。
6、富集圈图(Enrichment Circle Plot)
这个是GO的图
从外到内共4个track,中间的为图例(从上到下依次为:分类,p值,上调或者下调)
- 分类track
相同颜色的为同一分类,例如黄色表示BP,蓝色表示MF,最外圈刻度表示总的基因数,10的次方表示。总的基因数即图2中所有黄色圈所包含的基因去重后的基因数,或者推荐使用比所有条目中基因数最大值更大的一个值(一般设置为整百或者整千)。
- term里边的基因数
矩形长度表示该term中包含的基因数(例如GO:0031625这个term中包含306个基因),与最外圈的刻度成比例。矩形的颜色表示该term的富集p值(或者FDR值,q值等,经过-log10转化),颜色越深表示P越小。
- 重叠基因数
矩形长度表示该term中包含的基因与进行基因富集分析时所输入的基因的重叠基因数。例如进行富集分析的基因有500个,其中与GO:0031625中306个基因重叠的基因为38个。由于这个数字一般较小,因此矩形的长度与该track中最的基因数成比例。一般我们要么使用up的基因,要么使用down的基因进行富集分析,因此这里仅一种颜色。
- 富集分数bar
Bar的高度即第三个track里的基因数占第二个track里对应基因数的比例。数值范围为0到1,这里每个小圈表示0.2。
KEGG的图
圆圈 从外向内看
- 第1圈是通路编号和分类,具体编号对应什么通路名称可以在代码输出的Excel文件中查询;
- 第2圈表示这个通路有多少个基因;
- 第3圈分为两种颜色,二者加和始终是一样的,表示高表达基因的数目,深色表示其中有多少基因属于这个通路,浅色是不属于这个通路的基因数目;
- 第4圈是富集因子,等于差异基因中落到这个通路的基因数除以这个通路的基因总数(第三圈深色除以第二圈)
- 内部标签是,基因数量、上调、下调、富因子 (0-1)。
7、Z-score气泡图(Z-score Bubble Plot)
Z-score气泡图是展示基因集富集结果的一种方式,气泡的大小和颜色反映了每个GO条目或KEGG通路的显著性和富集程度。
- 气泡的大小:通常代表该GO条目或KEGG通路中富集的基因数或GeneRatio。较大的气泡表示富集程度较高。
- 气泡的颜色:表示z-score值。z-score反映了富集的显著性,通常为正值时表示富集显著,- 负值表示富集较弱。颜色的深浅或渐变通常用来表示z-score的值。
解读:
- 大气泡表示该GO条目或KEGG通路富集的基因数较多,富集程度较高。
- 颜色深的气泡通常表示该GO条目或KEGG通路的富集显著性较高(通常对应正的z-score)。
- 负的z-score值表示富集较弱或不显著,而正的z-score值表示富集程度显著。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~