R语言如何绘制桑基图

前言

本篇是R包networkD3绘制可以交互的html格式的桑基图的教程。

什么是桑基图

桑基图(Sankey Diagram),即桑基能量分流图,也叫桑基能量平衡图。图中延伸的分支的宽度对应数据流量的大小。

桑基图主要由边、流量和节点组成,其中边代表了流动的数据,流量代表了流动数据的具体数值,节点代表了不同分类。边的宽度与流量成比例地显示,边越宽,数值越大。

绘图前的数据准备

边(连线)数据

包含4列,前两列定义连线,从哪个节点到哪个节点,可以有多个层面。第三列是数值,定义连线粗细,第四列是颜色,定义连线的颜色。

demo数据可以从这下载:https://www.r2omics.cn/res/demodata/sankeyD3/link.txt

# A tibble: 16 x 4
   source target value group_color2
   <chr>  <chr>  <int> <chr>       
 1 A      a         12 grey        
 2 A      b         12 grey        
 3 B      c         32 grey        
 4 B      d         16 grey        
 5 B      a         32 grey        
 6 C      b         26 grey        
 7 C      c         41 grey        
 8 C      d          3 grey        
 9 C      a         12 grey        
10 D      b         23 grey        
11 a      1         41 grey        
12 a      2         53 grey        
13 a      3         25 grey        
14 b      4         65 grey        
15 c      5         23 grey        
16 d      1         31 grey        

节点数据

包含2列,第一列是边数据文件中的节点,第二列是该节点所在层次的颜色。

demo数据可以从这下载:https://www.r2omics.cn/res/demodata/sankeyD3/node.txt

# A tibble: 13 x 2
   name  group_color
   <chr> <chr>      
 1 A     red        
 2 B     red        
 3 C     red        
 4 D     red        
 5 a     blue       
 6 b     blue       
 7 c     blue       
 8 d     blue       
 9 1     green      
10 2     green      
11 3     green      
12 4     green      
13 5     green      

R语言如何绘制桑基图

# 代码来源:https://www.r2omics.cn/
library(networkD3)
library(tidyverse)
# 读取连线文件和节点文件
MisLinks = read.delim("https://www.r2omics.cn/res/demodata/sankeyD3/link.txt")
MisNodes = read.delim("https://www.r2omics.cn/res/demodata/sankeyD3/node.txt")

# 处理数据
# 因为networkD3需要的连线数据,是节点文件里的名称的索引。所以,需要做一个名称到索引的转化
Node2index = list()
Node2index[MisNodes$name] = 0:length(MisNodes$name)
MisLinks = MisLinks %>%
  mutate(source2 = unlist(Node2index[source])) %>%
  mutate(target2 = unlist(Node2index[target]))

# 定义颜色
color2project = paste(c(unique(MisNodes$group_color),unique(MisLinks$group_color2)),collapse = '","')
my_color <- paste0('d3.scaleOrdinal().domain(["',color2project,'"]).range(["',color2project,'"])')

# 绘图
sankeyNetwork(Links = MisLinks, 
              Nodes = MisNodes,
              Source = "source2", 
              Target = "target2",
              Value ="value",
              NodeID = "name",
              NodeGroup = "group_color", 
              LinkGroup  = "group_color2", 
              colourScale = JS(my_color),
              fontSize = 10
)