34 词云图
34.1 什么是词云图?
“词云”就是通过形成”关键词云层”或”关键词渲染”,对文本中出现频率较高的”关键词”进行视觉上的突出。词云图过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。
本文我们就来讨论一下词云图是如何绘制的以及如何对其进行解读。
34.2 绘图前的数据准备
demo数据可以在https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/wordcloud/wordcloud.zip下载。
本工具支持两种数据格式,一种是词频,另一种是一段话。
34.2.1 词频
必须要有列名,名称自定义。第一列为名称,第二列为名称对应的数量。
34.2.2 一段话
支持中文和英文,工具会自动将其拆分为词,并统计个数
34.3 R语言怎么画词云图
library(jiebaRD)
library(jiebaR)
library(wordcloud2)
# 先将一段文字转成词频
= "蛋白质组(Proteome)的概念最先由Marc Wilkins提出,指由一个基因组(genome),或一个细胞、组织表达的所有蛋白质(Protein). 蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变. 在转录时,一个基因可以多种mRNA形式剪接,并且,同一蛋白可能以许多形式进行翻译后的修饰. 故一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目. 蛋白质组学(Proteomics)处于早期“发育”状态,这个领域的专家否认它是单纯的方法学,就像基因组学一样,不是一个封闭的、概念化的稳定的知识体系,而是一个领域. 蛋白质组学集中于动态描述基因调节,对基因表达的蛋白质水平进行定量的测定,鉴定疾病、药物对生命过程的影响,以及解释基因表达调控的机制. 作为一门科学,蛋白质组研究并非从零开始,它是已有20多年历史的蛋白质(多肽)谱和基因产物图谱技术的一种延伸. 多肽图谱依靠双向电泳(Two-dimensional gel electrophoresis, 2-DE)和进一步的图象分析;而基因产物图谱依靠多种分离后的分析,如质谱技术、氨基酸组分分析等."
text
= worker(stop_word="stopwords.txt")
initialize # 停止词文件可以在这里下载https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/wordcloud/stopwords.txt
<-freq(initialize[text]) # 计算词频
df
# 绘图
wordcloud2(df,
size = 1, # 字体大小
fontFamily = 'Segoe UI', # 字体
fontWeight = 'bold', # 字体粗细
color = 'random-dark', # 字体颜色
backgroundColor = "white", # 背景颜色
minRotation = -pi/4, # minRotation和maxRotation控制文本旋转角度的范围
maxRotation = pi/4,
rotateRatio = 0.4, # 文本旋转的概率 0.4表示大约有40%的词发生了旋转
shape = "circle" # 轮廓形状
)
34.4 BioLadder生信云平台在线绘制词云图
不想写代码?可以用BioLadder生信云平台在线绘制词云图。
网址:
34.5 词云图结果解读
词云图是通过使每个字的大小与其出现频率成正比,显示不同单词在给定文本中的出现频率,然后将所有的字词排在一起,形成云状图案,可以以任何格式排列:水平线、垂直列或其他形状。在词云图上使用颜色通常都是毫无意义的,主要是为了美观。