几乎每个博客里都有一个这样的插件:mt4如何画线是不是很谙习?大到散布海报,小到局部咭片,Wordle 方今处处可睹。它能够轻松的显示出一段文字的合头词,让咱们对这段话的实质众所周知。原本这属于数据可视化中的文本实质可视化,常用于社交搜集中的实质领会,还记得前几年微博有有个插件(现正在好像找不到了),用户能够一键天生本人的微博合头词,当时惹起了豪爽转发,由于许众用户的合头词出乎预料,让本人都大吃一惊。本文就从最方便的 Wordle 说起,说说文本实质可视化,以窥数据可视化一隅。
GraphiCon取GraphicsCon图形控之意(类比lolicon)。咱们会把咱们认为乐趣的,好玩的,有效的图形学合连的工夫,学问,念法,资讯放到GraphiCon这个小空间里。GraphiCon的po主们固然遍布天南地北,正在从事着差异的事,但都是痴迷策动机图形学的小伙伴们。只须你也对策动机图形学感趣味,或者喜爱好玩乐趣狂拽酷炫的图形项目,那么你也是GraphiCon!
一眼扫过去,你或许能轻松地属意到GraphiCon映现了 4 次。而尚有个合头词「图形」,固然映现了 5 次,但明显没有 GraphiCon 精通。普通阅读比拟疾的同窗或许有字斟句酌的技术,其性子即是合头词提取。霎时清楚一段话的大意,进而判定要不要花时分去读。但这完整取决于你局部提取合头字的材干。假使换一种图形的样子,或许就会尽头直观:
看这张图彰彰比看无味的文字要直观的众,况且还不料呈现了「策动机图形学」这个词的频率居然也挺高。它正在原文中映现了两次,这是咱们纯洁看文字很难呈现的。只是,这幅图还不是最好的效益,你或许也呈现:除了词频高的词,其他合头词很小,基础看不清;况且统统组织很零碎,空缺太众,没有一种鸠合的感到。
这幅比上面的又稍体面了一点,同时对词的紧要性也实行了从新统计,不再是纯洁的遵照词频。或许你认为还不敷美,那云云:
哈哈,尚有许众好玩的,只是例子中这段话的篇幅太短,合头词太少,是以显得不是很紧凑,许众更酷炫的样式也不实用了。
原本数据可视化即是把杂乱的数据转化为直观的图形,利便人们洞悉。况且刚刚这个例子还只是最方便的文本数据,假使好坏常杂乱的数据,遍及人基础看不懂的那种,就更须要数据可视化为咱们抽丝剥茧,完满出现。合于可视化的须要性我会渐渐渗出到之后的每一篇著作中,接下来出手先容 Wordle 的筑制经过。
任何的数据可视化都离不开三大程序[1]:领会、处罚、天生,Wordle 亦然[2]。奈何从一段文字造成一张优雅的图片,咱们也许要阅历以下程序:
第一步中,英文的分词相对中文来说方便的众(正在创作本文的经过中,我险些是找遍了中文标签云筑制器械,没呈现一款分词做的好的),把单词都隔离后,去掉少少助词如 the、a、that 等,再把单词的时态语态还原就好了。第二步最常用的即是策动词频了,一个词映现的次数越众它的权重越大(Wordle 即是用了词频)。除此除外,尚有效单词正在句子中的因素来判定其紧要性的、有效种种概率模子的,这涉及到自然言语处罚和文本讯息发掘,总之格式众种众样。其它,文本数据发掘无间也是热门的探讨话题,更加是中文处罚这道难以超越的边界。民众有趣味能够自行探讨。
上图是《数据可视化之美》的配图,分散来自美邦邦度安排探讨中央和古埃及厕纸。95 年正在动漫作品 EVA 中,词云的呈现样子也有所再现[4]。
这种看似乱七八糟的排布,适值与人类的跳跃头脑相契合,人脑的思途跟着视觉的跳动也随着不时联念。
而正在策动机上,最早的文字可视化原本是「标签云」。当年博客发作的时期,险些每个博客里都有一个云云的插件:
它用文字的巨细和颜色的深浅来外达了文字正在文本中的紧要性,比你纯洁看一段文字要直观的众。但它的错误也许众:从美的角度来说,它统一行假使有一个词字体非常大则直接导致行距变大,不光形成了空间的蹧跶,还让全体看起来尽头不划一、不协作;从讯息暴露的角度来说,字体的深浅巨细不行更好的再现分歧,比方上图中 good 的权重是 50,而 life 的权重是 20,但它俩看起来的差异并不大。
厥后映现的 Wordle 针对这些错误逐一作了改正。起初它用字体的粗度来加深权重的显示,由于人的视觉对面积的感知比对饱和度的感知要强,是以加粗字体效益拔群;其次 Wordle 用紧凑的组织给人以美的享福,你以至能够给定形式来天生差异的 Wordle。
Wordle 全体采用的算法是贪图算法,最出手正在给定区域内把最紧要的单词先摆到某个身分(这个身分你能够指定,日常是中央线),然后用下个单词正在它的旁边不休做交叠测试,直到没有重叠。按序迭代,直到每个单词都摆放好。
固然 Wordle 的安排仍然很体面,但动作一个有批判性头脑的少年,咱们仍旧要对它批判一番:
Wordle 体面水准很大水准依赖于它所选的字体。笃信你也睹过宋体中文的 Wordle。。
Wordle 算是文本实质可视化中最经典的样子,除此除外尚有少少更乐趣的,比方下图的 DocuBurst [4]。它用环形组织精巧地显示了文本的层级联系,外圈的单词是内圈单词的下一层。
正所谓“一图胜千言”,文本可视化把无味的文字造成乐趣的图片助助人们加深剖判,能够说是功弗成没。假使有趣味连续清楚可视化合连的实质,敬请希望下一期。
假使你有什么念法,倡导,或者念出席咱们,你能够:给咱们发邮件:出席咱们的QQ群:SIQGRAPH(342086343)出席咱们的slack群:GraphiConGraphiCon历久给与投稿,假使你念投稿给咱们能够通过上面的形式相干咱们!
本作品采用学问共享签字-非贸易性运用-禁止演绎 4.0 邦际许可允诺实行许可。
转载请注明出处。