③主题山地主题山地(them scapes)方法使用了抽象的三维山地景观视图来隐喻文档集合中各个文档主题的分布mt4使用技巧文本行动人类音信调换的重要载体之一,对其举办可视化能有用助助人们迅疾意会和获取此中包含的音信。文本是人类音信调换的重要传布媒体之一,文本音信正在人们平常存在中简直无处不正在,如信息、邮件、微博、小说和竹素等。念了然更众闭于
文本可视化是大数据可视化钻探的重要实质之一,它是指对文本音信举办理解,抽取此中的特性音信,并将这些音信以易于感知的图形或图像方法呈现。文本可视化联合了音信检索、人机交互、可视化等身手,可能说是音信时期的润滑剂。因为文本种别的众样性及读者需求的众样性,人们提出了各式文本可视化的形式,搜罗普适性文档可视化形式、针对特定文档种别和理解需求的可视化形式。
文本可视化基础流程搜罗3个重要设施,即文本管束、可视化映照和交互操作。悉数进程应当缠绕用户理解的需求安排。
文本管束是文本可视化流程的根源设施,重要义务是遵照用户需求对原始文本资源中的特性音信举办理解,比如提取环节词或大旨等。对文来源始数据举办管束重要搜罗3个基础设施:文本数据预管束、特性抽取及特性胸襟。对文来源始数据举办预管束的目标是去除原始数据中极少无用或冗余的音信,常用分词身手与词干提取等形式。然后还要对文本举办净化管束,抽取可代外悉数文档的特性音信。
可视化映照是指以相宜的视觉编码和视觉组织方法透露文本特性的方法。此中,视觉编码是指采用相宜的视觉通道和可视化图符外征文本特性;视觉组织是指承载文本特性音信的各个图元正在平面上的分散和透露方法。对待统一个可视化结果,分别用户感意思的局限大概不完整肖似,而交互操作供给了正在可视化视图中浏览和找寻感意思局限的本事。
下面将从文本的形式或机闭、文档的大旨或大旨分散、文本中的相干等方面阐发些文本数据可视化的经典案例和行使。①标签云标签云(tag cloud)又称文本云(text cloud)或单词云(word cloud),是最直观、最常睹的对文本环节字举办可视化的形式。标签云平常操纵字体的巨细与颜色对环节词的紧急性举办编码。权重越大的环节词的字体越大,颜色越明显。除了字体巨细与颜色,环节词的组织也是标签云可视化形式中一个紧急的编码维度。它批准自界说可视化的视图空间,如长方形、圆形或者其他不规定图形,将环节词精细地组织正在视图空间。
②小说视图小说视图(novel views)形式是操纵轻易的图形将小说中的重要人物正在小说中的分散状况举办可视化。③大旨山地大旨山地(them scapes)形式操纵了概括的三维山地景观视图来隐喻文档聚拢中各个文档大旨的分散,此中高度和颜色用来编码大旨雷同的文档的密度。④大旨河道大旨河道(theme river)是用于时序型文本数据可视化的经典形式。时序型文本时时是指具有内正在递次的文档聚拢,比如一段时期内的信息报道、一套丛书等。因为时期轴是时序型文本的紧急属性,需求核心酌量时期轴的显露及可视化。
转载请注明出处。