2026-06-14-数据可视化 Vol.1 概论
关于数据可视化
本文主要介绍数据可视化的定义、历史、视觉编码、视觉感知与认知、格式塔原理、优化方法、分析流程与常用工具,主要分几块
一是数据可视化的作用、定义与历史,含 DIKW 框架、天气示例、狭义与广义可视化的区分、威廉・普莱菲的贡献、数据可视化的优势和应用场景
二是视觉编码,讲了标记与视觉通道、三大类编码(定性、定量、关系)、一致性重要性有效性三原则
三是视觉感知与视觉编码的关系,含视觉感知四阶段和三类编码对照表
四是视觉特征,按分类、定量、关系三类排出视觉通道的强弱顺序
五是格式塔原理的八条原则
六是编码解码过程及格式塔原理在可视化中的具体应用
七是优化方法,覆盖数据检查、信息层级、比较效果、决策支持、交互、审美、可访问性、系统一致性等维度
八是数据探索分析的一般流程及前中后三阶段;
九是做图前要考虑的几个问题;
十是常用数据可视化库
一、数据可视化的作用、定义与历史,优势与应用场景
DIKW 框架
DIKW 是一个经典的认知与管理框架,表示 Data(数据)— Information(信息)— Knowledge(知识)— Wisdom(智慧)的层级演进关系。它常被用来解释:组织如何把原始事实逐步转化为可用于判断和决策的能力。
DIKW 的层级关系可以简单理解为:数据是原始事实,信息是有组织、有意义的数据,知识是对信息的理解与规律提炼,智慧是基于知识做出恰当决策。
也可以把它看成一个递进过程:数据 → 信息 → 知识 → 智慧。这个过程并不是自动完成的,中间通常需要数据治理、业务语境、专业经验、决策目标和价值判断。
以天气为例来理解这四层:
-
数据:32℃、湿度 85%、风速 3 级
-
信息:今天炎热潮湿,体感温度高
-
知识:这种天气下户外活动容易中暑,午后雷阵雨概率较高
-
智慧:把团队团建改到室内,并提前准备补水和应急方案
数据可视化的作用,是把原本抽象、零散、难以直接理解的数据,用图表、地图、仪表盘等形式表达出来,让人更快看出模式、趋势、异常和关系,降低理解门槛,帮助沟通、分析和决策。
在 DIKW 体系下,数据可视化贯穿数据、信息、知识和智慧的转化过程。
在数据到信息阶段,把抽象的数据转化为直观的信息;在信息到知识阶段,它帮助人发现规律、识别异常、提炼结论
在知识到智慧阶段,进一步支持知识整合、比较分析和决策判断,打通数据理解到智慧决策的一环。
什么是数据可视化
数据可视化的范畴分为狭义数据可视化和广义数据可视化。
科学可视化是科学之中的一个跨学科研究与应用领域,主要关注自然现象的可视化;
信息可视化处理的数据具有抽象数据结构,关注于将抽象的概念转化成为可视化信息;
数据可视化将数据集中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像;
思维可视化通过图形展示抽象的逻辑概念以及逻辑概念之间的关联关系。
科学可视化主要表现天然的几何结构;信息可视化更注重于方便地向受众展示抽象数据提供的信息;思维可视化侧重于展示人的逻辑思维和抽象概念的关联。而数据可视化主要是对数据集进行可视化,目的是为了深入分析、发现规律。
威廉·普莱菲(苏格兰,1759—1823)发明了线图、条形图、饼图和面积图。19 世纪出现的早期数据可视化图形主要包括折线图、柱状图、饼图、面积图以及统计地图等
数据可视化的优势
第一,看懂复杂数据,不再”一头雾水”。把抽象的数字变成直观的图形,降低认知门槛。
第二,快速发现规律,抓住关键信息。通过视觉设计(颜色对比、图形大小)突出关键模式,提升分析效率。
第三,讲清复杂逻辑,让沟通更高效。通过视觉叙事(图形加上下文)降低沟通成本,适合非专业人士理解。
第四,支持精准决策,降低试错成本。通过视觉驱动的可视化分析,减少决策中的主观猜测。
数据可视化的应用场景
数据可视化的应用场景,就是一切需要把复杂数据转化为直观认知、分析结论和决策依据的场景,常见场景包括以下几类。
企业经营分析:用仪表盘、趋势图查看销售额、利润、成本、用户增长等指标,帮助管理层掌握经营状况。
市场与运营分析:用来分析活动效果、转化漏斗、用户留存、投放效果,帮助优化运营策略。
金融与风控:用可视化识别异常交易、风险分布、资金流向,辅助风险监测和决策。
医疗与公共卫生:展示病例变化、疾病传播、资源分布,帮助观察趋势和进行公共管理。
教育与科研:展示实验结果、学习成绩分布、研究数据关系,帮助发现规律和验证结论。
政府与城市治理:用地图、热力图、监测看板展示人口、交通、环境、安全等数据,支持城市管理。
新闻传播与数据故事:媒体通过图表和信息图,把复杂信息讲得更清楚,方便公众理解。
好的数据可视化是一个从数据到图表再到信息的传递过程。创作者需要根据信息类型选择合适的视觉编码方式,读者则通过视觉感知和认知系统理解图表。
因此好的可视化正确表达数据之外也要符合人的视觉认知规律。
二、什么是视觉编码
视觉编码描述了人眼将数据映射成为图形元素的过程。这里”编”是设计和映射,“码”是图形符号。可视化时,我们不是直接把数据扔给别人,而是要先把数据编码成图上的点、线、面、颜色、大小、位置等视觉形式。
标记是图表里的”基本图形单元”,包括点、线、面、柱、圆、区域等。
视觉通道就是用什么视觉属性去表现数据差异,包括位置、颜色、形状、图案、长度、角度、面积、亮度、饱和度、图案密度,以及包含、连接、相似、接近等。
标记是”画什么”,视觉通道是”怎么让它表达数据”。
视觉编码是把数据映射成图形元素的过程,其中图表中的基本图形对象叫标记,而用来表达数据属性的方式叫视觉通道。
常见视觉通道有位置、颜色、形状、图案、长度等。位置适合表示定量信息,颜色、形状和图案更适合表示分类信息。合理选择视觉通道,才能提高数据可视化的表达效果。
如何选择合适的视觉编码
所谓”如何选择合适的视觉编码”,也就是面对不同类型的数据属性,应该用什么图形方式来表达,才能既准确又容易理解。视觉编码可以分成三大类。
定性或分类,用来回答”它属于哪一类”。常见通道有位置、色调、形状、图案,它们更适合表示类别差异,比如男女、地区、产品类型、进出口等。
定量或定序,用来回答”它有多少”或者”谁大谁小”。常见通道有空间位置、长度、角度、面积、亮度、图案密度,它们更适合表示数量大小、顺序高低。
表示关系,用来回答”它们之间有什么联系”。常见通道有包含、连接、相似、接近,这类方式更适合表现层级、关联、聚类、网络关系。
视觉编码的三条原则
一致性:数据编码类型要与数据属性类型保持一致。也就是类别数据优先用颜色、形状这类分类通道,数值数据优先用位置、长度这类定量通道,不能乱配。比如拿颜色深浅去表示一个很精确的数值,往往就不如用位置或长度准确。
重要性:重要的数据属性要用有效的视觉编码方式,核心信息要放在最容易被看出来的通道上。比如最关键的指标,最好用位置、长度等更强的通道,而不是藏在纹理或不明显的颜色变化里。
有效性:不同视觉通道感知精度不同,会影响信息还原。也就是说不同通道表达能力不同,位置通常比面积更容易比较,长度通常比颜色明暗更适合精确判断。
例题
例题一:以下属于定性和分类的视觉通道是?
选项:A 长度;B 面积;C 包含;D 颜色。
因为长度、面积主要用于定量表达,颜色非常常见地用于分类表达,而包含更偏向关系表达,不是常见的定性分类通道。答案是 D 颜色
例题二:以下哪个不属于尺寸视觉通道的范畴?
选项:A 长度;B 角度;C 面积;D 体积。
这里”尺寸视觉通道”主要指通过几何大小来表达量值,常见包括长度、面积、体积,而角度通常单独算作角度通道,不属于”尺寸”范畴。答案是 B 角度。
总结起来就是:
分类数据用颜色、形状等; 数值数据用位置、长度等; 关系数据用包含、连接、接近等; 并且还要遵循一致性、重要性、有效性三条原则。
三、视觉感知和视觉编码
视觉编码解决的是”怎么把数据画出来”,视觉感知解决的是”人怎么看懂这些图”。两者共同构成了数据可视化从数据 → 图形 → 信息的完整过程。
什么是视觉编码
视觉编码是指把数据属性映射为图形属性的过程,抽象数据”翻译”成可见图表。
例如把销售额映射成柱子的长度,把类别映射成不同颜色,把时间映射到横轴位置,把关系映射成连接线。所以视觉编码本质上就是用图形元素和视觉通道来表达数据。
什么是视觉感知
视觉感知指的是人看到图形后,眼睛和大脑如何接收、识别、组织并理解这些视觉信息。视觉感知可以分成四个阶段。
视觉输入,成像信号传递到大脑,再快速特征判断,再认知分析
特征判断:大脑会对物体的一些基础特征进行快速判断,包括位置远近、包含关系、长度、角度、方向、形状、大小、闭合、色相、强度或明暗、位置等。会先快速抓住一些显著特征。
认知分析:大脑进一步分析,对物体和元素进行识别,对空间布局进行感知,并且调动记忆信息进行解释。这里已经进入”理解”层面,也就是这是什么图、哪部分最重要、这说明了什么问题、它和我已有知识有什么关系。
好的数据可视化能让人在前几个视觉阶段就能尽快抓住关键信息,减少后续认知负担
视觉编码和视觉感知的关系
视觉编码是把数据变成图,视觉感知是把图变成信息。
这两个概念是前后衔接的:视觉编码站在创作者角度,研究”怎么设计图表”;视觉感知站在读者角度,研究”人怎么理解图表”。
视觉感知是指人眼和大脑对图形信息的接收、识别和理解过程,通常经历刺激接收、信号传导、基础特征判断和认知解释等阶段。视觉编码则是将数据属性映射为图形属性的过程,包括定性、定量和关系三类编码方式。两者之间的关系是:视觉编码决定图表如何呈现,视觉感知决定图表能否被准确理解,因此好的数据可视化应当依据人类视觉感知规律来选择合适的视觉编码。
三类视觉编码
| 类型 | 主要回答的问题 | 常见视觉通道 | 适合表达的内容 | 典型例子 |
|---|---|---|---|---|
| 定性 / 分类 | 它属于哪一类? | 颜色、形状、图案、类别位置 | 类别差异、分组、身份区分 | 不同地区、不同产品、不同用户类型 |
| 定量 / 定序 | 它有多少?谁大谁小?顺序如何? | 位置、长度、角度、面积、亮度、图案密度 | 数值大小、大小规律、排序高低 | 销售额、温度、增长率、排名 |
| 关系 | 它们之间有什么联系? | 包含、连接、接近、相似 | 层级关系、网络关系、聚类关系、关联关系 | 组织结构、社交网络、知识图谱、模块依赖 |
四、视觉特征
人眼对不同视觉特征的感知能力并不一样,所以不同数据类型要优先选不同强度的视觉通道。也就是说,做数据可视化时,不是所有编码方式都同样有效,人类对位置、长度、颜色、面积、体积等信息的判断精度有强弱之分。人眼最容易准确识别的视觉属性是位置,其次是长度,越往后越难精确判断
对于定量信息,坐标轴位置和长度的表达效果最好,再是角度、面积和亮度密度;
对于分类信息,平面位置、色调和形状较合适;
对于关系信息,包含和连接比相似、接近更清晰。
不同数据类型的视觉通道表现力强弱
1. 分类视觉通道强弱
顺序是:平面位置 > 色调 > 形状 > 图案。
分类任务是回答”它属于哪一类”。对于分类来说,平面位置最容易让人区分组别;色调也很强,不同颜色一眼就能分组;形状适合区分类别,但类别太多时识别效率下降;图案也能分类,但识别速度和清晰度通常更弱。
比如区分不同用户群,最强方式是让不同群在图上自然分区,其次可以用不同颜色,再其次用不同点形状,最后才考虑纹理或图案。
2. 定量 / 定序视觉通道强弱
顺序是:坐标轴位置 > 长度 > 角度 > 面积 > 亮度 > 图案密度。
定量任务是回答”它有多少""谁更大”。对数值表达来说,坐标轴位置最准确,比如散点图、折线图;长度次之,比如柱状图;角度再往后,比如饼图;面积更弱,比如气泡图;亮度、图案密度最不适合做精确数值比较。
如果要让别人准确比较销售额高低,最好用点的位置或柱子的长度,不建议优先用扇形角度,更不建议只靠颜色深浅去表达精确值。这也是为什么柱状图通常比饼图更适合比较大小,2D 图通常比 3D 图更适合精确读取。
3. 关系视觉通道强弱
顺序是:包含和连接 > 相似和近似。
关系任务是回答”它们之间有什么联系”。对于关系表达,包含适合表示层级、归属;连接适合表示网络、链路、依赖关系;相似、近似也能表示关系,但通常是弱关系,需要读者进一步判断。
比如组织架构,用树状结构和包含关系最清楚,网络关系适合用连线;如果只靠”看起来靠得近”来表达关系,读者可能理解不稳定。
五、格式塔原理
视觉认知是指人对所见信息进行整合、解释并赋予意义的心理过程。格式塔原理说明,人类视觉倾向于把零散元素组织成整体。常见原理包括相似性、封闭性、连续性、对称性、主体背景、共同区域、连接和共同命运等。在数据可视化中,这些原理可以用于分组元素、突出重点、表达关系和优化布局,从而提高图表的可读性和理解效率。
视觉认知是指人对通过视觉器官获得的信息进行整合、解释并赋予意义的心理过程。感知强调”看见什么”,认知强调”怎样理解和解释看到的东西”,而视觉认知则是二者结合的结果。在数据可视化中,视觉认知决定了读者能否快速、准确地从图表中获取信息。
格式塔原理来源于格式塔心理学,其核心观点是:人类视觉倾向于把对象作为一个整体来感知,而不是把它们看成彼此孤立的部分。也就是说,人们在观察图形时,会自动对零散元素进行组织、分组和结构化理解。因此,格式塔原理为数据可视化设计提供了重要依据。常见的格式塔原理包括以下几种。
相似性原理: 相似的对象容易被看作同一组。在数据可视化中,常用相同的颜色、形状或大小表示同一类别,以帮助读者快速完成分类和分组。
封闭性原理: 人类视觉会自动把不完整的图形补充为完整图形。在可视化设计中,即使图形边界没有完全闭合,读者仍然可能感知到一个完整区域,因此可以利用留白和局部轮廓增强整体感。
连续性原理: 人倾向于把对象感知为连续的形式,而不是离散的碎片。在折线图、流程图和路径图中,连续排列和连续线条能够更好地引导视线,帮助读者理解变化趋势和流程关系。
对称性原理: 对称的对象更容易被感知为一个整体。对称布局能够增强页面的稳定感、秩序感和可读性,因此常用于仪表盘、版面设计和图表布局中。
主体—背景原理: 人会自动将视觉对象分为主体和背景。在数据可视化中,应突出主体信息,弱化背景干扰,如强调关键数据、淡化辅助线和装饰元素,从而提高重点信息的可见性。
共同区域原理: 处于同一封闭区域中的元素会被认为属于同一组。在仪表盘和信息面板中,可以通过边框、底色或卡片分区,将相关指标和内容组织在一起,增强分组效果。
连接原理: 被连接在一起的元素容易被看作存在关系。在流程图、网络图、关系图中,连线和箭头能够直接表示对象之间的联系、顺序和依赖关系。
共同命运原理: 一起运动或一起变化的对象容易被感知为同一组。在动态可视化和交互可视化中,同步移动、同步高亮或同步变化的元素更容易被理解为存在关联。
六、可视化与格式塔
好的数据可视化要求让人能够高效、准确地从图表中获得信息而非图像炫酷
从创作者这一端看,创作者面对的是原始数据,需要把它转换成图表,这一步依赖的是视觉编码。
从读者这一端看,读者看到的是图表,再从图表中获取信息,这一步依赖的是视觉感知和视觉认知。
因此,数据可视化本质上是一个编码与解码的过程
编码的三条原则
一致性:视觉编码方式要和数据类型一致。例如分类数据用颜色、形状区分,定量数据用位置、长度表示。
重要性:重要信息要用更显著、更强的视觉通道表达。比如核心指标优先用位置、长度、对比色突出。
有效性:不同视觉通道的信息传达能力不同,要选最有效的方式。例如比较数值大小时,柱长通常比扇区角度更清楚;看趋势时,折线图通常比表格更有效。
格式塔原理在数据可视化中的应用
好的数据可视化不仅要会编码数据,还要遵循人类视觉组织信息的方式,这个”组织方式”就是格式塔原理的重要内容。格式塔原理的核心思想是:人类视觉倾向于把零散元素自动组织成有意义的整体。所以在图表里,读者不是逐个去读每个点、每条线,而是会自动地把相近的看成一组、把相似的看成一类、把突出的看成主体、把连接的看成有关系、把同一区域的看成同一模块。这就是为什么格式塔原理会直接影响图表是否”好懂”。
相似性原理:用于分类—相似的颜色、形状、大小会被看作一组。应用上,同一类别用同一种颜色,同类数据点用同一种形状,仪表盘中同类模块用相同视觉风格。作用是帮助读者快速识别类别,减少阅读成本。
接近性原理:用于分组—距离近的元素会被自动看成一组。应用上,将相关指标放得更近,在表格或仪表盘中把同类内容靠近排布,散点图中聚得近的数据点会形成”群”。作用是帮助读者快速看出哪些内容属于同一组。
主体 / 背景原理:用于突出重点—人会自动区分主体和背景。应用上,高亮关键数据线,弱化网格线和装饰元素,用留白和对比色突出结论。作用是让读者先看到重点,而不是被无关信息分散注意力。
共同区域原理:用于模块化组织—位于同一封闭区域中的元素会被看成一组。应用上,用卡片容器包裹同类指标,用浅底色分区展示不同模块,在报告中把相关图文放在同一区块内。作用是增强结构清晰度,帮助信息分层。
连接原理:用于表达关系—被线条或箭头连接的对象,会被看成有联系。应用上包括流程图、网络图、路径图,以及注释与被注释对象的连接线。作用是更直接地表达依赖、流程、因果或关联。
连续性原理:用于引导阅读路径—人更容易沿着连续路径去理解图形。应用上包括折线图中的趋势展示、时间轴设计、流程图中的连续步骤排列。作用是帮助视线自然移动,让信息阅读更顺畅。
封闭性原理:用于形成完整感—即使图形不完整,人也会自动补全。应用上不必把所有边框画满,利用留白形成区域感,用局部轮廓暗示整体结构。作用是减少视觉负担,同时保持整体性。
七、数据可视化的优化
优化的总体思路是:合理设置坐标轴范围和刻度,明确单位并减少无效网格线;控制颜色数量,统一色系并突出重点;根据分析目标选择合适图表类型;通过标题、标签和注释增强解释性;优化布局与留白,突出视觉层级;弱化背景和装饰元素,突出数据主体;对异常点、关键值和参考线进行高亮处理;同时通过排序、统一尺度和减少 3D 效果来增强比较效果。
检查数据本身
要确认指标口径是否统一、时间范围是否一致、单位是否一致,以及本次到底是看趋势、比较、构成、分布还是关系。
突出信息层级
核心信息最显眼,次级信息弱化,辅助信息放边缘,背景信息尽量淡化。同时要减少装饰性元素,避免过多颜色和过多类别,避免一页塞太多图,避免复杂图例跳转,避免让用户自己做过多换算。
增强比较效果
要检查是否有共同基线,是否做了排序,是否统一了量纲,是否把可比较对象放在一起,是否避免了视觉失真。
支持决策
图中是否指出了异常和风险,是否展示了与目标的差距,是否能帮助判断优先级,是否能支持后续行动。
交互体验
默认视图是否清晰,筛选条件是否好用,下钻路径是否自然,悬停信息是否足够,多图联动是否顺畅。
审美呈现
字体是否统一,间距是否协调,配色是否克制,页面是否平衡。
可访问性
色盲用户能否区分颜色,字号是否足够大,对比度是否足够,是否只靠颜色传递信息,是否有标签或形状辅助识别。
系统一致性
同一指标是否同一颜色,同一维度是否同一编码,不同页面的布局是否一致,图例规则是否稳定,交互规则是否一致。
总之评估一份可视化可以从以下维度考量:数据质量、业务目标、受众对象、信息层级、认知负担、比较效率、叙事表达、决策支持、交互体验、审美呈现、可访问性、系统一致性
结合审美和实用的数据可视化是可视化中的精品;有吸引力的、易懂的可视化是高效的,好的可视化不一定复杂;数据转化、数据分析和数据可视化是需要循环往复很多次的过程。
八、数据可视化的流程
数据可视化的一般流程可分为前期、中期和后期三个阶段:前期主要进行数据收集、处理与分析,中期主要完成数据可视化展示,后期则结合可视化结果向受众讲述数据故事。
数据输入 → 数据整理 → 数据转换 → 数据可视化 / 数据建模 → 自动化报告
中间的数据转换、数据可视化、数据建模并不是一次完成的,而是反复迭代的探索过程。
数据输入——这是整个流程的起点,也就是先获得原始数据。数据可能来自业务系统、数据库、日志、网页、传感器、用户行为等。
数据整理——拿到数据后,通常不能直接分析,因为原始数据往往存在缺失、重复、噪声、格式不统一、字段含义不清等问题,所以要先整理,使数据变得可用。
数据转换——数据整理之后,还要把数据变成适合分析和展示的形式,比如改变数据结构、聚合指标、计算比例、按时间地区类别重新组织。这一步是为后面的建模和可视化做准备。
数据可视化——将转换后的数据用图表、地图、仪表盘等方式表达出来,作用是帮助人发现趋势、差异、异常和关系。
数据建模——除了画图,还可以进一步用统计分析或模型方法寻找规律,比如做分类、聚类、回归、预测等。
自动化报告——当分析过程稳定以后,可以把结果沉淀为自动化报表、可视化看板或周期性输出。
数据收集
常见有三种方式
人工搜集,即人工录入、人工整理、人工查找资料等;
网络爬虫,即从网页、网站、公开平台中自动抓取数据;
客户端埋点,即在 App、网站或系统中记录用户行为数据,比如点击、停留、浏览路径等。这些方式说明数据来源可以很广,不同来源对应不同处理方式。
数据处理
数据清洗,主要用于去除数据噪音与纠正数据不一致,比如删除重复值、处理缺失值、修正错误格式、去掉明显异常数据。
数据整合,合并或联结多个数据来源,使之成为一致的整体(数据仓库),比如把用户表、订单表、行为表整合在一起。
数据简化,一种减少数据量的技术,主要通过合并、聚合以及删除冗余特征来实现,目的是提高分析效率、突出重点。
数据转换,将数据转换成与分析相匹配的结构,例如宽表转长表、原始日志转统计指标、连续变量分段、。
异常值检测,识别明显偏离正常范围的数据。因为异常值有时代表错误,有时又代表重要现象,所以需要单独处理。
数据分析与数据可视化展示
数据分析则借助统计方法和机器学习方法挖掘数据规律
数据可视化展示时不同的问题,展示视角不同
可视化过程的要点
第一,数据可视化只是整个分析流程中的一个环节,它前面有数据收集和处理,后面有报告和故事表达;
第二,数据探索分析是一个循环过程,数据转换、可视化和建模之间要不断往返调整,不是一次完成;
第三,前期工作决定后期效果,数据质量、处理方式、分析目标都会直接影响可视化效果;
第四,不同问题决定不同图表,可视化要服务问题,而不是只追求形式;
第五,可视化最终是为了表达和支持理解,不仅要”展示数据”,还要帮助人发现规律、形成结论,甚至讲述故事。
数据可视化视角
常见的数据可视化视角包括:比较与排序、局部与整体、分布、相关性、网络关系、位置与地理特征、时间趋势。
九、数据可视化要解决的问题
面对一个可视化任务,需要先明确问题,再分析变量,再选择图形,最后检验数据
-
问题是什么(决定分析目标和展示重点)
-
变量有哪些(变量数量和变量类型来选择合适的图形形式)
-
图形的横纵坐标分别代表什么(清楚图形中横纵坐标及其他视觉编码所代表的具体含义,保证信息表达准确)
-
样本的数据量正确吗?数据含义是否意味着什么(数据是否足够、是否可靠、是否有实际意义)
1. 我们需要回答什么实际问题
这是数据可视化最先要确定的内容。因为图表不是为了”展示数据”本身,而是为了回答某个具体问题,比如哪个城市污染最严重、销售额有没有增长趋势、两个指标之间是否相关、用户流失主要发生在哪一阶段。只有问题明确了,才能进一步决定看比较、趋势、构成、分布还是关系,用什么图表,重点突出什么信息。所以第一步不是”画什么图”,而是这张图到底要解决什么问题。
2. 我们需要处理几个变量?要画什么样的图形
这一点强调变量数量和图形类型要匹配。例如一个变量看分布,可用直方图、箱线图;两个变量看关系或趋势,可用散点图、折线图、柱状图;三个及以上变量可以借助颜色、大小、形状、分面、多图组合来表达。做图前要先数清楚自己到底在看几个变量,以及这些变量是什么类型。比如时间加销售额适合折线图,地区加销售额适合柱状图,身高加体重适合散点图,时间加地区加销售额可能要做多系列折线图或热力图。所以图形选择不能脱离变量结构。
3. 图形的横纵坐标分别代表什么
这一点强调坐标轴和编码含义必须明确。对于三维图形,三个坐标分别代表什么也要清楚。也就是说,图上的每一个位置、方向、轴线都要有明确意义。读者看到图后,应该马上知道横轴表示什么、纵轴表示什么、单位是什么,如果是三维图,第三维代表什么。如果轴的含义不明确,就会造成误读,例如横轴是时间还是类别、纵轴是数量还是比例、是绝对值还是标准化值。这一步其实就是在强调图表中的视觉编码必须有清晰、准确的语义对应。另外,三维图要特别谨慎,因为第三维虽然能增加信息量,但也容易增加阅读难度和视觉失真。
4. 样本的数据量正确吗?数据含义是否意味着什么
这一点强调要检查数据量是否充足,数据本身是否可信、是否有解释价值,至少包含两个层面。一是数据量是否足够,如果样本太少,图表中呈现出来的规律可能并不稳定,例如只有几条记录却得出很大结论,就不可靠。二是数据含义是否明确,即使数值看起来正确,也要问指标口径是什么、这个值代表平均值总量还是比例、是否受采样方式影响、是否有缺失异常或偏差。所以这一步提醒的是,图表不只展示”数据长什么样”,还要看”数据意味着什么”。
十、常用数据可视化工具
Matplotlib、Seaborn、Plotly (Python )
ggplot2、plotly、shiny(R)
D3.js、ECharts、Chart.js、Highcharts(JavaScript )
分享到社交平台
将本文分享给你的朋友们
Zhongye