跳至正文
首页 » 博客 » Some Thoughts on Data Density

Some Thoughts on Data Density

早在2月,我就写了7做和不做的DataViz我的第一个 “不要” 是 “不要使用图表,当一个句子会做” 与附带的条形图:

如该文章所述,可以省略上面的条形图,而使用诸如 “237受访者首选产品a,而仅112首选产品B” 之类的简单句子,而不会减少读者的理解。

虽然我经常看到只有两个条形图的条形图,但我很少看到只有两个点的散点图。一种可能性是,散点图的相对稀疏性强调了所讨论的数据集的微小大小,因此人们回避它们。相反,大而块状的条形会给人一种错觉,即图表传达的信息比实际要多。尽管外观,下面的散点图比上面的条形图编码更多的信息。

Edward Tufte在其颇具影响力的著作《定量信息的可视化显示》中,用了整整一章的篇幅来论述高密度数据可视化的优点,即上面的条形图和散点图的对立面。这一章包括《纽约时报》对天气2003的评论和多个小例子 (有关这种格式的介绍,请参阅我之前的文章 )。他还开发了一个关于迷你图的完整部分-“通常嵌入在单词,数字,图像的完整上下文中的小型高分辨率图形”。

这是我使用世界银行数据IgniteUI制作的一个非常简单的迷你图,嵌入在一个句子中:

与只有几个数据点的大型条形图和散点图相比,上面的小迷你图编码了50年的数据。我们可以看到1963年的急剧上升,然后是缓慢得多的,颠簸的下降。这一切都适合两个或三个额外单词的空间。(迷你图也可以在表格中很好地工作!)

从表面上看,这一切听起来都很棒。迷你图可以非常有效地利用空间,我已经讨论了小倍数的优点。如果做得好,数据丰富的地图也可以为我们提供有价值的见解。此外,数据的紧凑显示减少了眼睛移动的需要,使得视觉搜索更容易。然而,我并不完全相信Tufte支持高密度图形的论点。我当然不是说它们不好,只是说它们不应该是主要目标。最终,我认为这归结为关键问题: 可视化数据的好处是什么?

数据可视化的重点,至少在我看来 (双关语),是为了帮助理解数据。我们可以用连续的散文很详细地描述一个数据集。我们可以使用具有数十列和数百行的表。但是,这两者都不会帮助我们 “看到” 总体模式,我们也可能很难找出异常情况。我们只是没有工作记忆能力。如果设计得当,图表可以让我们克服这些限制,并从我们的数据中获得更多的洞察力。如果只有两个或三个数据点,但有十个数据点,这可能不是真的。(虽然十个数据点不是很多,但它允许45个成对比较。)

Tufte感叹 “[V] 很少有统计图形能够达到地图中的信息显示率”,并希望 “有一天,统计图形将像地图一样成功地承载信息”。对我来说,这似乎是一种非常奇怪的方式来衡量图形的成功。它还提供了不考虑上下文。地图总是用于探索,统计图形通常用于解释。前者通常涉及显示可能需要的所有数据,后者涉及相关数据 (不会因遗漏而产生误导,当然)。显示比必要更多的数据可能会使图片变得混乱而不是增强它。有时没有更多 (相关) 的数据。

在决定是否从某些数据集生成图表时,您不应该问自己: 我的图表会显示足够的数据吗?您应该问自己,您或您的目标受众是否会 (或可能) 从您的图形显示中学到他们不会从常规文本或表格中获得的有用信息。如果答案是 “不”,那么你可以把它留在那里。如果答案是 “是”,那么你可能想考虑额外的洞察力是否值得额外的成本,你必须花费时间和精力创建图形,当有限时,任何图形将占用的空间。如果迷你图,小倍数和/或地图是有用的,然后自由使用它们。

</p