Tableau

总结我的数据可视化哲学:#

从整体上讲,数据可视化的哲学是,将你的数据用最直观的组织形式表现出来,从而方便人的研究。这其中涉及的对象是:数据/结构(?)
数据一般分为两类,度量和维度。这都是从生活中总结出来的结果,比如人的名字,每个人的都不一样,我们可以使用名字来映射和管理不同人身上的相同类型的数据,比如身高、体重、年龄。人的名字就偏向于dimension这个性质,而后者这些数据,则表示了人的某些特征的量度,因而称之为度量

这样我们就有了一个初步的感受:用维度来管理度量,从而迈出构型数据的第一步。

而从整体上来说,我们探索数据可视化的最优解,实际上就是寻找更加直观的数据表现形式,也就是如何用生活中人们容易接受的元素、标记等等来体现数据本质和数据之间的关系。(当然,tableau很好地实现了这个功能,为我们提供了很多浅显直观的元素供我们选择。)

人们逐渐在以上的数据结构摸索中,总结出了一些比较好用地数据表现形式,比如条形图、折线图、扇形图、地图、热力图等等,有了这些内容只是更加方便我们去理解数据、构造新的数据结构,而非局限在这些结构之中,从结构的角度出发(比如依赖于智能绘图),而忽略了数据的特征。换言之,走进结构是为了走出结构(笑

tableau介绍:#

tableau主要有以下风格:

  • 艺术流:
  • 分析流:针对某一主题进行鲜明的分析
  • 实战流:
    • 为实际的业务场景服务,一般不会做美化。

      tableau-public是一个tableau的社区,可以参考其中的优质案例。

  • 垃圾流:
    • 杂乱无章、毫无艺术和实战意义。

数据可视化是tableau的基本操作,真正最大的功能是数据赋能、数据探索。

  • 数据赋能:将数据看板发布到线上,相当于数据变活了。
  • 数据连接(join):将两个数据表按照其中一列进行连接。

在数据源的右上角处有一个数据连接(link)的形式,可以选择实时和数据提取,前者相当于数据保存在原来的数据库之中,每次想要计算的时候就需要提取后再计算;后者相当于将数据取出来保存了一份比较近的副本,不过当你的数据源做出修改的时候,副本也需要修改。

tableau支持线上修改,业务人员可以不需要下载软件直接进行修改

  • 数据探索:支持大量数据的连接和处理。
    • 支持数据下潜,也就是层次的风度。

安装教程:#

开始学习:#

数据连接:#

选择文件类型-选择文件目标(连接到本地文件)

连接到数据库(需要安装数据库驱动)

同一文件夹之中的数据可以相互连接;默认使用只能连接。

合并表的时候需要给出合并的依据,也就是平行
有的数据原表没有,需要计算

计算的数据来源有两种,一种是原来的数据库,一种是tableau本地的”数据库”,也就是暂存的意思。一般对于变动频率不大的数据选择数据提取这样会将使用的数据拿的更近一点,提高性能。

数据提取的时候提取为hyper文件。

保存工作簿的时候可以保存为twbx/twb,后者不包括hyper文件,也就是数据源需要重新提取。

数据源部分也可以进行筛选,方便后面的计算。

数据处理:#

就是对数据进行一些初步的操作,只涉及表格阶段的简单操作。

数据可视化:#

总的来说,数据可视化的目的就是,将你想要表现出的数据的关系,使用更加明显直白的方式表示出来,也就是使用下面的元素。而我们要做的就是,思考应该用什么表现当前的数据最为合适。

给出一个我自己做的词云图。

alt text

这个表现的是疫情以来各个国家确诊人数的总和。

数据类型:#

  1. 度量:
    由数字组成的变量;
    • 映射到图形
    • 比如角度(360)
  2. 维度:
    由类别组成的变量;
    • 不能进行大小计算。
    • 球员id,本质是映射,是维度。
    • 对图形区分。

映射类型:#

位置、长度、方向、形状、角度、面积、体积、颜色和深浅(比如热力图)

还有可视化词典。

优先使用影响力较强的元素。

映射的规则:#

  • 度量默认聚合;
  • 度量值会形成图形标记,可以切换图形标记来进行不同的样式选择。
  • 维度会对度量进行剖分,增加信息的“维度”
  • 图表分为有轴图表和无轴图表(例如那种一块一块的颜色图)
  • 离散形成标签,连续形成数轴。