总结我的数据可视化哲学:#
从整体上讲,数据可视化的哲学是,将你的数据用最直观的组织形式表现出来,从而方便人的研究。这其中涉及的对象是:数据/结构(?)
数据一般分为两类,度量和维度。这都是从生活中总结出来的结果,比如人的名字,每个人的都不一样,我们可以使用名字来映射和管理不同人身上的相同类型的数据,比如身高、体重、年龄。人的名字就偏向于dimension
这个性质,而后者这些数据,则表示了人的某些特征的量度,因而称之为度量
。
这样我们就有了一个初步的感受:用维度来管理度量,从而迈出构型数据的第一步。
而从整体上来说,我们探索数据可视化的最优解,实际上就是寻找更加直观的数据表现形式,也就是如何用生活中人们容易接受的元素、标记等等来体现数据本质和数据之间的关系。(当然,tableau很好地实现了这个功能,为我们提供了很多浅显直观的元素供我们选择。)
人们逐渐在以上的数据结构摸索中,总结出了一些比较好用地数据表现形式,比如条形图、折线图、扇形图、地图、热力图等等,有了这些内容只是更加方便我们去理解数据、构造新的数据结构,而非局限在这些结构之中,从结构的角度出发(比如依赖于智能绘图),而忽略了数据的特征。换言之,走进结构是为了走出结构(笑
tableau介绍:#
tableau主要有以下风格:
- 艺术流:
- 分析流:针对某一主题进行鲜明的分析
- 实战流:
- 为实际的业务场景服务,一般不会做美化。
tableau-public是一个tableau的社区,可以参考其中的优质案例。
- 为实际的业务场景服务,一般不会做美化。
- 垃圾流:
- 杂乱无章、毫无艺术和实战意义。
数据可视化是tableau的基本操作,真正最大的功能是数据赋能、数据探索。
- 数据赋能:将数据看板发布到线上,相当于数据变活了。
- 数据连接(join):将两个数据表按照其中一列进行连接。
在数据源的右上角处有一个数据连接(link)的形式,可以选择实时和数据提取,前者相当于数据保存在原来的数据库之中,每次想要计算的时候就需要提取后再计算;后者相当于将数据取出来保存了一份比较近的副本,不过当你的数据源做出修改的时候,副本也需要修改。
tableau支持线上修改,业务人员可以不需要下载软件直接进行修改
- 数据探索:支持大量数据的连接和处理。
- 支持数据下潜,也就是层次的风度。
安装教程:#
略
开始学习:#
数据连接:#
选择文件类型-选择文件目标(连接到本地文件)
连接到数据库(需要安装数据库驱动)
同一文件夹之中的数据可以相互连接;默认使用只能连接。
合并表的时候需要给出合并的依据,也就是平行
有的数据原表没有,需要计算
计算
的数据来源有两种,一种是原来的数据库,一种是tableau本地的”数据库”,也就是暂存的意思。一般对于变动频率不大的数据选择数据提取
这样会将使用的数据拿的更近一点,提高性能。
数据提取的时候提取为hyper文件。
保存工作簿的时候可以保存为twbx/twb,后者不包括hyper文件,也就是数据源需要重新提取。
数据源部分也可以进行筛选,方便后面的计算。
数据处理:#
就是对数据进行一些初步的操作,只涉及表格阶段的简单操作。
数据可视化:#
总的来说,数据可视化的目的就是,将你想要表现出的数据的关系,使用更加明显直白的方式表示出来,也就是使用下面的元素。而我们要做的就是,思考应该用什么表现当前的数据最为合适。
给出一个我自己做的词云图。
这个表现的是疫情以来各个国家确诊人数的总和。
数据类型:#
- 度量:
由数字组成的变量;- 映射到图形
- 比如角度(360)
- 维度:
由类别组成的变量;- 不能进行大小计算。
- 球员id,本质是映射,是维度。
- 对图形区分。
映射类型:#
位置、长度、方向、形状、角度、面积、体积、颜色和深浅(比如热力图)
还有可视化词典。
优先使用影响力较强的元素。
映射的规则:#
- 度量默认聚合;
- 度量值会形成图形标记,可以切换图形标记来进行不同的样式选择。
- 维度会对度量进行剖分,增加信息的“维度”
- 图表分为有轴图表和无轴图表(例如那种一块一块的颜色图)
- 离散形成标签,连续形成数轴。