数据科学引论-Python之道 第8课数据可视化 一、数据可视化的作用 我们来看看下面的四个数据集,第一个数据集的散点均匀地分布在拟合出来 的回归线的两侧,我们可以认为x1和y1存在着这条回归线所表示的相关性。第 二个数据集的散点构成了一条曲线,但是它的回归线仍然是和第一个数据集的回 归线是一样的。很明显,x2和y2之间的相关性应该不如第一个数据集那么明显。 第三个数据集除了有一个离群值之外,剩下的散点构成了一条很明显的直线,但 是这条直线和所有的数据一起拟合得到的回归线之间有一个夹角。第四个数据集 除了有一个明显的离群值之外,剩下的点构成了一条竖直的直线,但是所有的数 据拟合之后得到的回归线仍然是这一条斜线。 12 10 10 8 6 1012141618 1012141618 X1 X2 12 8 6 6 10121416 18 1012141618 3 这四个数据集单从属性上来说是相同的,也就是说它们具有相同的×的平均
数据科学引论-Pyth瀂瀁 之道 第 8 课 数据可视化 一、数据可视化的作用 我们来看看下面的四个数据集,第一个数据集的散点均匀地分布在拟合出来 的回归线的两侧,我们可以认为 x1 和 y1 存在着这条回归线所表示的相关性。第 二个数据集的散点构成了一条曲线,但是它的回归线仍然是和第一个数据集的回 归线是一样的。很明显,x2 和 y2 之间的相关性应该不如第一个数据集那么明显。 第三个数据集除了有一个离群值之外,剩下的散点构成了一条很明显的直线,但 是这条直线和所有的数据一起拟合得到的回归线之间有一个夹角。第四个数据集 除了有一个明显的离群值之外,剩下的点构成了一条竖直的直线,但是所有的数 据拟合之后得到的回归线仍然是这一条斜线。 这四个数据集单从属性上来说是相同的,也就是说它们具有相同的 x 的平均
值、y的平均值和相同的X和Y的相关系数。它们的拟合回归线最后都是y=0.5x +3,如果不把它们可视化,仅仅从数据具有的属性来观察这些数据集,很难发 现它们之间的差异。所以我们会看到数据可视化非常重要,它有助于我们理解这 些数据。那么,我们何时使用可视化呢?应该在整个数据分析的过程中尽早地使 用,因为数据可视化可以帮助我们看清数据的趋势,帮助我们发现离群值,也有 助于我们彼此分享对数据的见解。 下面我们看一个实际的例子。我们想统计一星期中哪一天,以及这一天中哪 个时间段航班延误的最严重。我们可以绘制出一张热图,这张热图的横坐标表示 一天中的24个小时,纵坐标表示一周中的7天,我们统计每一天在每个小时延 误的航班的数量,就得到了热图的内容。通过这张热图我们就会发现,最热的地 方,也就是颜色最红的地方,就是航班延误数量最多的地方。从这张图中我们一 目了然,就会发现星期五的晚上是航班延误最严重的时候。 Average delay per hours and day? Monday 1 3 FRIDAY NIGHT 6 Sunday 7 91011121314151617181920212223 Hour of Day 下面的例子是在可视化全世界所有国家中女孩在学校中所占的比例。图中颜 色偏蓝表示所占比例偏低,绿色表示女生所占的比例和男生所占的比例基本相当, 红色表示男生所占的比例低于女生所占的比例。我们将各个国家的数据拿到之后 在世界地图上把它们标注出来,就可以很容易地发现几个信息。第一,凌兰岛是 缺失数据的,所以它是黑色,在现实当中我们就可以去不考虑格陵兰岛的具体情
值、y 的平均值和相同的 X 和 Y 的相关系数。它们的拟合回归线最后都是 y = 0.5x + 3,如果不把它们可视化,仅仅从数据具有的属性来观察这些数据集,很难发 现它们之间的差异。所以我们会看到数据可视化非常重要,它有助于我们理解这 些数据。那么,我们何时使用可视化呢?应该在整个数据分析的过程中尽早地使 用,因为数据可视化可以帮助我们看清数据的趋势,帮助我们发现离群值,也有 助于我们彼此分享对数据的见解。 下面我们看一个实际的例子。我们想统计一星期中哪一天,以及这一天中哪 个时间段航班延误的最严重。我们可以绘制出一张热图,这张热图的横坐标表示 一天中的 24 个小时,纵坐标表示一周中的 7 天,我们统计每一天在每个小时延 误的航班的数量,就得到了热图的内容。通过这张热图我们就会发现,最热的地 方,也就是颜色最红的地方,就是航班延误数量最多的地方。从这张图中我们一 目了然,就会发现星期五的晚上是航班延误最严重的时候。 下面的例子是在可视化全世界所有国家中女孩在学校中所占的比例。图中颜 色偏蓝表示所占比例偏低,绿色表示女生所占的比例和男生所占的比例基本相当, 红色表示男生所占的比例低于女生所占的比例。我们将各个国家的数据拿到之后, 在世界地图上把它们标注出来,就可以很容易地发现几个信息。第一,凌兰岛是 缺失数据的,所以它是黑色,在现实当中我们就可以去不考虑格陵兰岛的具体情
况。其次,我们会发现阿富汗和安哥拉颜色偏蓝色,而且比较深,这说明在这两 个国家女孩受教育的比例比较低。 Students in Primary Education:Female in 2014 ercent Female 下面是一个有关加拿大气象站的数据,图中我们看到的从1到6的这些编号 表示气象站所在的位置,这些散点表示每个气象站所监控到的一些气象数据。在 这些气象站中是否有出现了异常活动的气象站呢?我们将4号气象站放大,就 会发现它监测到的绝大多数的观测点的数据都是黄色的,而有两个点是蓝色的, 蓝色和黄色表示数据的差异还比较大,在这种情况下,我们就可以认为这两个值 是异常值。这时我们就要去考虑是不是这两个观测点的装备发生了故障。通过这 种可视化,我们可以很快地定位问题。 异常值 000 异常值 装备故障?
况。其次,我们会发现阿富汗和安哥拉颜色偏蓝色,而且比较深,这说明在这两 个国家女孩受教育的比例比较低。 下面是一个有关加拿大气象站的数据,图中我们看到的从 1 到 6 的这些编号 表示气象站所在的位置,这些散点表示每个气象站所监控到的一些气象数据。在 这些气象站中是否有出现了异常活动的气象站呢?我们将 4 号气象站放大,就 会发现它监测到的绝大多数的观测点的数据都是黄色的,而有两个点是蓝色的, 蓝色和黄色表示数据的差异还比较大,在这种情况下,我们就可以认为这两个值 是异常值。这时我们就要去考虑是不是这两个观测点的装备发生了故障。通过这 种可视化,我们可以很快地定位问题
下面是Facebook给出的一张好友关系的可视化的图,在图中我们可以看到, 越亮的区域表示Facebook的用户越多,每两个朋友之间会有一条连线,所以连 线越密集的地方,说明这两个地区的人们之间的交流会比较密切。 facebook "Visualizing Friendships" Paul Butler 1 下面是一张有关气候变化的图,纵坐标是表示温度异常的指数,横坐标是年 份,我们可以看到在最近这几十年温度在不断升高。 1.0 0.5 0.0 -0.5 1880 1900 1920 1940 1960 1980 2000 2020 YEAR 5outdmae.na89w 下面是一张对人们在互联网上搜索iPhone slow或其他的诸如Android slow、 HTC slow和Samsung slow的数据量的一个对比。我们可以看到,每当iPhone 在发布新产品时,人们在互联网上搜索iPhone slow的数量就会急剧增加。这是
下面是 Faceb瀂瀂濾 给出的一张好友关系的可视化的图,在图中我们可以看到, 越亮的区域表示 Faceb瀂瀂濾 的用户越多,每两个朋友之间会有一条连线,所以连 线越密集的地方,说明这两个地区的人们之间的交流会比较密切。 下面是一张有关气候变化的图,纵坐标是表示温度异常的指数,横坐标是年 份,我们可以看到在最近这几十年温度在不断升高。 下面是一张对人们在互联网上搜索 iPh瀂瀁e s濿瀂w 或其他的诸如 A瀁dr瀂id s濿瀂w、 HTC s濿瀂w 和 Sa瀀su瀁g s濿瀂w 的数据量的一个对比。我们可以看到,每当 iPh瀂瀁e 在发布新产品时,人们在互联网上搜索 iPh瀂瀁e s濿瀂w 的数量就会急剧增加。这是
因为每一次iPhone发布新产品时,老用户都会去关心是不是新产品就意味着速 度会提升很多,有很多的软件只能在新产品上运行,老产品就会显得运行速度慢 了。我们可以看到其他的手机就不存在这样的现象,或者这个现象不太明显。这 说明iPhone这个产品有其特殊的属性。 Searches for"iPhone slow"make huge spikes right after every new iPhone release [OC] submitted 3 months ago by dreamfall17 ee Search term 一nod山w 一heae 2t4 2015 但是我们要注意,可视化虽然可以帮助我们去理解数据,但是我们还是要仔 细的去解释这些数据。例如,在下面这张图中,我们看到了两条曲线,紫色的曲 线是人们统计的患自闭症的人群随年份增加的一条曲线,红色的曲线是有机食物 销量随年份增加的一条曲线,尽管两条曲线增长的趋势非常吻合,但是我们不能 简单地认为是因为大家消费有机食品的数量增加了,导致了自闭症的患者增加, 也就是说我们不能从相关性中直接去推导出因果性。 The real cause of increasing autism prevalence? 25000- -300000 ▲Autism 20000 Organic Food Sales Indiv 200000 15000 vid 10000 .100000 Diagn 5000- r=0.9971P0.0001) 0 Year uGaionAh
因为每一次 iPh瀂瀁e 发布新产品时,老用户都会去关心是不是新产品就意味着速 度会提升很多,有很多的软件只能在新产品上运行,老产品就会显得运行速度慢 了。我们可以看到其他的手机就不存在这样的现象,或者这个现象不太明显。这 说明 iPh瀂瀁e 这个产品有其特殊的属性。 但是我们要注意,可视化虽然可以帮助我们去理解数据,但是我们还是要仔 细的去解释这些数据。例如,在下面这张图中,我们看到了两条曲线,紫色的曲 线是人们统计的患自闭症的人群随年份增加的一条曲线,红色的曲线是有机食物 销量随年份增加的一条曲线,尽管两条曲线增长的趋势非常吻合,但是我们不能 简单地认为是因为大家消费有机食品的数量增加了,导致了自闭症的患者增加, 也就是说我们不能从相关性中直接去推导出因果性