数据科学引论-Python之道 第2课数据科学的应用 让我们来通过一些实例来靠近体验数据科学的应用。 一、社交网络&约会 首先,让我们先看一看数据科学在社交网络中的应用。 陌陌是一个很著名的社交网站,很多人在上面找到了朋友,我们可以看到陌 陌的成长非常迅速,那么为什么这么迅速呢?因为陌陌这样的公司在使用相关算 法推荐好友,因为用户在陌陌上找到了好友,那么用户在这个pp上的粘滞度就非 常高。 陌陌是一个典型的社交网络的APP,很多人都在上面找到了自己的朋友,这 是统计出来的陌陌的月活跃用户数以及每位用户在陌陌上支付的费用,可以看到 陌陌的成长非常迅速,那么陌陌的成长为什么这么迅速呢?因为像陌陌这样的公 司,他在使用数据科学中的一些推荐算法为我们推荐好友,因为我们找到了好友, 所以我们在这个网站上的粘滞度非常的高,那么好友是如何推荐的呢? Average Revenue Per User S0.60 50.51 5050 50.39 0.34 50.40 S0.27 80.0 50.30 5020 50.16 730 50.20 $0.07 50.13 60.0 50.03 02 50.10 54 50.00 40.0 37 283 20.0 1303 1304 1401 14Q2 14Q3 14Q415Q1 15Q2 153 Monthly Active Users (mn)ARPU 它的一般推荐方法如下,假设这个红色的圆圈表示的就是你,你会有一些已 经认识的好友,他们也注册到了陌陌上,那么你在陌陌上直接将其加为了好友
数据科学引论-Pyth瀂瀁 之道 第 2 课 数据科学的应用 让我们来通过一些实例来靠近体验数据科学的应用。 一、社交网络&约会 首先,让我们先看一看数据科学在社交网络中的应用。 陌陌是一个很著名的社交网站,很多人在上面找到了朋友, 我们可以看到陌 陌的成长非常迅速,那么为什么这么迅速呢? 因为陌陌这样的公司在使用相关算 法推荐好友,因为用户在陌陌上找到了好友,那么用户在这个 a瀃瀃 上的粘滞度就非 常高。 陌陌是一个典型的社交网络的 APP,很多人都在上面找到了自己的朋友,这 是统计出来的陌陌的月活跃用户数以及每位用户在陌陌上支付的费用,可以看到 陌陌的成长非常迅速,那么陌陌的成长为什么这么迅速呢?因为像陌陌这样的公 司,他在使用数据科学中的一些推荐算法为我们推荐好友,因为我们找到了好友, 所以我们在这个网站上的粘滞度非常的高,那么好友是如何推荐的呢? 它的一般推荐方法如下,假设这个红色的圆圈表示的就是你,你会有一些已 经认识的好友,他们也注册到了陌陌上,那么你在陌陌上直接将其加为了好友
当然你的好友不可能只有一位,而是会有一群,于是你就把他们都加为了你的好 友。在这些好友中,你会发现其中有一些跟你不认识的人,就是这个绿色圆圈标 注出来的人,同时也是朋友,也就是说你和这个陌生人有一些共同的朋友,基于 朋友的朋友就有可能成为朋友的这样一个假设,我们就会把这样的人推荐给你。 好友 好友的好友 好友 你 好友 我们再来看看约会APP的例子,探探是一个典型的约会APP,它帮助注册在 上面的男女找到他们互相之间可能存在的缘分。它是如何来找缘分的呢?其实也 是通过类似的方法使用数据科学的推荐算法来得到的。例如在APP上,它会问 你一个问题:是否喜欢狗。面对这个问题,有的人可能回答喜欢,另外一个人回 答也是喜欢,那么这两个人之间就存在一定的相似度,他们就可能会存在着缘分。 于是,在是否喜欢狗这个维度上,我们就给他们赋一个值,比如说一分,但是对 于另外一个人,他并不喜欢狗,我们就会发现他和喜欢狗的人之间就没有相似度, 于是在是否喜欢狗这个问题上,他们的相似度就为零。于是,注册的用户会在网 站上填写一系列问题的答案,比如说是否喜欢狗,是否喜欢旅行,是否上过大学 和是否喜欢游泳。 假设有一位女士,她对这四个问题产生了不同的回答,红色表示否定的回答
当然你的好友不可能只有一位,而是会有一群,于是你就把他们都加为了你的好 友。在这些好友中,你会发现其中有一些跟你不认识的人,就是这个绿色圆圈标 注出来的人,同时也是朋友,也就是说你和这个陌生人有一些共同的朋友,基于 朋友的朋友就有可能成为朋友的这样一个假设,我们就会把这样的人推荐给你。 我们再来看看约会 APP 的例子,探探是一个典型的约会 APP,它帮助注册在 上面的男女找到他们互相之间可能存在的缘分。它是如何来找缘分的呢?其实也 是通过类似的方法使用数据科学的推荐算法来得到的。例如在 APP 上,它会问 你一个问题:是否喜欢狗。面对这个问题,有的人可能回答喜欢,另外一个人回 答也是喜欢,那么这两个人之间就存在一定的相似度,他们就可能会存在着缘分。 于是,在是否喜欢狗这个维度上,我们就给他们赋一个值,比如说一分,但是对 于另外一个人,他并不喜欢狗,我们就会发现他和喜欢狗的人之间就没有相似度, 于是在是否喜欢狗这个问题上,他们的相似度就为零。于是,注册的用户会在网 站上填写一系列问题的答案,比如说是否喜欢狗,是否喜欢旅行,是否上过大学 和是否喜欢游泳。 假设有一位女士,她对这四个问题产生了不同的回答,红色表示否定的回答
绿色表示肯定的回答,现在我们来找和她可能匹配的男生。 You Person 1 Person 2 Person 3 Like Dogs? Like to Travel? Went to university Like to swim? 第一位男士对这四个问题的回答有两个和这位女士的回答是一致的,另外两 个是不一致的,我们给他评分为两分。第二位男士四个问题的回答全部是否定的, 但是,其中有两个和这位女士也是相同的答案,所以他的得分也是两分。第三位 男士的回答有三个问题和这个女士的答案是相同的,所以他的得分就是三分。相 比之下,我们就会发现这位女士和第三位男士之间的相似度更大,于是他们之间 存在缘分的可能性越大,所以我们就会把这个男士推荐给这位女生去约会。 从前面两个例子中,我们可以看到,无论是社交网站还是约会APP,它们都 会面临相同的问题。什么问题呢?我们来看看默默的网站,在它的主页上它写了 这样一句话,“超过两亿人的社交选择”。而在探探的网页上,他在主页上显示了 一个计数器,这个计数器已经超过了30亿。也就是说,这两个应用都需要面对 海量数据的分析。 另外,社交网络和约会APP都有明确的业务模型,也就是说,它们知道如何 分析数据去建模,如何得到想要的结果。它们只是在依托计算机集群的强大的计 算能力来加速其分析和处理的速度和准确性,这就是我们看到的数据科学依托现 代计算能力产生新型业务的例子
绿色表示肯定的回答,现在我们来找和她可能匹配的男生。 第一位男士对这四个问题的回答有两个和这位女士的回答是一致的,另外两 个是不一致的,我们给他评分为两分。第二位男士四个问题的回答全部是否定的, 但是,其中有两个和这位女士也是相同的答案,所以他的得分也是两分。第三位 男士的回答有三个问题和这个女士的答案是相同的,所以他的得分就是三分。相 比之下,我们就会发现这位女士和第三位男士之间的相似度更大,于是他们之间 存在缘分的可能性越大,所以我们就会把这个男士推荐给这位女生去约会。 从前面两个例子中,我们可以看到,无论是社交网站还是约会 APP,它们都 会面临相同的问题。什么问题呢?我们来看看默默的网站,在它的主页上它写了 这样一句话,“超过两亿人的社交选择”。而在探探的网页上,他在主页上显示了 一个计数器,这个计数器已经超过了 30 亿。也就是说,这两个应用都需要面对 海量数据的分析。 另外,社交网络和约会 APP 都有明确的业务模型,也就是说,它们知道如何 分析数据去建模,如何得到想要的结果。它们只是在依托计算机集群的强大的计 算能力来加速其分析和处理的速度和准确性,这就是我们看到的数据科学依托现 代计算能力产生新型业务的例子
二、房价 下面让我们看看房价的例子,房价无时无刻不再发生变化,下面就是一个中 国大陆房价统计图。我们可以利用数据科学来预测需要为一套房子支付多少钱。 最直观的感受,我们认为房子大小跟价格存在着密切的关系,所以小房子的价格 就比较低,大一点的房子价格就会高一些,更大的房子价格就会更高。 China Land Price 25 15 1.0 0.5 0.0 Source:Wharton/NUS/Tsinghua 于是,我们根据数据统计得到了一条曲线,我们可以用这条曲线来预测房子 的价格与房屋大小之间的关系。但是,这个模型不一定可靠,例如,我们会发现 更大的房子,它的价格反而会下来,因为它离郊区更近,交通更不方便,所以它 的需求量并不是很高,它的房价就下来了。在这种情况下,我们就会发现简单的 数据统计实际上是无法准确预测房价的。 Statistics Price Machine Learning Feature:Size 这时,我们需要机器学习。我们可以从图中看到,通过机器学习,我们得到 了绿色的这条曲线,这条曲线的预测就会比红色的这条直线的预测要显得更准确
二、房价 下面让我们看看房价的例子,房价无时无刻不再发生变化,下面就是一个中 国大陆房价统计图。我们可以利用数据科学来预测需要为一套房子支付多少钱。 最直观的感受,我们认为房子大小跟价格存在着密切的关系,所以小房子的价格 就比较低,大一点的房子价格就会高一些,更大的房子价格就会更高。 于是,我们根据数据统计得到了一条曲线,我们可以用这条曲线来预测房子 的价格与房屋大小之间的关系。但是,这个模型不一定可靠,例如,我们会发现 更大的房子,它的价格反而会下来,因为它离郊区更近,交通更不方便,所以它 的需求量并不是很高,它的房价就下来了。在这种情况下,我们就会发现简单的 数据统计实际上是无法准确预测房价的。 这时,我们需要机器学习。我们可以从图中看到,通过机器学习,我们得到 了绿色的这条曲线,这条曲线的预测就会比红色的这条直线的预测要显得更准确
一些。也就是说,只从房屋大小这一个维度来进行预测,实际上是不准确的。考 虑到其他的因素,通过机器学习的方式得到的预测结果会更准确。那么,怎样进 行机器学习呢?我们现在看到的机器学习和深度学习等非常流行的技术中,都脱 离不了神经网络这个概念。神经网络通过对数据的训练得到一个复杂的模型,例 如我们将所有的房屋进行拍照,把这些照片提取关键特性作为输入放入神经网络 进行训练,对识别正确的,即房价预测正确的数据和房价预测不正确的数据进行 分类,然后通过这些误差进行计算,不断地去训练这个网络,最后就能得到一个 比较准确的对房价进行预测的模型。 Picture of House Neural Network Price 16 我们为什么需要神经网络呢?实际上从前面的讲述中我们就可以发现,房价 的变化实际上不是一个只和房屋的大小相关的问题,它是一个多元的问题,涉及 国家政策、供需关系、城市规划观念的转换等等,而且这些因素之间也不是完全 独立的,它们存在不同程度的关联和交互,所以我们很难用数学的方法对其建立 形式化的模型,这里面就会提到一个问题,就是机器学习和人工智能到底能帮助 我们解决什么问题? 神经网络就是典型的机器学习和人工智能的技术,那么在刚才我们提到的神 经网络的例子中,我们没有直接去告诉房屋价格的多个因素之间的关系是什么
一些。也就是说,只从房屋大小这一个维度来进行预测,实际上是不准确的。考 虑到其他的因素,通过机器学习的方式得到的预测结果会更准确。那么,怎样进 行机器学习呢?我们现在看到的机器学习和深度学习等非常流行的技术中,都脱 离不了神经网络这个概念。神经网络通过对数据的训练得到一个复杂的模型,例 如我们将所有的房屋进行拍照,把这些照片提取关键特性作为输入放入神经网络 进行训练,对识别正确的,即房价预测正确的数据和房价预测不正确的数据进行 分类,然后通过这些误差进行计算,不断地去训练这个网络,最后就能得到一个 比较准确的对房价进行预测的模型。 我们为什么需要神经网络呢?实际上从前面的讲述中我们就可以发现,房价 的变化实际上不是一个只和房屋的大小相关的问题,它是一个多元的问题,涉及 国家政策、供需关系、城市规划观念的转换等等,而且这些因素之间也不是完全 独立的,它们存在不同程度的关联和交互,所以我们很难用数学的方法对其建立 形式化的模型,这里面就会提到一个问题,就是机器学习和人工智能到底能帮助 我们解决什么问题? 神经网络就是典型的机器学习和人工智能的技术,那么在刚才我们提到的神 经网络的例子中,我们没有直接去告诉房屋价格的多个因素之间的关系是什么