当前位置：和泉文库 > 计算机 > 浏览文档

《数据科学引论——Python之道》课程教学资源（教案讲义）07 数据科学方法学

文件格式：PDF，文件大小：5.7MB，售价：3.24元

文档详细内容（约9页）

我们可以通过历史的航班信息来进行预测，于是我们确定，我们要根据历史数据，通过某种数理统计或者是机器学习的方法来进行预测。数理统计和机器学习的方法有很多种，我们可以选择其中的一种，比如可以选择逻辑回归。紧接着，我们要去考虑要做这种预测到底需要哪些航班数据？这些数据是什么格式的？我们可以想象一下，我们需要某一年的所有航班的起降数据，这些数据最好都是纯文本的，以方便我们去处理。确定了数据的需求之后，我们要去收集这些数据，这些数据有可能是开放数据，可以在网络上下载，也有可能是一些私有数据，需要购买。无论怎样，得到数据之后，要对这些数据做一些理解，比如说这些数据看起来怎么样，是不是很完整？我们对这些数据会产生一些什么样的初步见解？这些数据能不能可视化？除了这些数据，我们是不是还遗漏了一些东西？在当前这个例子中，我们可以看到，一旦拿到航班的历史数据，我们就可以判断出哪些机场最繁忙，哪些航班最容易延误，而哪些机场延误的情况是最糟糕的。我们来观察一下我们得到的航班数据，这里我们只取了2007年的有关700 万个航班的数据，其中我们最关注的一列是Departure Delay,也就是飞机实际起飞时间和预计起飞之间之间的一个延误分钟数。要注意的是，这个数据里面并没有直接去定义某一个航班是否延误了，它只给出了这个延误的分钟数，这一点很重要。 ArrTime|CRSArrTime CRSDepTime DayofWeek DayofMonth DepDelay DepTimeDest Distance MonthOrigin| 1341 1340 1225 1232 ONT 389 NN|2007 2043 2035 1905 13 191日 PDX 479 SMP |2007 2334 2300 2130 6 2206 PDX 479 SMF N|2007 1356 1330 1200 1 1230 PDX 479 SMP N|2007 957 1000 B30 1 1 B31 PDX 479 11 SMP N2007 通过可视化，我们可以知道哪些机场最繁忙。我们把所有的机场起降的飞机的航班的数量通过热图呈现出来，就可以看到面积越大的圆圈，颜色越深的圆圈，表示机场越繁忙

Delayed,True就表示是延误的航班，False是没有延误的航班。所以我们看到特征工程是从数据集中抽取出一些特征，并标记在数据集中。到这里为止，数据就准备好了，下面就可以去做数据的分析了。在前面的这几个步骤中，我们是可以不断地进行迭代的。不断地迭代就可以不断地提高数据的质量，就可以有助于最后数据分析质量的提高。紧接着，我们来建模。建模就是要确定在数据分析过程中的输入是什么？输出是什么？中间使用的是什么样的算法或技术。在建模时，我们确定输入是航班的起飞时间，包括年月日和出发时间以及目标机场，输出期望是预测这个航班是否会延误，就是一个bool值，即True或False。中间我们希望使用逻辑回归的方式来进行处理。建模实际上是一个高度迭代化的过程。也就是说，我们会拿航班的历史数据中的一部分，不断地作为输入去产生输出，拿输出和实际的值进行比较，然后不断地校正中间逻辑回归模型中的参数。所以我们可以看到建模过程是一个高度迭代化的过程，在这个过程中，模型是在不断地被修正的。当我们确定好一个模型之后，就要去对这个模型进行评估。例如，我们拿出历史数据集中没有去训练这个模型的那一部分数据进行校验，来判断这个模型是否准确。我们不断地拿这种测试用例输入到建立的模型中，根据模型的输出值和实际值之间的差异来评估模型的准确性。如果用户对数据分析的性能也很在意，那么在评估过程中还要去评估模型的性能。毕竟，对于模型的准确性而言，高性能虽然是用户所希望的，但是如果模型过于费时，它的计算复杂度过高，性能很差，也并不是用户希望的。所以在模型评估的阶段，我们可能会涉及到多个目标或者是多个约束条件的测试和评估

De濿ayed，True 就表示是延误的航班，Fa濿se 是没有延误的航班。所以我们看到特征工程是从数据集中抽取出一些特征，并标记在数据集中。到这里为止，数据就准备好了，下面就可以去做数据的分析了。在前面的这几个步骤中，我们是可以不断地进行迭代的。不断地迭代就可以不断地提高数据的质量，就可以有助于最后数据分析质量的提高。紧接着，我们来建模。建模就是要确定在数据分析过程中的输入是什么？输出是什么？中间使用的是什么样的算法或技术。在建模时，我们确定输入是航班的起飞时间，包括年月日和出发时间以及目标机场，输出期望是预测这个航班是否会延误，就是一个 b瀂瀂濿值，即 True 或 Fa濿se。中间我们希望使用逻辑回归的方式来进行处理。建模实际上是一个高度迭代化的过程。也就是说，我们会拿航班的历史数据中的一部分，不断地作为输入去产生输出，拿输出和实际的值进行比较，然后不断地校正中间逻辑回归模型中的参数。所以我们可以看到建模过程是一个高度迭代化的过程，在这个过程中，模型是在不断地被修正的。当我们确定好一个模型之后，就要去对这个模型进行评估。例如，我们拿出历史数据集中没有去训练这个模型的那一部分数据进行校验，来判断这个模型是否准确。我们不断地拿这种测试用例输入到建立的模型中，根据模型的输出值和实际值之间的差异来评估模型的准确性。如果用户对数据分析的性能也很在意，那么在评估过程中还要去评估模型的性能。毕竟，对于模型的准确性而言，高性能虽然是用户所希望的，但是如果模型过于费时，它的计算复杂度过高，性能很差，也并不是用户希望的。所以在模型评估的阶段，我们可能会涉及到多个目标或者是多个约束条件的测试和评估

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录