当前位置：和泉文库 > 计算机 > 浏览文档

《机器学习 Machine Learning》课程教学资源（书籍文献）[德] Andreas C. Müller [美] Sarah Guido《Python机器学习基础教程 Introduction to Machine Learning with Python》

第1章引言第2章监督学习第3章无监督学习与预处理第4章数据表示与特征工程第5章模型评估与改进第6章算法链与管道第7章处理文本数据第8章全书总结

文件格式：PDF，文件大小：29.42MB，售价：45元

共295页，可试读40页，点击往前阅读 ↑↑

文档详细内容（约295页）

0ut[19]: Shape of target:(150,) 品种被转换成从0到2的整数： In[20]: print("Target:\n{)".format(iris_dataset['target'])) 0ut[20]: Target: [00000000000000000000000000000000000日0 000日000000000111111111111111111111111 1111111111111111111111111122222222222 2222222222222222222222222222222222222 22] 上述数字的代表含义由iris['target_names']数组给出：0代表setosa,1代表versicolor, 2f代表virginica。 1.7.2 衡量模型是否成功：训练数据与测试数据我们想要利用这些数据构建一个机器学习模型，用于预测新测量的鸢尾花的品种。但在将模型应用于新的测量数据之前，我们需要知道模型是否有效，也就是说，我们是否应该相信它的预测结果。不幸的是，我们不能将用于构建模型的数据用于评估模型。因为我们的模型会一直记住整个训练集，所以对于训练集中的任何数据点总会预测正确的标签。这种“记忆”无法告诉我们模型的泛化(generalize)能力如何（换句话说，在新数据上能否正确预测）。我们要用新数据来评估模型的性能。新数据是指模型之前没有见过的数据，而我们有这些新数据的标签。通常的做法是将收集好的带标签数据（此例中是150朵花的测量数据）分成两部分。一部分数据用于构建机器学习模型，叫作训练数据(training data)或训练集(training set).。其余的数据用来评估模型性能，叫作测试数据(test data)、测试集(test set)或留出集(hold-out set). scikit-Learn中的train_test_split函数可以打乱数据集并进行拆分。这个函数将75%的行数据及对应标签作为训练集，剩下25%的数据及其标签作为测试集。训练集与测试集的分配比例可以是随意的，但使用25%的数据作为测试集是很好的经验法则。 scikit-learn中的数据通常用大写的X表示，而标签用小写的y表示。这是受到了数学标准公式x)=y的启发，其中x是函数的输入，y是输出。我们用大写的X是因为数据是一个二维数组（矩阵），用小写的y是因为目标是一个一维数组（向量），这也是数学中的约定。对数据调用train_test_split,并对输出结果采用下面这种命名方法： In[21]: from sklearn.model_selection import train_test_split X_train,X_test,y_train,y_test train_test_split( iris_dataset['data'],iris_dataset['target'],random_state=0) 14|第1章

14 ｜第 1 章 Out[19]: Shape of target: (150,) 品种被转换成从 0 到 2 的整数： In[20]: print("Target:\n{}".format(iris_dataset['target'])) Out[20]: Target: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2] 上述数字的代表含义由 iris['target_names'] 数组给出：0 代表 setosa，1 代表 versicolor， 2 代表 virginica。 1.7.2 衡量模型是否成功：训练数据与测试数据我们想要利用这些数据构建一个机器学习模型，用于预测新测量的鸢尾花的品种。但在将模型应用于新的测量数据之前，我们需要知道模型是否有效，也就是说，我们是否应该相信它的预测结果。不幸的是，我们不能将用于构建模型的数据用于评估模型。因为我们的模型会一直记住整个训练集，所以对于训练集中的任何数据点总会预测正确的标签。这种“记忆”无法告诉我们模型的泛化（generalize）能力如何（换句话说，在新数据上能否正确预测）。我们要用新数据来评估模型的性能。新数据是指模型之前没有见过的数据，而我们有这些新数据的标签。通常的做法是将收集好的带标签数据（此例中是 150 朵花的测量数据）分成两部分。一部分数据用于构建机器学习模型，叫作训练数据（training data）或训练集（training set）。其余的数据用来评估模型性能，叫作测试数据（test data）、测试集（test set）或留出集（hold-out set）。 scikit-learn 中的 train_test_split 函数可以打乱数据集并进行拆分。这个函数将 75% 的行数据及对应标签作为训练集，剩下 25% 的数据及其标签作为测试集。训练集与测试集的分配比例可以是随意的，但使用 25% 的数据作为测试集是很好的经验法则。 scikit-learn 中的数据通常用大写的 X 表示，而标签用小写的 y 表示。这是受到了数学标准公式 f(x)=y 的启发，其中 x 是函数的输入，y 是输出。我们用大写的 X 是因为数据是一个二维数组（矩阵），用小写的 y 是因为目标是一个一维数组（向量），这也是数学中的约定。对数据调用 train_test_split，并对输出结果采用下面这种命名方法： In[21]: from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( iris_dataset['data'], iris_dataset['target'], random_state=0)

点击进入文档下载页（PDF格式）

共295页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录