当前位置：和泉文库 > 计算机 > 浏览文档

《机器学习 Machine Learning》课程教学资源（书籍文献）[德] Andreas C. Müller [美] Sarah Guido《Python机器学习基础教程 Introduction to Machine Learning with Python》

第1章引言第2章监督学习第3章无监督学习与预处理第4章数据表示与特征工程第5章模型评估与改进第6章算法链与管道第7章处理文本数据第8章全书总结

文件格式：PDF，文件大小：29.42MB，售价：45元

文档详细内容（约295页）

监督学习｜ 27 可以用 scikit-learn 模块的 load_breast_cancer 函数来加载数据： In[4]: from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() print("cancer.keys(): \n{}".format(cancer.keys())) Out[4]: cancer.keys(): dict_keys(['feature_names', 'data', 'DESCR', 'target', 'target_names']) 包含在 scikit-learn 中的数据集通常被保存为 Bunch 对象，里面包含真实数据以及一些数据集信息。关于 Bunch 对象，你只需要知道它与字典很相似，而且还有一个额外的好处，就是你可以用点操作符来访问对象的值（比如用 bunch.key 来代替 bunch['key']）。这个数据集共包含 569 个数据点，每个数据点有 30 个特征： In[5]: print("Shape of cancer data: {}".format(cancer.data.shape)) Out[5]: Shape of cancer data: (569, 30) 在 569 个数据点中，212 个被标记为恶性，357 个被标记为良性： In[6]: print("Sample counts per class:\n{}".format( {n: v for n, v in zip(cancer.target_names, np.bincount(cancer.target))})) Out[6]: Sample counts per class: {'benign': 357, 'malignant': 212} 为了得到每个特征的语义说明，我们可以看一下 feature_names 属性： In[7]: print("Feature names:\n{}".format(cancer.feature_names)) Out[7]: Feature names: ['mean radius' 'mean texture' 'mean perimeter' 'mean area' 'mean smoothness' 'mean compactness' 'mean concavity' 'mean concave points' 'mean symmetry' 'mean fractal dimension' 'radius error' 'texture error' 'perimeter error' 'area error' 'smoothness error' 'compactness error' 'concavity error' 'concave points error' 'symmetry error' 'fractal dimension error' 'worst radius' 'worst texture' 'worst perimeter' 'worst area' 'worst smoothness' 'worst compactness' 'worst concavity' 'worst concave points' 'worst symmetry' 'worst fractal dimension'] 感兴趣的话，你可以阅读 cancer.DESCR 来了解数据的更多信息。书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting

我们还会用到一个现实世界中的回归数据集，即波士顿房价数据集。与这个数据集相关的任务是，利用犯罪率、是否邻近查尔斯河、公路可达性等信息，来预测20世纪70年代波士顿地区房屋价格的中位数。这个数据集包含506个数据点和13个特征： In[8]: from sklearn.datasets import load boston boston load boston() print("Data shape:{]"format(boston.data.shape)) 0ut[8]: Data shape:(506,13) 同样，你可以阅读boston对象的DESCR属性来了解数据集的更多信息。对于我们的目的而言，我们需要扩展这个数据集，输入特征不仅包括这13个测量结果，还包括这些特征之间的乘积（也叫交互项）。换句话说，我们不仅将犯罪率和公路可达性作为特征，还将犯罪率和公路可达性的乘积作为特征。像这样包含导出特征的方法叫作特征工程(feature engineering),将在第4章中详细讲述。这个导出的数据集可以用load_extended_.boston函数加载： In[9]: X,y mglearn.datasets.Load_extended_boston() print("X.shape:{]"format(X.shape)) 0ut[9]: X.shape:(506,104) 最初的13个特征加上这13个特征两两组合（有放回）得到的91个特征，一共有104个特征。5 我们将利用这些数据集对不同机器学习算法的性质进行解释说明。但目前来说，先来看算法本身。首先重新学习上一章见过的k近邻(k-NN)算法。 2.3.2k近邻 k-NN算法可以说是最简单的机器学习算法。构建模型只需要保存训练数据集即可。想要对新数据点做出预测，算法会在训练数据集中找到最近的数据点，也就是它的“最近邻”。 1.k近邻分类 k-NN算法最简单的版本只考虑一个最近邻，也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数据点的已知输出。图2-4给出了这种分类方法在fo「ge 数据集上的应用： In[10]: mglearn.plots.plot_knn_classification(n_neighbors=1) 注5：第1个特征可以与13个特征相乘，第2个可以与12个特征相乘（除了第1个），第3个可以与11个特征相乘…依次相加，13+12+11+…+1=91。 281 第2章

28 ｜第 2 章我们还会用到一个现实世界中的回归数据集，即波士顿房价数据集。与这个数据集相关的任务是，利用犯罪率、是否邻近查尔斯河、公路可达性等信息，来预测 20 世纪 70 年代波士顿地区房屋价格的中位数。这个数据集包含 506 个数据点和 13 个特征： In[8]: from sklearn.datasets import load_boston boston = load_boston() print("Data shape: {}".format(boston.data.shape)) Out[8]: Data shape: (506, 13) 同样，你可以阅读 boston 对象的 DESCR 属性来了解数据集的更多信息。对于我们的目的而言，我们需要扩展这个数据集，输入特征不仅包括这 13 个测量结果，还包括这些特征之间的乘积（也叫交互项）。换句话说，我们不仅将犯罪率和公路可达性作为特征，还将犯罪率和公路可达性的乘积作为特征。像这样包含导出特征的方法叫作特征工程（feature engineering），将在第 4 章中详细讲述。这个导出的数据集可以用 load_extended_boston 函数加载： In[9]: X, y = mglearn.datasets.load_extended_boston() print("X.shape: {}".format(X.shape)) Out[9]: X.shape: (506, 104) 最初的 13 个特征加上这 13 个特征两两组合（有放回）得到的 91 个特征，一共有 104 个特征。5 我们将利用这些数据集对不同机器学习算法的性质进行解释说明。但目前来说，先来看算法本身。首先重新学习上一章见过的 k 近邻（k-NN）算法。 2.3.2 k近邻 k-NN 算法可以说是最简单的机器学习算法。构建模型只需要保存训练数据集即可。想要对新数据点做出预测，算法会在训练数据集中找到最近的数据点，也就是它的“最近邻”。 1. k近邻分类 k-NN 算法最简单的版本只考虑一个最近邻，也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数据点的已知输出。图 2-4 给出了这种分类方法在 forge 数据集上的应用： In[10]: mglearn.plots.plot_knn_classification(n_neighbors=1) 注 5：第 1 个特征可以与 13 个特征相乘，第 2 个可以与 12 个特征相乘（除了第 1 个），第 3 个可以与 11 个特征相乘……依次相加，13 + 12 + 11 + … + 1 = 91

点击进入文档下载页（PDF格式）

共295页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录