当前位置：和泉文库 > 计算机 > 浏览文档

《机器学习 Machine Learning》课程教学资源（书籍文献）[德] Andreas C. Müller [美] Sarah Guido《Python机器学习基础教程 Introduction to Machine Learning with Python》

第1章引言第2章监督学习第3章无监督学习与预处理第4章数据表示与特征工程第5章模型评估与改进第6章算法链与管道第7章处理文本数据第8章全书总结

文件格式：PDF，文件大小：29.42MB，售价：45元

文档详细内容（约295页）

书籍下载qg群6089740钉钉群21734177 IT书籍http:/t.cn/RDIAj5D 也可以与其他大量Pytho科学计算工具一起使用，本章后面会讲到相关内容。在阅读本书的过程中，我们建议你同时浏览scikit-Learn用户指南(htp:/scikit-learn.org stable/user_.guide.html)和API文档，里面给出了每个算法的更多细节和更多选项。在线文档非常全面，而本书会介绍机器学习的所有必备知识，以便于你深入了解。安装scikit-Learn scikit-learn依赖于另外两个Python包：NumPy和SciPy。若想绘图和进行交互式开发，还应该安装matplotlib、Python和Jupyter Notebook。我们推荐使用下面三个预先打包的 Python发行版之一，里面已经装有必要的包。 Anaconda (https://store.continuum.io/cshop/anaconda/) 用于大规模数据处理、预测分析和科学计算的Python发行版。Anaconda已经预先安装好NumPy、SciPy、matplotlib、pandas、.Python、Jupyter Notebook和scikit-learn。它可以在Mac OS、Windows和Linux上运行，是一种非常方便的解决方案。对于尚未安装Python科学计算包的人，我们建议使用Anaconda。.Anaconda现在还免费提供商用的ntel MKL库。MKL(在安装Anaconda时自动安装)可以使scikit-learn中许多算法的速度大大提升。 Enthought Canopy (https://www.enthought.com/products/canopy/) 用于科学计算的另一款Python发行版。它已经预先装有NumPy、SciPy、matplotlib pandas和IPython,但免费版没有预先安装scikit-Learn。如果你是能够授予学位的学术机构的成员，可以申请学术许可，免费使用Enthought Canopy的付费订阅版。 Enthought Canopy适用于Python2.7.x,可以在Mac OS、Windows和Linux上运行。 Python(x,y)(http://python-xy.github.io/) 专门为Windows打造的Python科学计算免费发行版。Python(xy)已经预先装有NumPy、 SciPy、matplotlib、pandas、IPython和scikit-learn。如果你已经安装了Python,可以用pip安装上述所有包： pip install numpy scipy matplotlib ipython scikit-learn pandas 1.4必要的库和工具了解scikit-Learn及其用法是很重要的，但还有其他一些库也可以改善你的编程体验。 scikit-learn是基于NumPy和SciPy科学计算库的。除了NumPy和SciPy,我们还会用到pandas和matplotlib。我们还会介绍Jupyter Notebook,一个基于浏览器的交互编程环境。简单来说，对于这些工具，你应该了解以下内容，以便充分利用scikit-Learn。,' 注1：你如果不熟悉NumPy或matplotlib,我们推荐阅读SciPy讲稿(htp:www.scipy-lectures.org)的第1章。引言15 电子书寻找看手相钉钉或微信pythontesting

引言｜ 5 也可以与其他大量 Python 科学计算工具一起使用，本章后面会讲到相关内容。在阅读本书的过程中，我们建议你同时浏览 scikit-learn 用户指南（http://scikit-learn.org/ stable/user_guide.html）和 API 文档，里面给出了每个算法的更多细节和更多选项。在线文档非常全面，而本书会介绍机器学习的所有必备知识，以便于你深入了解。安装scikit-learn scikit-learn 依赖于另外两个 Python 包：NumPy 和 SciPy。若想绘图和进行交互式开发，还应该安装 matplotlib、IPython 和 Jupyter Notebook。我们推荐使用下面三个预先打包的 Python 发行版之一，里面已经装有必要的包。 Anaconda（https://store.continuum.io/cshop/anaconda/）用于大规模数据处理、预测分析和科学计算的 Python 发行版。Anaconda 已经预先安装好 NumPy、SciPy、matplotlib、pandas、IPython、Jupyter Notebook 和 scikit-learn。它可以在 Mac OS、Windows 和 Linux 上运行，是一种非常方便的解决方案。对于尚未安装 Python 科学计算包的人，我们建议使用 Anaconda。Anaconda 现在还免费提供商用的 Intel MKL 库。MKL（在安装 Anaconda 时自动安装）可以使 scikit-learn 中许多算法的速度大大提升。 Enthought Canopy（https://www.enthought.com/products/canopy/）用于科学计算的另一款 Python 发行版。它已经预先装有 NumPy、SciPy、matplotlib、 pandas 和 IPython，但免费版没有预先安装 scikit-learn。如果你是能够授予学位的学术机构的成员，可以申请学术许可，免费使用 Enthought Canopy 的付费订阅版。 Enthought Canopy 适用于 Python 2.7.x，可以在 Mac OS、Windows 和 Linux 上运行。 Python(x,y)（http://python-xy.github.io/）专门为 Windows 打造的 Python 科学计算免费发行版。Python(x,y) 已经预先装有 NumPy、 SciPy、matplotlib、pandas、IPython 和 scikit-learn。如果你已经安装了 Python，可以用 pip 安装上述所有包： $ pip install numpy scipy matplotlib ipython scikit-learn pandas 1.4 必要的库和工具了解 scikit-learn 及其用法是很重要的，但还有其他一些库也可以改善你的编程体验。 scikit-learn 是基于 NumPy 和 SciPy 科学计算库的。除了 NumPy 和 SciPy，我们还会用到 pandas 和 matplotlib。我们还会介绍 Jupyter Notebook，一个基于浏览器的交互编程环境。简单来说，对于这些工具，你应该了解以下内容，以便充分利用 scikit-learn。1 注 1：你如果不熟悉 NumPy 或 matplotlib，我们推荐阅读 SciPy 讲稿（http://www.scipy-lectures.org/）的第 1 章。书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting

6 ｜第 1 章 1.4.1 Jupyter Notebook Jupyter Notebook 是可以在浏览器中运行代码的交互环境。这个工具在探索性数据分析方面非常有用，在数据科学家中广为使用。虽然 Jupyter Notebook 支持多种编程语言，但我们只需要支持 Python 即可。用 Jupyter Notebook 整合代码、文本和图像非常方便，实际上本书所有内容都是以 Jupyter Notebook 的形式进行编写的。所有代码示例都可以在 GitHub 下载（https://github.com/amueller/introduction_to_ml_with_python）。 1.4.2 NumPy NumPy 是 Python 科学计算的基础包之一。它的功能包括多维数组、高级数学函数（比如线性代数运算和傅里叶变换），以及伪随机数生成器。在 scikit-learn 中，NumPy 数组是基本数据结构。scikit-learn 接受 NumPy 数组格式的数据。你用到的所有数据都必须转换成 NumPy 数组。NumPy 的核心功能是 ndarray 类，即多维（n 维）数组。数组的所有元素必须是同一类型。NumPy 数组如下所示： In[2]: import numpy as np x = np.array([[1, 2, 3], [4, 5, 6]]) print("x:\n{}".format(x)) Out[2]: x: [[1 2 3] [4 5 6]] 本书会经常用到 NumPy。对于 NumPy ndarray 类的对象，我们将其简称为“NumPy 数组” 或“数组”。 1.4.3 SciPy SciPy 是 Python 中用于科学计算的函数集合。它具有线性代数高级程序、数学函数优化、信号处理、特殊数学函数和统计分布等多项功能。scikit-learn 利用 SciPy 中的函数集合来实现算法。对我们来说，SciPy 中最重要的是 scipy.sparse：它可以给出稀疏矩阵（sparse matrice），稀疏矩阵是 scikit-learn 中数据的另一种表示方法。如果想保存一个大部分元素都是 0 的二维数组，就可以使用稀疏矩阵： In[3]: from scipy import sparse # 创建一个二维NumPy数组，对角线为1，其余都为0 eye = np.eye(4) print("NumPy array:\n{}".format(eye)) Out[3]: NumPy array: [[ 1. 0. 0. 0.]

书籍下载qg群6089740钉钉群21734177 IT书籍http:/t.cn/RDIAj5D 上述代码的输出如下： Age Location Name 0 24 New York John 1 13 Paris Anna 2 53 Berlin Peter 3 33 London Linda 查询这个表格的方法有很多种。举个例子： In[8]: #选择年龄大于30的所有行 display(data_pandas[data_pandas.Age 30]) 输出结果如下： Age Location Name 2 53 Berlin Peter 3 33 London Linda 1.4.6 mglearn 本书的附加代码可以在GitHub下载(https:/github.com/amueller/introduction_to_ml_with python)。附加代码不仅包括本书中的所有示例，还包括mglearn库。这是我们为本书编写的实用函数库，以免将代码清单与绘图和数据加载的细节混在一起。感兴趣的话，你可以查看仓库中的所有函数，但mglearn模块的细节并不是本书的重点。如果你在代码中看到了对mglearn的调用，通常是用来快速美化绘图，或者用于获取一些有趣的数据。本书会频繁使用NumPy、matplotlib和pandas.。所有代码都默认导入了这些库： import numpy as np import matplotlib.pyplot as plt import pandas as pd import mglearn 我们还假设你在Jupyter Notebook中运行代码，并使用matplotlib notebook或 %matplotlib inline魔法命令来显示图像。如果你没有使用Jupyter Notebook或这些魔法命令，那么就需要调用plt.show来显示图像。 1.5 Python2与Python3的对比目前Python主要有两大版本广为使用：Python2（(更确切地说是Python2.7)和Python3 (写作本书时的最新版本是Python3.5)。有时这会造成一些混乱。Python2已经停止开发，但由于Python3包含许多重大变化，所以Python2的代码通常无法在Python3中运行。如果你是Python新手，或者要从头开发一个新项目，我们强烈推荐使用最新版本的Python3, 你无需做任何更改。如果你要依赖一个用Pythor2编写的大型代码库，可以暂时不升级。引言19 电子书寻找看手相钉钉或微信pythontesting

引言｜ 9 上述代码的输出如下： Age Location Name 0 24 New York John 1 13 Paris Anna 2 53 Berlin Peter 3 33 London Linda 查询这个表格的方法有很多种。举个例子： In[8]: # 选择年龄大于30的所有行 display(data_pandas[data_pandas.Age > 30]) 输出结果如下： Age Location Name 2 53 Berlin Peter 3 33 London Linda 1.4.6 mglearn 本书的附加代码可以在 GitHub 下载（https://github.com/amueller/introduction_to_ml_with_ python）。附加代码不仅包括本书中的所有示例，还包括 mglearn 库。这是我们为本书编写的实用函数库，以免将代码清单与绘图和数据加载的细节混在一起。感兴趣的话，你可以查看仓库中的所有函数，但 mglearn 模块的细节并不是本书的重点。如果你在代码中看到了对 mglearn 的调用，通常是用来快速美化绘图，或者用于获取一些有趣的数据。本书会频繁使用 NumPy、matplotlib 和 pandas。所有代码都默认导入了这些库： import numpy as np import matplotlib.pyplot as plt import pandas as pd import mglearn 我们还假设你在 Jupyter Notebook 中运行代码，并使用 %matplotlib notebook 或 %matplotlib inline 魔法命令来显示图像。如果你没有使用 Jupyter Notebook 或这些魔法命令，那么就需要调用 plt.show 来显示图像。 1.5 Python 2与Python 3的对比目前 Python 主要有两大版本广为使用：Python 2（更确切地说是 Python 2.7）和 Python 3 （写作本书时的最新版本是 Python 3.5）。有时这会造成一些混乱。Python 2 已经停止开发，但由于 Python 3 包含许多重大变化，所以 Python 2 的代码通常无法在 Python 3 中运行。如果你是 Python 新手，或者要从头开发一个新项目，我们强烈推荐使用最新版本的 Python 3，你无需做任何更改。如果你要依赖一个用 Python 2 编写的大型代码库，可以暂时不升级。书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting

点击进入文档下载页（PDF格式）

共295页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录