当前位置：和泉文库 > 计算机 > 浏览文档

《数据科学引论——Python之道》课程教学资源（教案讲义）04 数据分析入门

文件格式：PDF，文件大小：5.81MB，售价：11.41元

文档详细内容（约33页）

数据科学引论-Python之道第4课数据分析入门一、numpy和pandas 我们主要学习两个库：numpy和pandas的使用方式。numpy是第一个库，什么是numpy,就是python中用于科学计算的一个基础包，它的特点是运行速度很快，支持多维数组，并且支持向量化的计算。它的使用方式像下面这样，先要导入numpy,这个包导入以后可以起个别名np,然后就可以使用np这个别名来调用numpy中的功能。例如，我们通过np来创建一个array,也就是一个数组，这个数组是一个3×2的二维数组。 import numpy as np data=np.array([1.9526,-0.246,-0.8856], [0.5639,0.2379,0.9104]) data array([[1.9526,-0.246,-0.8856], [0.5639,0.2379,0.9104]]) 接下来，我们来看一看pandas这个包。我们主要讨论其中的两类对象，一类是series,另外一类是DataFrame。pandas是什么？pandas是python中专门用于数据分析的包，它主要的成分就是刚才讲的series和data frames。我们可以通过这两类对象可以来下载数据可视化和分析数据。 Series是由数字构成的列表，在前面我们讲python入门时提到过列表这样的数据类型。列表里每个元素都有自己的数据以及索引，所以在缺省情况下， series里面的索引是整数类型的，并且和列表一样从0开始的。所以我们定义一个数据集data,它包含三个元素，再用data这个数据集来创建一个series,我们就得到了一个pandas里面的series对象。这个对象里面的数据是连续存储的，并且它的索引是0、1、2这样排列的。通过索引的值我们就可以访问到一个具体

数据科学引论-P瀌瀇h瀂瀁之道第 4 课数据分析入门一、瀁瀈瀀瀃瀌和瀃a瀁da瀆我们主要学习两个库：瀁瀈瀀瀃瀌和瀃a瀁da瀆的使用方式。瀁瀈瀀瀃瀌是第一个库，什么是瀁瀈瀀瀃瀌，就是瀃瀌瀇h瀂瀁中用于科学计算的一个基础包，它的特点是运行速度很快，支持多维数组，并且支持向量化的计算。它的使用方式像下面这样，先要导入瀁瀈瀀瀃瀌，这个包导入以后可以起个别名瀁瀃，然后就可以使用瀁瀃这个别名来调用瀁瀈瀀瀃瀌中的功能。例如，我们通过瀁瀃来创建一个 a瀅瀅a瀌，也就是一个数组，这个数组是一个 3×2 的二维数组。接下来，我们来看一看瀃a瀁da瀆这个包。我们主要讨论其中的两类对象，一类是瀆e瀅ie瀆，另外一类是 Da瀇aF瀅a瀀e。瀃a瀁da瀆是什么？瀃a瀁da瀆是瀃瀌瀇h瀂瀁中专门用于数据分析的包，它主要的成分就是刚才讲的瀆e瀅ie瀆和 da瀇a f瀅a瀀e瀆。我们可以通过这两类对象可以来下载数据可视化和分析数据。 Se瀅ie瀆是由数字构成的列表，在前面我们讲瀃瀌瀇h瀂瀁入门时提到过列表这样的数据类型。列表里每个元素都有自己的数据以及索引，所以在缺省情况下，瀆e瀅ie瀆里面的索引是整数类型的，并且和列表一样从 0 开始的。所以我们定义一个数据集 da瀇a，它包含三个元素，再用 da瀇a 这个数据集来创建一个瀆e瀅ie瀆，我们就得到了一个瀃a瀁da瀆里面的瀆e瀅ie瀆对象。这个对象里面的数据是连续存储的，并且它的索引是 0、1、2 这样排列的。通过索引的值我们就可以访问到一个具体

的对象，比如S1],就指向的是第一个23这个数据。 data=[11,23,23] s pd.Series(data) data 11 23 23 Index 0 11 23 2 23 dtype:int64 s[1]=23 s1] 23 如果我们不想使用缺省情况下从0开始的不断递增的整数类型的索引，我们可以自己来设置series里面元素的索引。例如，在下面这段脚本中，我们仍然是定义了三个元素构成的一个数据集，另外又定义一个由三个字符串构成的索引集。用这个数据集以及索引集来创建一个series。.注意，这里的第一个index是关键字，表示索引；第二个是表示的是第二行的这个index变量，表示在创建这个 series对象所使用的索引，就是我们这里定义的series这个对象。这样创建好的 series仍然包含三个元素，但是它们的索引值现在就变成了a、b、c。同样地，通过索引值可以访问到具体的对象，例如S"a"门等于11。 data=[11,23,23] index=["a","b","c"] s pd.Series(data,index=index) data 11 23 23 Index a a 11 b 23 23 dtype:int64 s["a"]=11 s["a"] 11 除了访问一个对象之外，我们还可以访问一组对象。例如，在下面这段脚本中，我们希望访问索引为a和b的两个对象，一次性读取出来。所以，可以在S中传入一组索引值的方法来获取多个对象，所以S["a"门的11和S"b门的12被一次性地获取了出来

的对象，比如 S[1]，就指向的是第一个 23 这个数据。如果我们不想使用缺省情况下从 0 开始的不断递增的整数类型的索引，我们可以自己来设置瀆e瀅ie瀆里面元素的索引。例如，在下面这段脚本中，我们仍然是定义了三个元素构成的一个数据集，另外又定义一个由三个字符串构成的索引集。用这个数据集以及索引集来创建一个瀆e瀅ie瀆。注意，这里的第一个 i瀁de瀋是关键字，表示索引；第二个是表示的是第二行的这个 i瀁de瀋变量，表示在创建这个瀆e瀅ie瀆对象所使用的索引，就是我们这里定义的瀆e瀅ie瀆这个对象。这样创建好的瀆e瀅ie瀆仍然包含三个元素，但是它们的索引值现在就变成了 a、b、c。同样地，通过索引值可以访问到具体的对象，例如 S["a"]等于 11。除了访问一个对象之外，我们还可以访问一组对象。例如,在下面这段脚本中，我们希望访问索引为 a 和 b 的两个对象，一次性读取出来。所以，可以在 S 中传入一组索引值的方法来获取多个对象，所以 S["a"]的 11 和 S["b"]的 12 被一次性地获取了出来

s["b"]=12 import pandas as pd data=11,12,131 ind■【"a","b","c"J data 11 12 13 Index a b s=pd.Series(data,index=ind) s【"a","b"1】 12 s["a"]=11 dtype:int64 DataFrame是什么呢？DataFrame是一个类似电子表格的对象，它是一个有序的列集合，并且同时具有行和列的索引，也就是说在DataFrame的构成中，每一列都是我们之前定义的一个series,这些列凑到一起之后，对应的行上面都还会有一个行的索引。列 Dictionary A 行 Index Series 1 Series 2 Series 2 具体来说，我们在这里举一个例子。首先，我们导入pandas的包，我们定义了一个data字典，这个字典里面包含了若干个键值。这些键值对每一个都表示的是一列。所以我们看到的电子表格里面包含了三列points、name、year。同时，我们在创建DataFrame时，要指定行索引是什么。由于我们在前面的data 里面包含了五行，所以要指定它的五个行索引是什么，这里我们指定的是Dy1 一直到Day5。使用data和这个index构建出来的Dateframe就像下面这样，它有列索引，又有行索引，看起来就像一个电子表格

Da瀇aF瀅a瀀e 是什么呢？Da瀇aF瀅a瀀e 是一个类似电子表格的对象，它是一个有序的列集合，并且同时具有行和列的索引，也就是说在 Da瀇aF瀅a瀀e 的构成中，每一列都是我们之前定义的一个瀆e瀅ie瀆，这些列凑到一起之后，对应的行上面都还会有一个行的索引。具体来说，我们在这里举一个例子。首先，我们导入瀃a瀁da瀆的包，我们定义了一个 da瀇a 字典，这个字典里面包含了若干个键值。这些键值对每一个都表示的是一列。所以我们看到的电子表格里面包含了三列瀃瀂i瀁瀇瀆、瀁a瀀e、瀌ea瀅。同时，我们在创建 Da瀇aF瀅a瀀e 时，要指定行索引是什么。由于我们在前面的 da瀇a 里面包含了五行，所以要指定它的五个行索引是什么，这里我们指定的是 Da瀌1 一直到 Da瀌5。使用 da瀇a 和这个 i瀁de瀋构建出来的 Da瀇ef瀅a瀀e 就像下面这样，它有列索引，又有行索引，看起来就像一个电子表格

import pandas as pd data =('name':['Joe','Cat','Mike','Kim','Amy'], 'year':[2012,2012,2013,2014,20141, 'Points':【4,24,31,2,3]} df pd.DataFrame(data,index =['Day1','Day2','Day3','Day4','Day5']) df Points name year Day1 4 Joe 2012 Day2 24 Cat 2012 Day3 31 Mike 2013 Day4 2 Kim 2014 Day5 3 Amy 2014 一旦定义好DataFrame就可以在上面获取它里面的内容。获取的方式是可以在对DataFrame对象的后面填入对应的索引名字，例如，我们填入points就是要获取points这一列的所有内容，填入name就是要获取name这一列对应的所有内容。这就是对DataFrame的一个简单操作。 Points nameyear ·可以选择列： df['Points'] Day1 4 Joe 2012 Day2 24 Cat 2012 Day3 31 Mike 2013 Day4 2 Kim 2014 Points name year Day5 3 Amy 2014 Day1 4 Joe 2012 df['Points'] Day2 24 Cat 2012 Dayl Day2 24 Day3 3 Day3 31 Mike 2013 Day4 Day5 3 Day4 2 Kim 2014 Name:Points,dtype:int64 df['name'】 Day5 3 Amy 2014 Day1 Joe Day2 Cat Day3 Mike Day4 Kim Day5 Amy Name:name, dtype:object df['name' 二、DataFrame-分组下面让我们来看看DataFrame的操作。在pandas的Dateframe上的操作总共四种，一种是列举不同的取值，一种是分类，另外两种是合并和清洗

一旦定义好 Da瀇aF瀅a瀀e 就可以在上面获取它里面的内容。获取的方式是可以在对 Da瀇aF瀅a瀀e 对象的后面填入对应的索引名字，例如，我们填入瀃瀂i瀁瀇瀆就是要获取瀃瀂i瀁瀇瀆这一列的所有内容，填入瀁a瀀e 就是要获取瀁a瀀e 这一列对应的所有内容。这就是对 Da瀇aF瀅a瀀e 的一个简单操作。二、Da瀇aF瀅a瀀e – 分组下面让我们来看看 Da瀇aF瀅a瀀e 的操作。在瀃a瀁da瀆的 Da瀇ef瀅a瀀e 上的操作总共四种，一种是列举不同的取值，一种是分类，另外两种是合并和清洗

首先，我们来看最简单的列举不同取值。列举不同取值是通过unique函数来实现的。所谓不同的取值，它的概念是这样的：在下面的图中，我们看到这个是列数据有很多行，但是这一列数据当中不同的取值只有红绿蓝三种。我们想知道在这一列上不同的取值到底有多少种，这就是unique函数的作用。举一个例子，下面是一个DataFrame,在它的Stat_Date这一列中，我们可以看到，尽管有七行数据，但是不同的取值实际上只有四个，我们想要取得这些不同的数据，该怎么做呢？首先，我们通过对DataFrame传入索引列的索引的方式获取这一列，于是我们得到了Start_Date这一列。接着，我们在这一列上调用unique方法，就会得到不同的取值，于是，我们看到这四个不同的取值被取回。 Start_Date name Start_Date d2002 Jason 2002 2002 df['Start Date'] 12012 Molly 2012 2012 22012 Tina 2012 2014 32014 2014 1999 Jake 42014 Amy 2014 51999 1999 John 1999 61999 Bob 接下来我们看看分组，分组是什么概念？在电子表格中，也就是在DataFrame

首先，我们来看最简单的列举不同取值。列举不同取值是通过瀈瀁i瀄瀈e 函数来实现的。所谓不同的取值，它的概念是这样的：在下面的图中，我们看到这个是列数据有很多行，但是这一列数据当中不同的取值只有红绿蓝三种。我们想知道在这一列上不同的取值到底有多少种，这就是瀈瀁i瀄瀈e 函数的作用。举一个例子，下面是一个 Da瀇aF瀅a瀀e，在它的 S瀇a瀅瀇_Da瀇e 这一列中，我们可以看到，尽管有七行数据，但是不同的取值实际上只有四个，我们想要取得这些不同的数据，该怎么做呢？首先，我们通过对 Da瀇aF瀅a瀀e 传入索引列的索引的方式获取这一列，于是我们得到了 S瀇a瀅瀇_Da瀇e 这一列。接着，我们在这一列上调用瀈瀁i瀄瀈e 方法，就会得到不同的取值，于是，我们看到这四个不同的取值被取回。接下来我们看看分组，分组是什么概念？在电子表格中，也就是在Da瀇aF瀅a瀀e

点击进入文档下载页（PDF格式）

共33页，可试读12页，点击继续阅读 ↓↓

您可能感兴趣的文档

《数据科学引论——Python之道》课程教学资源（教案讲义）03 Python简介
《数据科学引论——Python之道》课程教学资源（教案讲义）02 数据科学的应用
《数据科学引论——Python之道》课程教学资源（教案讲义）10 TensorFlow-深度学习实践
《数据科学引论——Python之道》课程教学资源（教案讲义）01 什么是数据科学
《数据科学引论——Python之道》课程教学资源（课件讲稿）09 机器学习
《数据科学引论——Python之道》课程教学资源（课件讲稿）08 数据可视化
《数据科学引论——Python之道》课程教学资源（课件讲稿）07 数据科学方法学（2/2）
《数据科学引论——Python之道》课程教学资源（课件讲稿）07 数据科学方法学（1/2）
《数据科学引论——Python之道》课程教学资源（课件讲稿）06 统计初步
《数据科学引论——Python之道》课程教学资源（课件讲稿）05 网络爬虫介绍和样例
《数据科学引论——Python之道》课程教学资源（课件讲稿）05 爬虫环境搭建
《数据科学引论——Python之道》课程教学资源（课件讲稿）04 数据分析入门
《数据科学引论——Python之道》课程教学资源（教案讲义）05 数据收集
《数据科学引论——Python之道》课程教学资源（教案讲义）06 数据统计初步
《数据科学引论——Python之道》课程教学资源（教案讲义）07 数据科学方法学
《数据科学引论——Python之道》课程教学资源（教案讲义）08 数据可视化
《数据科学引论——Python之道》课程教学资源（教案讲义）09 机器学习
《机器学习与知识发现》教学资源：Linear Algebra Review and Reference
上海交通大学：《程序设计思想与方法》课程教学资源（PPT课件讲稿）函数指针的应用、气泡排序法
上海交通大学：《程序设计思想与方法》课程教学资源（PPT课件讲稿）第一章绪论
上海交通大学：《程序设计思想与方法》课程教学资源（PPT课件讲稿）第七章间接访问——指针
上海交通大学：《程序设计思想与方法》课程教学资源（PPT课件讲稿）第三章分支程序设计
上海交通大学：《程序设计思想与方法》课程教学资源（PPT课件讲稿）第二章通过例子学习
上海交通大学：《程序设计思想与方法》课程教学资源（PPT课件讲稿）第五章批量数据处理——数组

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录