死亡年龄的汇总情况 In []df.Age.describe() out[5]:count 30906.000000 251 25.000000 504 50.000000 75% 75.000000 ge,ype 100,000000 败据集涉及了几个年份? In [6]:df.Year.unigue() out1611 array(t2005,2010,20151) 确认性别是否只有男性male和女性female。 In [7]:df.Gender.unique() out17]:array(['F','M'],dtype-object) 我们来看一下死亡人数的汇总,我们会得知包含死亡人数的数据行,这里包 括最大值、最小值、平均值等各种各样的信息,我们最关心的是属于一种有哪些 死因,所以我们把数据集中Cause、CauseCN,也就是用英文和中文分别描述的 死亡原因这两列取出,去除其中的重复元素,然后对死因做一下排序,最后就得 到了统计的结果。我们看到统计出来有50种不同的死因。 死亡人致汇总? In []df.Deaths.describe() Out[]:count 30906.000000 211636511 std 930.959087 min 0.000000 25 0.000000 9 Nae:Deaths 6.000000 dtyper float64 数据集中有哪些死因? In [9]:causes -df[['cause', 'Causecx']].drop_duplicates(subset-['cause','CauseCN'1)fremove duplicates e) index the row nusbers 0ut[9]: Cause CauseCN 0Accidents (unintentional injuries) 事故(意外伤害) Acute bronchitis and bronchiolitis 急性支气管炎和细支气管炎 2 Acute polioryeitis 急性将商灰质炎 3 Alzheimer's disease 阿尔茨海就氏病 Anemias 贫血 5 Aortic aneurysm and dissection 主动脉痛和解剂 我们再对年份来做一些处理,在数据集中前3行描述的死亡人员的死亡年份 是2005年、2010年、2015年。我们想看看这三年中到底死亡了多少人,于是 在year这一列上做分组,在分组内部对death表示的死亡人数这一列进行求和 统计,于是就得出这三年死亡总数分别是这三个数字
我们来看一下死亡人数的汇总,我们会得知包含死亡人数的数据行,这里包 括最大值、最小值、平均值等各种各样的信息,我们最关心的是属于一种有哪些 死因,所以我们把数据集中 Cause、CauseCN,也就是用英文和中文分别描述的 死亡原因这两列取出,去除其中的重复元素,然后对死因做一下排序,最后就得 到了统计的结果。我们看到统计出来有 50 种不同的死因。 我们再对年份来做一些处理,在数据集中前 3 行描述的死亡人员的死亡年份 是 2005 年、2010 年、2015 年。我们想看看这三年中到底死亡了多少人,于是 在 year 这一列上做分组,在分组内部对 death 表示的死亡人数这一列进行求和 统计,于是就得出这三年死亡总数分别是这三个数字
再看看数据: In [10]:dt.head(3) 0ut[101: Cause CauseCN Code-ICD-10-113 Age Gender Year Deaths Population Crude Rate 0 Salmonella infections沙r门氏菌染Gn113-001 2005 1956682 Unreliable 1 GA113-001 0 2010 1 1829677 Unreliable 2 Salmonella infections沙门氏感染G113-001 /0 20153 1942904 Urreliable 2005,2010,2015死亡人数分别为多少? 我们先按照年份远行分组,然后对死亡数列求和,就可以得到每年的死亡敌 In [11]:by_year df.groupby('Year").Deaths.sum() by year 0u[111:05 2143662 2010 7107234 2015 2294942 Name:Deaths,dtype:int64 然后,我们可以把它们绘制成直方图,绘图的时候是在数据集上直接调用plot 的方法,kind表示绘制的图形的样子,bar就表示是直方图。 In [12]:by year.plot(kind -"bar') Out[12]:<matplotlib.axes.subplots.Axessubplot at 0x111f915c0> 下面对比男性和女性的死亡率,我们把2015年的数据提取出来,按照性别 进行分组,然后分别统计死亡人数。我们可以看到这是统计的结果,同样我们可 以把统计的结果绘制成直方图。 在2015年,哪个性别死亡率更高? In [14]:df2015 df[df.Year =2015] df2015\ ,groupby《"Gender")\ .Deaths\ .n(】 out[14]:Gender 1103789 5 Name:Deaths. dtype:int64
然后,我们可以把它们绘制成直方图,绘图的时候是在数据集上直接调用瀃濿瀂t 的方法,濾i瀁d 表示绘制的图形的样子,bar 就表示是直方图。 下面对比男性和女性的死亡率,我们把 2015 年的数据提取出来,按照性别 进行分组,然后分别统计死亡人数。我们可以看到这是统计的结果,同样我们可 以把统计的结果绘制成直方图