数据科学引论-Python之道 第1课什么是数据科学? 一、数据科学简介 什么是数据科学?简单地说,就是通过研究数据从中提取知识的科学。实际 上,数据科学由来已久,让我们来看一个著名的例子。天文学家第谷是一位具有 超强天文观测能力的奇才,他从事了20多年的高精度天文观测,积累了大量行 星运动的观测数据。在此基础之上,他通过研究这些数据,提出了地缘日心说。 第谷的学生,另一位伟大的天文学家开普勒,通过研究第谷的观测数据,提出了 开普勒三定律,有力地证明了日心说。 观测记录 第谷-天文学家 开普勒-天文学家 从事了20多年的高精度的天文观测 研究第谷的观测数据10多年, 积累了大量行星运动的观测数据 提出了开普勒三定律 开普物三定律 地缘日心说 这个故事告诉我们了这样几个事实: 1.无论是第谷还是开普勒,都是通过对大量的原始观测数据进行研究,从 中提取知识,才构建了自己的理论体系。 2.尽管第谷是天才的天文观测家,但是他并没有构建出正确的宇宙模型, 而开普勒却基于第谷的数据揭示了正确的行星运动规律。这说明不同知 识背景的人们,针对相同的数据会得到天差地别的分析结果。 3.第谷善于观测,开普勒善于研究,这说明在数据科学中,人们的角色可 以细分,不同角色具备的能力和素质也不尽相同。 现代T技术推动了数据科学的发展,数据科学已经渗透到了我们生活的方方
数据科学引论-Pyth瀂瀁 之道 第 1 课 什么是数据科学? 一、数据科学简介 什么是数据科学?简单地说,就是通过研究数据从中提取知识的科学。实际 上,数据科学由来已久,让我们来看一个著名的例子。天文学家第谷是一位具有 超强天文观测能力的奇才,他从事了 20 多年的高精度天文观测,积累了大量行 星运动的观测数据。在此基础之上,他通过研究这些数据,提出了地缘日心说。 第谷的学生,另一位伟大的天文学家开普勒,通过研究第谷的观测数据,提出了 开普勒三定律,有力地证明了日心说。 这个故事告诉我们了这样几个事实: 1. 无论是第谷还是开普勒,都是通过对大量的原始观测数据进行研究,从 中提取知识,才构建了自己的理论体系。 2. 尽管第谷是天才的天文观测家,但是他并没有构建出正确的宇宙模型, 而开普勒却基于第谷的数据揭示了正确的行星运动规律。这说明不同知 识背景的人们,针对相同的数据会得到天差地别的分析结果。 3. 第谷善于观测,开普勒善于研究,这说明在数据科学中,人们的角色可 以细分,不同角色具备的能力和素质也不尽相同。 现代 IT 技术推动了数据科学的发展,数据科学已经渗透到了我们生活的方方
面面。例如,Google的AlphaGO在人工智能和大数据技术的支撑下,已经达到 了在围棋界“独孤求败”的境地。特斯拉的自动驾驶技术也在数据科学的助力下 有了很大的发展。NetFlix通过大数据分析,在开拍前选择受众喜爱的导演和演 员,使得《纸牌屋》电视剧全球大热。 Google De HOUSE ofCARDS Google Tesla Netflix ALPHAGO 自动驾驶 《纸牌屋》 由于T技术的发展,我们现在生活在大数据的时代,而大数据包含了共有特 征明显的像数据表这样的结构化数据,以及共有特征不明显的像视频、音频和文 本这样的非结构化数据。无论是哪种数据,原始数据本身并不会显得很有用,只 有通过对数据的研究,去芜存菁,精华提炼,才能得出有价值的知识。这说明数 据科学是一门交叉学科,它至少涉及3个领域:计算机科学,研究如何高效地存 储和处理数据;数学与统计学,研究如何对数据进行分析;专业领域,研究如何 对业务需求建模。 Data Science Venn Diagram v2.0 Data Science Computer Math and Science Statistics Unicorn Trad tonal Traditional Software Research Subject Matter Expertise
面面。例如,G瀂瀂g濿e 的 A濿瀃haGO 在人工智能和大数据技术的支撑下,已经达到 了在围棋界“独孤求败”的境地。特斯拉的自动驾驶技术也在数据科学的助力下 有了很大的发展。NetF濿ix 通过大数据分析,在开拍前选择受众喜爱的导演和演 员,使得《纸牌屋》电视剧全球大热。 由于 IT 技术的发展,我们现在生活在大数据的时代,而大数据包含了共有特 征明显的像数据表这样的结构化数据,以及共有特征不明显的像视频、音频和文 本这样的非结构化数据。无论是哪种数据,原始数据本身并不会显得很有用,只 有通过对数据的研究,去芜存菁,精华提炼,才能得出有价值的知识。这说明数 据科学是一门交叉学科,它至少涉及 3 个领域:计算机科学,研究如何高效地存 储和处理数据;数学与统计学,研究如何对数据进行分析;专业领域,研究如何 对业务需求建模
上面这张图清晰地告诉了我们,这三个领域的关系,计算机科学与专业领域 结合,就会产生传统的计算软件,通过计算机强大的计算能力来解决业务问题; 专业领域与数学统计学结合,就会产生对各专业领域问题的理论研究;计算机科 学与数学统计学相结合,就会产生机器学习等利用计算机的计算能力来解决复杂 数学问题的新领域。而数据科学就是这三个领域的综合。 数据科学包含两种形式,第一种是问题驱动的,即人们需要的不是数据本身, 而是要利用该数据来找到问题的答案。例如,面对如何提高销量的问题,人们希 望通过积累的销售数据,能够得出类似“在满足Z条件的情况下,在每周Y,商 品X的销量最大”这样的结论。 Problem Data Insight I want to increase sales -Existing data Item X sells more on Y day of the Other data sources week in Z conditions: Raspberries sell higher on a Saturday when the temperature is 20-25 C 另一种形式是数据驱动的数据科学,即人们并不知道从数据中能够得到什么, 也没有具体的问题,但是希望通过数据分析找出数据中蕴含的知识。这两种形式 类似有监督学习与无监督学习之间的关系。 Problem Data Insight I want to increase sales Existing data Item X sells more on Y day of the -Other data sources week in Z conditions: -Raspberries sell higher on a Saturday when the temperature is 20-25 C
上面这张图清晰地告诉了我们,这三个领域的关系,计算机科学与专业领域 结合,就会产生传统的计算软件,通过计算机强大的计算能力来解决业务问题; 专业领域与数学统计学结合,就会产生对各专业领域问题的理论研究;计算机科 学与数学统计学相结合,就会产生机器学习等利用计算机的计算能力来解决复杂 数学问题的新领域。而数据科学就是这三个领域的综合。 数据科学包含两种形式,第一种是问题驱动的,即人们需要的不是数据本身, 而是要利用该数据来找到问题的答案。例如,面对如何提高销量的问题,人们希 望通过积累的销售数据,能够得出类似“在满足 Z 条件的情况下,在每周 Y,商 品 X 的销量最大”这样的结论。 另一种形式是数据驱动的数据科学,即人们并不知道从数据中能够得到什么, 也没有具体的问题,但是希望通过数据分析找出数据中蕴含的知识。这两种形式 类似有监督学习与无监督学习之间的关系
为什么数据科学与大数据总是存在不解之缘呢?下面这种图展示了数据量 增长的趋势,到2020年,世界上的数据总量将达到约40ZB,T技术的进步使得 大数据的存储和处理成为了可能,人们正式进入了大数据时代。所以数据科学的 研究对象往往是大数据。 The Digital Universe:50-fold Growth from the Beginning of 2010 to the End of 2020 40.000 30.000 (Exabytes) 20,000 10.000 200920102011201220132014201520162077201820192020 This IDC graph predicts exponential growth of data from around 3 zettabytes in 2013 to approximately 40 settabytes by 2020.An exabyte equals 1,000,000,000,000,000,000 bytes and 1,000 exabytes equals one zettabyte.Source:IDC's Digital Universe Study,December 2012,http://www.emc.com//analyst-reports/ide-the-digital-universe m-2020.pd域 二、数据科学家是什么样的职业? 数据科学在最近几年得到了蓬勃的发展,从2011年起,数据科学家的需求 量呈爆炸式增长。哈弗商业评论在2012年给出的报告中声称数据科学家是21 世纪最性感的职业,仅在北美,数据科学家的缺口就超过十万人。在2016年的 CrowdFlower给出的报告中显示,83%的数据科学家认为数据科学家十分短缺 (https://visit.crowdflower.com/data-science-report.html) 成为数据科学家可以使我们获益颇丰。顶尖的职业网站Glassdoor对位于美 国、加拿大和英国的公司的薪水和工作满意度进行了比较,其结果显示了这种的 趋势。在2015年,“医护助手”是最好的职业,而在2016年,最好的职业就变 成了数据科学家,年薪大于10万美元。2017年,数据科学家再度成为最好的职
为什么数据科学与大数据总是存在不解之缘呢?下面这种图展示了数据量 增长的趋势,到 2020 年,世界上的数据总量将达到约 40ZB,IT 技术的进步使得 大数据的存储和处理成为了可能,人们正式进入了大数据时代。所以数据科学的 研究对象往往是大数据。 二、数据科学家是什么样的职业? 数据科学在最近几年得到了蓬勃的发展,从 2011 年起,数据科学家的需求 量呈爆炸式增长。哈弗商业评论在 2012 年给出的报告中声称数据科学家是 21 世纪最性感的职业,仅在北美,数据科学家的缺口就超过十万人。在 2016 年的 Cr瀂wdF濿瀂wer 给出的报告中显示,83% 的数据科学家认为数据科学家十分短缺 (htt瀃s://visit.cr瀂wdf濿瀂wer.c瀂瀀/data-scie瀁ce-re瀃瀂rt.ht瀀濿)。 成为数据科学家可以使我们获益颇丰。顶尖的职业网站 G濿assd瀂瀂r 对位于美 国、加拿大和英国的公司的薪水和工作满意度进行了比较,其结果显示了这种的 趋势。在 2015 年,“医护助手”是最好的职业,而在 2016 年,最好的职业就变 成了数据科学家,年薪大于 10 万美元。2017 年,数据科学家再度成为最好的职
业,并且在一年间职位需求量增加了2.5倍。 在最大的或新兴的企业中,例如Facebook,Airbnb,Twitter,IBM,Tesla,和 Paypal中,在旧金山地区开出的平均年薪都超过了10万美元。因此,现在是成 为数据科学家的大好时机。 作为数据科学家,必须能够把故事讲好,能够让大家听明白,这意味着数据 科学家必须善于沟通和讲述故事。但是,更重要的是,数据科学家需要能够洞察 数据,发现知识,因此他必须具备相关的知识背景,就像下面的图所示。具体说 来,包括:数学和统计知识,编程与数据库知识、领域知识与软技能,沟通与可 视化能力。 MODERN DATA SCIENTIST scientist is hard Finding people who understand who a data scientist is,isoy hard So here is a little cheat sheet on who the modern data sciontist really is. MATH PROGRAMMING STATISTICS DATABASE 女Machineng ☆Statistc modelg Seripting language eg.Python 合Experiment design Statistical computing packageepR 合Bayesian infesence Parallel databsesalle qery processing ☆MapReduce concepts Optimization:gradient descend ☆ Hadoop and Hive/Pig anais ☆Custom reducers ☆bpe ence with xaaS like AWS DOMAIN KNOWLEDGE COMMUNICATION SOFT SKILLS VISUALIZATION Passinnate about the business 合止engg变Wths 女Curinus about data ☆Sng敛s ☆Problem solver decisions and actions ☆ Strategic.proactive,ceatie Visual art desgn innovative and collaborative ☆R packages恤3tice Knowledge of any af visualiaton toolseg Flare,D3 is Tableau tt2
业,并且在一年间职位需求量增加了 2.5 倍。 在最大的或新兴的企业中,例如 Faceb瀂瀂濾, Airb瀁b, Twitter, IBM, Tes濿a, 和 Pay瀃a濿 中,在旧金山地区开出的平均年薪都超过了 10 万美元。因此,现在是成 为数据科学家的大好时机。 作为数据科学家,必须能够把故事讲好,能够让大家听明白,这意味着数据 科学家必须善于沟通和讲述故事。但是,更重要的是,数据科学家需要能够洞察 数据,发现知识,因此他必须具备相关的知识背景,就像下面的图所示。具体说 来,包括:数学和统计知识,编程与数据库知识、领域知识与软技能,沟通与可 视化能力