什么是数据科学? ·数据科学研究数据从中提取知识 ·这里的数据,通常是指大数据,包含了结构化和非结构化数据 ·这是一门交叉学科,至少涉及三个领域 ·计算机科学 ·数学与统计学 专业领域 6
什么是数据科学? • 数据科学研究数据从中提取知识 • 这里的数据,通常是指大数据,包含了结构化和非结构化数据 • 这是一门交叉学科,至少涉及三个领域 • 计算机科学 • 数学与统计学 • 专业领域 6
什么是数据科学? Data Science Venn Diagram v2.0 Data Science Computer Machine Math and Science Learning Statistics Unicorn Traditional Traditional Software Research Subject Matter Expertise 7
什么是数据科学? 7
什么是数据科学? ·问题驱动的数据科学 ·关键:人们需要的不是数据,而是问题的答案 Problem Data Insight I want to increase sales - Existing data - Item X sells more on Y day of the Other data sources week in Z conditions: Raspberries sell higher on a Saturday when the temperature is 20-25 C
什么是数据科学? • 问题驱动的数据科学 • 关键:人们需要的不是数据,而是问题的答案 Pr瀂濵濿濸瀀 D濴t濴 I瀁s濼濺濻t I w濴瀁t t瀂 濼瀁濶r濸濴s濸 s濴濿濸s - Ex濼st濼瀁濺 濷濴t濴 - Ot濻濸r 濷濴t濴 s瀂ur濶濸s - It濸瀀 X s濸濿濿s 瀀瀂r濸 瀂瀁 Y 濷濴y 瀂濹 t濻濸 w濸濸濾 濼瀁 Z 濶瀂瀁濷濼t濼瀂瀁s: - R濴s瀃濵濸rr濼濸s s濸濿濿 濻濼濺濻濸r 瀂瀁 濴 S濴tur濷濴y w濻濸瀁 t濻濸 t濸瀀瀃濸r濴tur濸 濼s 20-25 C 8
什么是数据科学? ·数据驱动的数据科学 Problem Data Insight I want to increase sales - Existing data - Item X sells more on Y day of the Other data sources week in Z conditions: Raspberries sell higher on a Saturday when the temperature is 20-25C
什么是数据科学? • 数据驱动的数据科学 Pr瀂濵濿濸瀀 D濴t濴 I瀁s濼濺濻t I w濴瀁t t瀂 濼瀁濶r濸濴s濸 s濴濿濸s - Ex濼st濼瀁濺 濷濴t濴 - Ot濻濸r 濷濴t濴 s瀂ur濶濸s - It濸瀀 X s濸濿濿s 瀀瀂r濸 瀂瀁 Y 濷濴y 瀂濹 t濻濸 w濸濸濾 濼瀁 Z 濶瀂瀁濷濼t濼瀂瀁s: - R濴s瀃濵濸rr濼濸s s濸濿濿 濻濼濺濻濸r 瀂瀁 濴 S濴tur濷濴y w濻濸瀁 t濻濸 t濸瀀瀃濸r濴tur濸 濼s 20-25 C 9
为什么是大数据? The Digital Universe:50-fold Growth from the Beginning of 2010 to the End of 2020 40,000 30,000 (Exabytes) 20.000 10.000 200920102011201220132014201520162017201820192020 This IDC graph predicts exponential growth of data from around 3 zettabytes in 2013 to approximately 40 zettabytes by 2020.An exabyte equals 1,000,000,000,000,000,000 bytes and 1,000 exabytes equals one zettabyte.Source:IDC's Digital Universe Study,December 2012,http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe- in-2020.pdf. 10
为什么是大数据? 10