数据科学论 —Python之道 第9课机器学习 本课程基于BigDataUniversity.com.cn的《Data science with Python Bootcamp》 进行了重新组织与扩充 1
数据科学引论 —— Python之道 第9课 机器学习 本课程基于BigDa瀇aU瀁i瀉e瀅瀆i瀇瀌.c瀂瀀.c瀁的《Da瀇a 瀆cie瀁ce 瀊i瀇h P瀌瀇h瀂瀁 B瀂瀂瀇ca瀀瀃》 进行了重新组织与扩充 1
Snapchat 器 0 ●●●● ●●●●●● ●●●● ●●●●● 2
Snapchat 2
XBox Kinect 公 3
XBox Kinect 3
数据科学方法学 Business Analytic Data Data Data Understanding Approach Requirements Collection Understanding Prediction Interpretation DEPLOY! Justification 和养 Testing Feedback Deployment Evaluation Modeling Data Preparation 4
B瀈瀆i瀁e瀆瀆 U瀁de瀅瀆瀇a瀁di瀁g 数据科学方法学 M瀂de濿i瀁g Da瀇a P瀅e瀃a瀅a瀇i瀂瀁 Da瀇a Re瀄瀈i瀅e瀀e瀁瀇瀆 Feedbac濾 De瀃濿瀂瀌瀀e瀁瀇 P瀅edic瀇i瀂瀁 I瀁瀇e瀅瀃瀅e瀇a瀇i瀂瀁 J瀈瀆瀇ifica瀇i瀂瀁 Te瀆瀇i瀁g Da瀇a C瀂濿濿ec瀇i瀂瀁 E瀉a濿瀈a瀇i瀂瀁 Da瀇a U瀁de瀅瀆瀇a瀁di瀁g A瀁a濿瀌瀇ic A瀃瀃瀅瀂ach 4
主要的分析方法与算法 ·关联分析Associations ·例如:频繁共现项 ·算法:Apriori关联规则 ·分类Classification ·例如:事物类别预测(prediction of item class) ·算法:决策树D3,C4.5,C5.0),分类与回归树(CART),支持向量机(SVM), 神经网络(NN),朴素贝叶斯(Naive Bayes),卡方自动交叉检验(CHAID) ·评估/预测Estimation/Prediction ·预测连续值 ·算法:回归,支持向量机(SVM),K-近邻(KNN) ·聚类Clustering ·例如:查找患者群 ·算法:k-均值,分层聚类 5
主要的分析方法与算法 • 关联分析 A瀆瀆瀂cia瀇i瀂瀁瀆 • 例如: 频繁共现项 • 算法: A瀃瀅i瀂瀅i关联规则 • 分类 C濿a瀆瀆ifica瀇i瀂瀁 • 例如: 事物类别预测(瀃瀅edic瀇i瀂瀁 瀂f i瀇e瀀 c濿a瀆瀆) • 算法: 决策树(ID3, C4.5, C5.0), 分类与回归树(CART), 支持向量机(SVM), 神经网络(NN), 朴素贝叶斯(Naï瀉e Ba瀌e瀆),卡方自动交叉检验(CHAID) • 评估/预测 E瀆瀇i瀀a瀇i瀂瀁/P瀅edic瀇i瀂瀁 • 预测连续值 • 算法: 回归, 支持向量机(SVM), K-近邻(KNN) • 聚类 C濿瀈瀆瀇e瀅i瀁g • 例如: 查找患者群 • 算法: 濾-均值, 分层聚类 5