如何预测? 预测遵循下面的步骤: 1.将数据分为训练集和测试集 2.用训练集构建模型 3.用测试集评估该模型 4.使用该模型预测未知值 11
如何预测? 预测遵循下面的步骤: 1. 将数据分为训练集和测试集 2. 用训练集构建模型 3. 用测试集评估该模型 4. 使用该模型预测未知值 11
数据集 特征 目标 Cylinder Engine Cons C02 Size 2 3 3 112 1 4 1 125 训练集 1 2 2 101 2 3 3 00 108 3 4 1 105 4 2 2 102 测试/评估集 2 3 3 121 1 2 4 … ? 预测集 12
数据集 12 Cylinder Engine Size Cons … C02 2 3 3 … 112 1 4 1 … 125 1 2 2 … 101 2 3 3 … 108 3 4 1 … 105 4 2 2 … 102 2 3 3 … 121 1 2 4 … ? 特征 目标 训练集 测试/评估集 预测集
创建训练和测试数据集 Creating train and test dataset msk np.random.rand(len(df))<0.8 train cdf[msk] test cdf[-msk] 13
创建训练和测试数据集 13
预测 ·算法: ·回归分析 ·简单回归 ·多元回归 ·线性回归 ·非线性回归 ·k-近邻方法 神经网络 ·支持向量机 14
预 测 • 算 法: • 回 归 分 析 • 简 单 回 归 • 多 元 回 归 • 线 性 回 归 • 非 线 性 回 归 • 濾- 近 邻 方 法 • 神 经 网 络 • 支 持 向 量 机 14
回归分析 ·简单回归: ·预测所有汽车的co2 emission与EngineSize的关系 ·因变量(y):co2 emission ·自变量(x:EngineSize ·多元回归: ·预测所有汽车的co2 emission与EngineSize和Cylinders的关系 ·因变量(y):co2 emission ·自变量(x:EngineSize,Cylinders,etc 15
回归分析 • 简单回归: • 预测所有汽车的 c瀂2e瀀i瀆瀆i瀂瀁 与 E瀁gi瀁eSi瀍e 的关系 • 因变量 (瀌): c瀂2e瀀i瀆瀆i瀂瀁 • 自变量 (瀋): E瀁gi瀁eSi瀍e • 多元回归: • 预测所有汽车的 c瀂2e瀀i瀆瀆i瀂瀁 与 E瀁gi瀁eSi瀍e 和 C瀌濿i瀁de瀅瀆 的关系 • 因变量 (瀌): c瀂2e瀀i瀆瀆i瀂瀁 • 自变量 (瀋): E瀁gi瀁eSi瀍e, C瀌濿i瀁de瀅瀆, e瀇c 15