数据分析与数据挖掘 第三章:线性模型
目录 口线性回归 ● 最小二乘法 ●梯度下降 口二分类任务 ● 对数几率回归-Logistic Regression 线性判别分析-Linear Discriminate Analysis 口多分类任务 一对一 一对其余 多对多 类别不平衡问题
p l l p l – Logistic Regression l – Linear Discriminate Analysis p l !! l ! l p
线性模型 分类 回归 △ △ 线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数 f()=w11+w2x2 +...+wdxd+b 向量形式:f(x)=wx+b 简单、基本、可理解性好
(linear model)$'% ! &") ( #
线性模型优点 口形式简单、易于建模 口可解释性 ▣非线性模型的基础 。引入层级结构或高维映射 ▣ 一个例子 综合考虑色泽、根蒂和敲声来判断西瓜好不好 其中根蒂的系数最大,表明根蒂最要紧;而敲声的系数比色泽大,说 明敲声比色泽更重要 “f好瓜(c)=0.2·x色泽十0.5·x根蒂十0.3·x敲声十1
p .E!( p >@ p B2(,- l 13&C4" p D l 5 6:8*E'9% <+ l '9,/$; '9$=07,/)8*? )8*#A=
线性回归((linear regression) f(x)=wc;+b使得 学得一个线性模型以尽可能 准确地预测实值输出标记。 离散属性的处理:若有“序”(order),则连续化; 否则,转化为k维向量 Cost function 令均方误差最小化,有(w,b*)=argmin(f(a,)-)2 (w,b) i=1 m arg min (-w,-b) (w,b) i=1 对Eu,)=入(5-w:-b)2 进行最小二乘参数估计 i=1 (least square method)
-$" (linear regression) ,%$+* 0) !(order)6. 4 k /7 '3 () # 51(C2 least square method