当前位置：和泉文库 > 计算机 > 浏览文档

电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）线性模型

线性回归 ●最小二乘法 ●梯度下降二分类任务 ●对数几率回归-Logistic Regression ●线性判别分析-Linear Discriminate Analysis 多分类任务 ●一对一 ●一对其余 ●多对多类别不平衡问题

文件格式：PDF，文件大小：7.99MB，售价：12.18元

文档详细内容（约43页）

Review:Gradient descent Gradient:Loss的等高線的法線方向 L(00) Start at position 00 80 L(0) Compute gradient at 00 01 ↑7L(02) Move to 01=00-nVL(00) ◆ Gradient 82 Compute gradient at 01 →Movement r.( 83 Move to 02=01-nVL(01) ●： 01 -Machine Learning http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

Review: Gradient Descent Start at position �0 Compute gradient at �0 Move to �1 = �0 - η�� 0 Compute gradient at �1 Move to �2 = �1 – η�� 1 Movement Gradient …… �0 �1 �2 �3 �� 0 �� 1 �� 2 �� 3 �1 �2 Gradient: Loss 的等高線的法線方向 – Machine Learning http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

线性回归-梯度下降 m J(o,1..,0n)=∑(ho(c0,x1,.cn)-i)2 ha(c0,x1,.xn)=∑0x i=0 i=0 算法过程： 1.确定当前位置的损失函数的梯度，对于日，其梯度表达式如下：是J,,n）=六(h(,,…z以)-6z =0 2.用步长（学习率）乘以损失函数的梯度，得到当前位置下降的距离，即 a需(，1，n)对应于前面图中例子中的某一步。 3.确定是否所有的日，梯度下降的距离都小于ε，如果小于ε则算法终止，当前所有的0(i=0,1.n)即为最终结果。否则进入步骤4. 4.更新所有的0，对于0，其更新表达式如下。更新完毕后继续转入步骤1. m =0:-a0J(,1…,n)=h-a六(h(,,…i)-)z =0

/!H :3D9 1. 7#?6&'6/! θi /!@C" 2.51G( 4)&'6/!$#?H6A8 I 6.1 3.7)%,6θi , /!H6A8F ε- ε :3;0 #%,6θi (i=0,1,...n)+;<-E1J4. 4.*(%,6θ θi *(@C"*(2=>B1J1.

0=01-7NL(0-） Learning Rate Set the learning rate n carefully If there are more than three Loss parameters,you cannot visualize this. Very Large small Large Loss Just make No.of parameters updates But you can always visualize this. -Machine Learning http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

Learning Rate No. of parameters updates Loss Loss Very Large Large small Just make 1 1 i i i T T K L T Set the learning rate η carefully If there are more than three parameters, you cannot visualize this. But you can always visualize this. – Machine Learning http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

其它优化方法 Momentum Nesterov Adagrad Adadelta-Adagrad扩展 RMSprop-Adadelta特例 Adam-带Momentum的RMSprop(最多) Adamax-Adam变体 Nadam-带Nesterov动量项的Adam ●●●●●● AMSGRAD 2018 ICLR Best paper

Momentum Nesterov Adagrad Adadelta – Adagrad RMSprop – Adadelta Adam – MomentumRMSprop() Adamax – Adam Nadam – NesterovAdam AMSGRAD – 2018 ICLR Best paper

Momentum,Nesterov Momentum update Nesterov momentum update "lookahead"gradient step (bit different than momentum momentum original) step step actual step actual step gradient step t时刻的下降方向，不仅由当前点的 t的主要下降方向是由累积动量决定的，梯度方向决定，而且由此前累积的下自己的梯度方向说了也不算，那与其看降方向决定。当前梯度方向，不如先看看如果跟着累 B1的经验值为0.9，这就意味着下降积动量走了一步，那个时候再怎么走。方向主要是此前累积的下降方向，并因此，NAG计算如果按照累积动量走了略微偏向当前时刻的下降方向。想象步，那个时候的下降方向高速公路上汽车转弯，在高速向前的同时略微偏向，急转弯可是要出事的

Momentum, Nesterov t 2=S1;*9= 5(1$D;6B@= S1$ β1=CT 0.9O%/ ?S 1F36B@=S1' <+*2=S1.I UPL8MN)"UP= 2<+-N)3F= t =FS13;B@R$= E&=5(1H AQ> *5(1#>>#4K?B @RJ7Q 2,J !6NAGGA#40:B@RJ 7Q 2=S1

点击进入文档下载页（PDF格式）

共43页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）模型评估与选择
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）绪论
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 25 软件开发的新方法 New Methodology（Agile方法）
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 24 软件工程中的高级课题 Advanced Topics in Software Engineering
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 23 软件过程、管理与质量 Software Process, Management, and Quality
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 22 面向对象软件工程 Object-Oriented Software Engineering（Unified Modeling Language, UML）
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 21 传统软件工程方法 Conventional Methods for Software Engineering
《软件工程 Software Engineering》课程教学资源：软件文档编写指南
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）第三部分软件过程、管理与质量
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）第二部分面向对象软件工程（标准建模语言UML）
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）第一部分传统软件工程方法（李宣东）
南京大学技术报告：Brief Introduction to UML 2.0（3/3）State Machine Modeling in UML2.0（for SEG seminar）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）决策树
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子力学
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）聚类算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）分类算法（朱钦圣）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）降维算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）隐马尔科夫算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子机器学习（量子K-means算法）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子支持向量机（support vector machine, SVM）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子神经网络（Neural Network，NN）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子降维算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）Lecture 01 Overview Data Analysis and Data Mining（李晓瑜）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）Lecture 02 Raw Data Analysis and Pre-processing（2.5-2.7）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录