梯度下降学习规则 。考察线性神经元(无阈值、有连续输出y(不单是 -1和1这样的离散值) 。y=w0+w1x1+.+wmxn 。训练权重w:使得如下函数最小 Ewo,w1,,w=2∑a-a2 其中,D是训练样本集(training set),(xa,tad)∈D 10/66
梯度下降学习规则 考察线性神经元 (无阈值、有连续输出 y (不单是 − 1 和 1 这样的离散值) y = w0 + w1x1 + ... + wnxn 训练权重 wi 使得如下函数最小 E[w0,w1, ..., wn] = 1 2 X d∈D (td − yd) 2 其中, D 是训练样本集 (training set), (xd, td) ∈ D 10 / 66
梯度下降学习规则 梯度: △w=-nVew] VE[w]= O a形1 wo OWn ae E[w1,w2] (W1w2 △w,=一00w WtAw1,w2+△W) -0w:2 =-0∑(-∑) =-n>(ta-ya)(-xa) =n∑a-yax η是学习率 11/66
梯度下降学习规则 梯度: ∇E[w] = [ ∂E ∂w0 , ..., ∂E ∂wn ] △wi = −η ∂E ∂wi = −η ∂ ∂wi 1 2 X d (td − yd) 2 = −η ∂ ∂wi 1 2 X d td − X i wixdi!2 = −η X d (td − yd)(−xdi) = η X d (td − yd)xdi △w = −η∇E[w] E[w1, w2] η 是学习率 11 / 66
随机梯度下降(SGD)算法 。批量学习(batch learning): w'=w-nVEDlw] 在整个数据集D上更新,目标函数为: Eplw]=1/2>(ta-ya)2 。随机梯度下降(stochastic gradient decent,.SGD) w=w-nVEdw 在单个样本上d更新,目标函数为: Ealw]=1/2(ta-ya)2 如果学习速率?足够小,随机梯度下降算法可以逼近批量 学习方法。 12/66
随机梯度下降(SGD)算法 批量学习(batch learning) : w ′ = w − η∇ED[w] 在整个数据集 D 上更新,目标函数为: ED[w] = 1/2X d (td − yd) 2 随机梯度下降(stochastic gradient decent, SGD) w ′ = w − η∇Ed[w] 在单个样本上 d 更新,目标函数为: Ed[w] = 1/2(td − yd) 2 如果学习速率 η 足够小,随机梯度下降算法可以逼近批量 学习方法。 12 / 66
训练样本提交方式 o批次大小batch size:the number of training samples in one pass,also called mini-batch.The higher the batch size,the more memory space needed ·把batch size大小的训练样本提交给神经网络训练一次 称为one pass/,iteration(一个批次) 。把全部训练样本提交给神经网络训练一次称为an epoch(一个回合) ·在随机梯度下降算法中,训练样本可通过以下方式提 交给神经网络 ①固定次序(1,2,3,.,0:每个样本顺序出现一次 2随机打乱次序(5,2,7,·,3):每个样本无序出现一次 (无放回) 3完全随机(4,1,7,1,5,4,.);每个样本无序出现多次 数(有放回) 13/66
训练样本提交方式 批次大小 batch size: the number of training samples in one pass, also called mini-batch. The higher the batch size, the more memory space needed 把 batch size 大小的训练样本提交给神经网络训练一次 称为 one pass/ iteration (一个批次). 把全部训练样本提交给神经网络训练一次称为 an epoch (一个回合). 在随机梯度下降算法中,训练样本可通过以下方式提 交给神经网络 1 固定次序(1, 2, 3, . . . , M):每个样本顺序出现一次 2 随机打乱次序 (5, 2, 7, . . . , 3):每个样本无序出现一次 (无放回) 3 完全随机(4, 1, 7, 1, 5, 4, . . .);每个样本无序出现多次 数(有放回) 13 / 66
7.2.2.采用阈值激活函数的神经元 Wn+1 n+1 i=1 )otherwise 把偏置吸收入权重 14/66
7.2.2. 采用阈值激活函数的神经元 xn+1 = −1, θ = wn+1 a = n P +1 i=1 wixi y = 1 , if a ≥ 0 0 , otherwise 把偏置吸收入权重 14 / 66