R 深度学习语言模型都有哪些?(粗略) 2003年, Bengio,三层的神经网络构建语言模型 《 A Neural Probabilistic Language model》 P -2)C Table MatrIx lok甲p across words index for we-e+I index for ly-: index for w,I 塔款大学⌒ 社会计算与信息检索研究中心
深度学习语言模型都有哪些?(粗略) • 2003年,Bengio,三层的神经网络构建语言模型 – 《A Neural Probabilistic Language Model》
R 深度学习语言模型都有哪些?(粗略) 2008, Ronan Collobert fh Jason Weston C&w model K Natural Language Processing(almost from Scratch> 2008, Andriy Mnih FA Geoffrey Hinton Ka scalable hierarchical distributed language model> 2010. Mikoloy RNNLM <Recurrent neural network based language model> 2012, Huang KImproving Word Representations via global Context and Multiple Word prototypes> 紧需款学 社会计算与信息检索研究中心
深度学习语言模型都有哪些?(粗略) • 2008,Ronan Collobert 和 Jason Weston – C&W model – 《Natural Language Processing (Almost) from Scratch》 • 2008,Andriy Mnih 和 Geoffrey Hinton – 《A scalable hierarchical distributed language model》 • 2010,Mikolov – RNNLM – 《Recurrent neural network based language model》 • 2012,Huang – 《Improving Word Representations via Global Context and Multiple Word Prototypes》
R j-th output=P(wr=/confer Bengio2003 Cw+-2 Table MatrIx k-甲 index for w-s. ndex for w)-? index for w)I Projection P Hidden L utput Layer v(Contea())□ v(Conte at(u)2) concatenate q (Conteat(w)n-1)D Sample:(Conteat(w), a) yuA
Bengio2003
R Bengio2003 Input L Output Laye v(Contert(u)u ( Coteau()2)□ neaten (Condeal(wn-1) aID GD a Sample:(Conteat(u), a) 该结构中的学习参数 输入的词向量vW),W属于 Dictionary 各层的参数WUpq 各层的规模 投影层:(n-1)*m,n为上下文词数,不超过5;m为词向量维度,10~10~3 隐藏层: n hidden,用户指定,一般为10~2量级 输出层:N,词表大小,语料相关,10~4~10~5量级 most computation here(也是Word2veC的主要优化点) 隐藏层to输出层的tanh 输出层的 softmax 塔款大学⌒ 社会计算与信息检索研究中心
Bengio2003 • 该结构中的学习参数 – 输入的词向量v(w), w属于Dictionary – 各层的参数WUpq • 各层的规模 – 投影层:(n-1)*m,n为上下文词数,不超过5;m为词向量维度,10~10^3 – 隐藏层:n_hidden,用户指定,一般为10^2量级 – 输出层:N,词表大小,语料相关,10^4~10^5量级 • most computation here (也是 word2vec 的主要优化点) – 隐藏层to输出层的tanh – 输出层的softmax
R Bengio2003 soflenax 计算公式推导 映射层 首尾拼接(n-1)*m,记作 隐藏层(未画出) 假设有h个节点 tanh(H*X+d) Table Matrix C 隐藏层与输出层权值矩阵为U(W) shared parameters 输出层 index for -e+l index for wr-? index for w)I 个节点, softmax为归一化概率y 公式为 y=b+Wa+Tanh(d+He) W矩阵 输入层与输出层(跨了两层)的直连边矩阵,线性变换 Bengio发现直连边虽然不能提升模型效果,但是可以少一半的迭代次数 同时他也猜想如果没有直连边,可能可以生成更好的词向量
Bengio2003 • 计算公式推导 – 映射层 • 首尾拼接(n-1)*m ,记作x – 隐藏层(未画出) • 假设有h个节点 • tanh(H*x + d) • 隐藏层与输出层权值矩阵为 U (|V|*h) – 输出层 • |V|个节点,softmax为归一化概率 y • 公式为 • W矩阵 – 输入层与输出层(跨了两层)的直连边矩阵,线性变换 – Bengio 发现直连边虽然不能提升模型效果,但是可以少一半的迭代次数 – 同时他也猜想如果没有直连边,可能可以生成更好的词向量