R 知识点回顾 Simple wor2vec Predict surrounding words in a window of length c of every word T J()=7∑∑g+) t=1-c<jc,j≠0 aardvark exp (wo Uwr WoUI 6 之ebTa w=1 ex p ∈R2U aardvark eb
知识点回顾: Simple word2vec • Predict surrounding words in a window of length c of every word
R 知识点回顾:Wora2vec&GoVe ·Word2yeC Efficient Estimation of Word representations in Vector Space. Mikolov et al (2013) ()=7∑∑1gp(m+o) t=1-c<j<c,j≠0 GloVe Glove: Global vectors for Word representation Pennington et al.(2014) aggregated global word-word co-occurrence statistics from a corpus ∑∫(P3)(m面-ogP
知识点回顾: Word2Vec & GloVe • Word2Vec – Efficient Estimation of Word Representations in Vector Space. Mikolov et al. (2013) • GloVe – Glove: Global Vectors for Word Representation. Pennington et al. (2014) – aggregated global word-word co-occurrence statistics from a corpus
R 深度学习词向量的语言模型(引言) 语言模型:判定一句话是否为自然语言 传统的NLP语言模型(以N-gram为例) 如何计算一个句子的概率? 机器翻译:P( high winds tonite)>P( large winds tonite) 拼写纠错:P( about fifteen minutes fron)>P( about fifteen minuets from 语音识别:P( I saw a van)>>P( eyes awe of an) 音字转换:P(你现在干什么 nixianzaiganshenme)>P(你西安 在干什么| nixianzaiganshenme) ·自动文摘、问答系统、 塔款大学⌒ 社会计算与信息检索研究中心
深度学习词向量的语言模型(引言) • 语言模型:判定一句话是否为自然语言 • 传统的NLP语言模型(以N-gram为例) – 如何计算一个句子的概率? • 机器翻译:P(high winds tonite) > P(large winds tonite) • 拼写纠错:P(about fifteen minutes from) > P(about fifteen minuets from) • 语音识别:P(I saw a van) >> P(eyes awe of an) • 音字转换:P(你现在干什么|nixianzaiganshenme) > P(你西安 在干什么|nixianzaiganshenme) • 自动文摘、问答系统、...
R 深度学习词向量的语言模型(引言) °传统的NLP语言模型(以 N-gram为例) 如何计算一个句子的概率? 问题形式化定义 p(S)=p(w1,w2,W3,W4W5,…,Wn) p(W1)p(Ww2|W1)p(W3|W1,W2).p(Wn|W1,w2,…Wn-1) p(w1p(w2 w1p(w3 w2).p(wn/wn-1) 其他语言模型 指数语言模型 最大熵模型Maκinηt、最大熵马尔科夫模型MEMM、条件随机域 模型CRF(平滑→语法、语义的加入) 神经概率语言模型 Bengio2003、 Nikolov2013等 塔款大学⌒ 社会计算与信息检索研究中心
深度学习词向量的语言模型(引言) • 传统的NLP语言模型(以N-gram为例) – 如何计算一个句子的概率? – 问题形式化定义 • p(S)=p(w1,w2,w3,w4,w5,…,wn) • =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) • =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) • 其他语言模型 – 指数语言模型 • 最大熵模型MaxEnt、最大熵马尔科夫模型MEMM、条件随机域 模型CRF(平滑→语法、语义的加入) – 神经概率语言模型 • Bengio2003、Mikolov2013等
R 深度学习语言模型都有哪些?(粗略) 2000年,徐伟,神经网络训练语言模型 <Can artificial Neural networks learn language Models?》 用神经网络构建二元语言模型(即P(wt|wt-1)的方 法 徐伟 杰出科字家 现任百度深度学习研究院杰出科学家”,负责深 度学习平台的开发以及算法的研究。 塔款大学⌒ 社会计算与信息检索研究中心
深度学习语言模型都有哪些?(粗略) • 2000年,徐伟,神经网络训练语言模型 – 《Can Artificial Neural Networks Learn Language Models?》 – 用神经网络构建二元语言模型(即 P(wt|wt−1))的方 法