自然语言处理 自然语言处理 文本预处理:from raw text to cleaned text ~噪音消除(Noise Removal):去除与内容无关的文本,如 stopwords,is,am,the,of ·词汇规范化(Lexicon Normalization):将一个词的多种词态 还原 ~对象标准化(Object Standardization):名称、缩写等规范化 ~文本提取特征:text to features ·句法分析(Syntactic Parsing):语法树,依赖图(树) 年 实体提取(Entity Extraction):词组作为特征,N-Grams(N 个词构成的整体) 统计特征(Statistical Features):TF-IDF(词频,逆文档频率) ~词嵌入(Word Embedding):将词进行向量化表示(一种分 布式的特征表述,向量的不同维度用来表征不同特征,不同 维度上就代表着不同的语义),词向量 Frame-based NLP:Domain->Action/Intent>Slot ,意图检测(Intent Detection):分类器,SVM,CNN ~槽填充(Slot Filling):最大熵马尔科夫模型(MEMM),条件 随机场(CRF),RNN 口,·三·4告,进分Q0
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 自然语言处理 自然语言处理: ▶ 文本预处理:from raw text to cleaned text ▶ 噪音消除(Noise Removal):去除与内容无关的文本,如 stopwords, is, am, the, of 等 ▶ 词汇规范化(Lexicon Normalization):将一个词的多种词态 还原 ▶ 对象标准化(Object Standardization):名称、缩写等规范化 ▶ 文本提取特征:text to features ▶ 句法分析(Syntactic Parsing):语法树,依赖图(树) ▶ 实体提取(Entity Extraction):词组作为特征,N-Grams(N 个词构成的整体) ▶ 统计特征(Statistical Features):TF-IDF(词频,逆文档频率) ▶ 词嵌入(Word Embedding):将词进行向量化表示(一种分 布式的特征表述,向量的不同维度用来表征不同特征,不同 维度上就代表着不同的语义),词向量 ▶ Frame-based NLP: Domain → Action/Intent → Slot ▶ 意图检测(Intent Detection):分类器,SVM, CNN ▶ 槽填充(Slot Filling):最大熵马尔科夫模型(MEMM),条件 随机场(CRF),RNN
自然语言理解:语义解析(Semantic Parsing) 1.自然语言语句一→语法树、依赖图 2.根据字典,利用入演算→中间语言SNL 3.根据SNL的transition system语义→逻辑程序规则 一用户任务→规划目标 drink=N:入r.drink(r 一用户信息一环境知识 food=N:入r.food(r 一任务控制信息→执行步骤框架 left :N/PP:Af.Xr.Bu.leftrel(r,v)A f(y) “the drink to the right of a food” 忠 (W 部 Aff xdrink对 gxxA成 Mr .fx.3yright-relfx.yAfy) f AEf x.food(x) N:kx.food(x) PP:Ax food(x) N:Xx.3yright-rel(x.y)Afood(y) N:Xx.3y.right-rekx.y)Afoodry) N:2x.driek(x) SN :7g.Ax 3y-g(xright-rellx.y)Afood(y) S:x 3y.drinkd)Aright-rel(x.y)Afood(y) 4口◆4⊙t1三1=,¥9QC
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 自然语言理解:语义解析(Semantic Parsing)