声学模型和语言模型 1956 语音识别系统的模型通常由声学模型和语言模型两部分组成, 分别对应于语音到音节概率的计算和音节到字概率的计算。 A.声学模型: 声学模型的任务是计算模型产生语音波形的概率。声学模型是 语音识别系统的重要组成部分,它占据着语音识别大部分的计 算开销,决定着语音识别系统的性能。传统的语音识别系统普 遍采用的是基于GMM-HMM的声学模型。 B.语言模型: 主要分为规则模型和统计模型两种。统计语言模型是用概率统 计的方法来揭示语言单位内在的统计规律,其中元语法简单有 效,被广泛使用。 语言模型的性能通常用交叉熵和复杂度来衡量。 电子科技大学信息与通信工程学院 16 201910/19
电子科技大学 宽带通信网络实验室 信息与通信工程学院 16 2019/10/19 声学模型和语言模型 语音识别系统的模型通常由声学模型和语言模型两部分组成, 分别对应于语音到音节概率的计算和音节到字概率的计算。 A.声学模型: 声学模型的任务是计算模型产生语音波形的概率。声学模型是 语音识别系统的重要组成部分,它占据着语音识别大部分的计 算开销,决定着语音识别系统的性能。传统的语音识别系统普 遍采用的是基于GMM-HMM的声学模型。 B.语言模型: 主要分为规则模型和统计模型两种。统计语言模型是用概率统 计的方法来揭示语言单位内在的统计规律,其中n元语法简单有 效,被广泛使用。 语言模型的性能通常用交叉熵和复杂度来衡量
系统类型 STC 1956 语音识别系统通常按功能分为: A.听写机:大词汇量、非特定人、连续语音识别系统 通常称为听写机。 B.对话系统:用于实现人机口语对话的系统称为对话 系统。受当前技术所限,对话系统往往是面向一个 狭窄领域、词汇量有限的系统,其题材有旅游查询、 订票、数据库检索等等。 电子科技大学信息与通信工程学院 2019/10/19
电子科技大学 宽带通信网络实验室 信息与通信工程学院 17 2019/10/19 系统类型 语音识别系统通常按功能分为: A. 听写机:大词汇量、非特定人、连续语音识别系统 通常称为听写机。 B. 对话系统:用于实现人机口语对话的系统称为对话 系统。受当前技术所限,对话系统往往是面向一个 狭窄领域、词汇量有限的系统,其题材有旅游查询、 订票、数据库检索等等
2.3语音识别典型算法 1956 发展历程: ·语音识别的研究起源于1950年代,码本生成算法(LBG) 和线性预测编码(LP℃)的出现,促进了语音识别的发展。 0 1980年代是语音识别快速发展的时期,其中两个关键技术 是隐马尔科夫模型(HMM)的理论和应用趋于完善以及 NGrami语言模型的应用。基于GMM-HMM的语音识别框架在此 后很长一段时间内一直是语音识别系统的主导框架。 。 2009年,辛顿以及他的学生默罕默德(D.Mohamed)将深 度神经网络应用于语音的声学建模获得成功。大量研究人 员开始转向基于DNN-HMM的语音识别系统的研究。 电子科技大学信息与通信工程学院 18 201910/19
电子科技大学 宽带通信网络实验室 信息与通信工程学院 18 2019/10/19 2.3语音识别典型算法 发展历程: • 语音识别的研究起源于1950年代,码本生成算法(LBG) 和线性预测编码(LPC)的出现,促进了语音识别的发展。 • 1980年代是语音识别快速发展的时期,其中两个关键技术 是隐马尔科夫模型(HMM)的理论和应用趋于完善以及 NGram语言模型的应用。基于GMM-HMM的语音识别框架在此 后很长一段时间内一直是语音识别系统的主导框架。 • 2009年,辛顿以及他的学生默罕默德(D. Mohamed)将深 度神经网络应用于语音的声学建模获得成功。大量研究人 员开始转向基于DNN-HMM的语音识别系统的研究
2.3语音识别典型算法 STc 1956 比较常用的语音识别算法有: 1.基于模板匹配的动态时间规整 (DTW) 2.基于统计模型的隐马尔柯夫模型(HMM) 3.基于神经网络的识别(ANN) 电子科技大学信息与通信工程学院 19 201910/19
电子科技大学 宽带通信网络实验室 信息与通信工程学院 19 2019/10/19 2.3语音识别典型算法 比较常用的语音识别算法有: 1. 基于模板匹配的动态时间规整(DTW) 2. 基于统计模型的隐马尔柯夫模型(HMM) 3. 基于神经网络的识别(ANN) ……
模板匹配与动态时间规整(DTW 1956 语音识别中不能简单的将输入模板与参考模板作比较,因 为语音信号具有相当大的随机性,同一个人在不同时刻的 同一句话,也不可能具有相同的时间长度,因此时间规整 是必不可少的。 DTW是一个典型的最优化问题,它用满足一定条件的时间 规整函数描述输入模板和参考模板的时间对应关系,求解 二模板匹配时累计距离最小所对应得规整函数。 DTW方法比较适用于识别基元较小的场合,因此多用于孤 立词的识别。 电子科技大学信息与通信工程学院 20 201910/19
电子科技大学 宽带通信网络实验室 信息与通信工程学院 20 2019/10/19 模板匹配与动态时间规整(DTW) • 语音识别中不能简单的将输入模板与参考模板作比较,因 为语音信号具有相当大的随机性,同一个人在不同时刻的 同一句话,也不可能具有相同的时间长度,因此时间规整 是必不可少的。 • DTW是一个典型的最优化问题,它用满足一定条件的时间 规整函数描述输入模板和参考模板的时间对应关系,求解 二模板匹配时累计距离最小所对应得规整函数。 • DTW方法比较适用于识别基元较小的场合,因此多用于孤 立词的识别