16 2文本处理技术 2.1文本的采集 口手写输入 手写输入系统会用到各种手写板。手写板主要分为三类:电阻式压力 板、电磁式感应板和电容式触控板。 ˉ目前电阻式压力手写板技术落后,几乎已经被市场淘汰。电容式触 控手写板由于具有耐磨损、使用简便、敏感度高等优点,是目前的 主流手写板。 河南中医学院/许成刚(13937107985,Xcg@hactcm.edu.cn)/阮晓龙(13938213680,rxl@hactcm.edu.cn)
河南中医学院 / 许成刚(13937107985,xcg@hactcm.edu.cn) / 阮晓龙(13938213680,rxl@hactcm.edu.cn) 2.文本处理技术 手写输入 ◼ 手写输入系统会用到各种手写板。手写板主要分为三类:电阻式压力 板、电磁式感应板和电容式触控板。 ◼ 目前电阻式压力手写板技术落后,几乎已经被市场淘汰。电容式触 控手写板由于具有耐磨损、使用简便、敏感度高等优点,是目前的 主流手写板。 16 2.1文本的采集
17 2文本处理技术 2.1文本的采集 口语音输入技术 语音识别过程原理上是将语音提取特征参数(参数主要是音调、强 度和反映发音器官共振特性的一些值),按参数转化为语音单元 (音素或音节),语音单元按语言规则转为汉字。 语音识别之前,要用大量的语料(录音的数字语音)和大量的语言 文本进行训练,用来提取参数。最后得到的汉字会有不少错误,特 别是同音不同字的错误,要进行纠错。所以运算量和存储量很大 Window7自带语音控制系统。我们只需点击屏幕左下角的“开始 在搜索栏里输入汉字“语音”,就能找到这个功能。 河南中医学院/许成刚(13937107985,Xcg@hactcm.edu.cn)/阮晓龙(13938213680,rxl@hactcm.edu.cn)
河南中医学院 / 许成刚(13937107985,xcg@hactcm.edu.cn) / 阮晓龙(13938213680,rxl@hactcm.edu.cn) 2.文本处理技术 语音输入技术 ◼ 语音识别过程原理上是将语音提取特征参数(参数主要是音调、强 度和反映发音器官共振特性的一些值),按参数转化为语音单元 (音素或音节),语音单元按语言规则转为汉字。 ◼ 语音识别之前,要用大量的语料(录音的数字语音)和大量的语言 文本进行训练,用来提取参数。最后得到的汉字会有不少错误,特 别是同音不同字的错误,要进行纠错。所以运算量和存储量很大。 ◼ Window7自带语音控制系统。我们只需点击屏幕左下角的“开始” , 在搜索栏里输入汉字“语音”,就能找到这个功能。 17 2.1文本的采集
18 2文本处理技术 2.1文本的采集 口语音输入技术 第一次打开它的用户需根据提示完成初始化,以后就可以即开即用 了。特别有趣的是,Win7的语音识别还有学习能力,你对它相处的 时间越长,它对你的理解能力也越好,甚至连口音、方言都能听懂。 Windows7语音识别安装界面 河南中医学院/许成刚(13937107985,Xcg@hactcm.edu.cn)/阮晓龙(13938213680,rxl@hactcm.edu.cn)
河南中医学院 / 许成刚(13937107985,xcg@hactcm.edu.cn) / 阮晓龙(13938213680,rxl@hactcm.edu.cn) 2.文本处理技术 语音输入技术 ◼ 第一次打开它的用户需根据提示完成初始化,以后就可以即开即用 了。特别有趣的是,Win7的语音识别还有学习能力,你对它相处的 时间越长,它对你的理解能力也越好,甚至连口音、方言都能听懂。 18 2.1文本的采集 Windows7 语音识别安装界面
2文本处理技术 2.1文本的采集 口语音输入技术 Windows7语音输入功能可以通过语音键入文本 Windows7语音识别训练界面 河南中医学院/许成刚(13937107985,Xcg@hactcm.edu.cn)/阮晓龙(13938213680,rxl@hactcm.edu.cn)
河南中医学院 / 许成刚(13937107985,xcg@hactcm.edu.cn) / 阮晓龙(13938213680,rxl@hactcm.edu.cn) 2.文本处理技术 语音输入技术 ◼ Windows7 语音输入功能可以通过语音键入文本 19 2.1文本的采集 Windows7 语音识别训练界面
20 2文本处理技术 22文本的储存与压缩技术 ¤文本压缩是根据一定的算法对大量文本信息进行编码,以 达到信息压缩存储的作用,被压缩的数据能够通过解码, 还原到压缩前的文本,避免信息的流失。 ¤文本的压缩算法主要有哈夫曼编码、算数编码等无损压缩 和预测编码、量化、变换编码等有损压缩。 口哈夫曼算法是一种基于统计的压缩方法。它的本质就是对 文本文件中的字符进行重新编码对于使用频率越高的字符, 其编码也越短。 河南中医学院/许成刚(13937107985,Xcg@hactcm.edu.cn)/阮晓龙(13938213680,rxl@hactcm.edu.cn)
河南中医学院 / 许成刚(13937107985,xcg@hactcm.edu.cn) / 阮晓龙(13938213680,rxl@hactcm.edu.cn) 2.文本处理技术 文本压缩是根据一定的算法对大量文本信息进行编码,以 达到信息压缩存储的作用,被压缩的数据能够通过解码, 还原到压缩前的文本,避免信息的流失。 文本的压缩算法主要有哈夫曼编码、算数编码等无损压缩 和预测编码、量化、变换编码等有损压缩。 哈夫曼算法是一种基于统计的压缩方法。它的本质就是对 文本文件中的字符进行重新编码,对于使用频率越高的字符, 其编码也越短。 20 2.2文本的储存与压缩技术