信息检索与数据挖掘 2019/3/4 17 词条化可能遇到的问题(中文) Out of Vocabulary ·人名、地名、机构名 ·一些新词、流行词 ·重要的事情说三遍、世界那么大,我想去看看、城会玩、为国护 盘、明明可以靠脸吃饭,却偏偏要靠才华、我想静静、吓死宝宝 了、内心几乎是崩溃的、我妈是我妈、主要看气质… ·Ambiguity ·同一句子有多种可能的分词结果 ·南京市长江大桥南京市长江大桥 ·我们小组合成氢气 我们小组合成氢气 。发展中国家 发展中国家 17
信息检索与数据挖掘 2019/3/4 17 词条化可能遇到的问题(中文) • Out of Vocabulary • 人名、地名、机构名 • 一些新词、流行词 • 重要的事情说三遍、世界那么大,我想去看看、城会玩、为国护 盘、明明可以靠脸吃饭,却偏偏要靠才华、我想静静、吓死宝宝 了、内心几乎是崩溃的、我妈是我妈、主要看气质…… • Ambiguity • 同一句子有多种可能的分词结果 • 南京市_长江大桥 南京市长_江大桥 • 我们小组_合成氢气 我们小_组合成氢气 • 发展中_国家 发展_中国_家 17
信息检索与数据挖掘 2019/3/4 18 补充:数学之美系列二-一谈谈中文分词 最容易想到的,也是最简单的分词办法就是查字典。这种 方法最早是由北京航天航空大学的梁南元教授提出的。用 “查字典”法,其实就是我们把一个句子从左向右扫描 一 遍,遇到字典里有的词就标识出来,遇到复合词(比如 上海大学”)就找最长的词匹配,遇到不认识的字串就分 割成单字词,于是简单的分词就完成了。这种简单的分词 方法完全能处理上面例子中的句子。 ·八十年代,哈工大的王晓龙博士把它理论化,发展成最少 词数的分词理论,即一句话应该分成数量最少的词串。这 种方法一个明显的不足是当遇到有二义性(有双重理解意 思)的分割时就无能为力了。 ·90年前后,清华大学的郭进博士用统计语言模型成功解决 分词二义性问题,将汉语分词的错误率降低了一个数量级 基于字符串>基于统计 18
信息检索与数据挖掘 2019/3/4 18 补充:数学之美 系列二 -- 谈谈中文分词 • 最容易想到的,也是最简单的分词办法就是查字典。这种 方法最早是由北京航天航空大学的梁南元教授提出的。用 “查字典” 法,其实就是我们把一个句子从左向右扫描一 遍,遇到字典里有的词就标识出来,遇到复合词(比如 “ 上海大学”)就找最长的词匹配,遇到不认识的字串就分 割成单字词,于是简单的分词就完成了。这种简单的分词 方法完全能处理上面例子中的句子。 • 八十年代,哈工大的王晓龙博士把它理论化,发展成最少 词数的分词理论,即一句话应该分成数量最少的词串。这 种方法一个明显的不足是当遇到有二义性 (有双重理解意 思)的分割时就无能为力了。 • 90年前后,清华大学的郭进博士用统计语言模型成功解决 分词二义性问题,将汉语分词的错误率降低了一个数量级 。 18 基于字符串基于统计
信息检索与数据挖掘 2019/3/4 19 词条化的策略 ●针对不同的语言,采取不同策略的词条化 ●分词的基本方法: ●基于词典的最大匹配法 ●机器学习 正向最大匹配(基于词典的方法) 0 123456 豆丁 他说的确实在理 逆向最大匹配(基于词典的方法) 指针位置 剩余词串 首字 最大匹配词条 他说的确实在理 他 T他 123 45 6 豆丁 1 说的确实在理 说 说 他说的确实在理 2 的确实在理 的 的确 4 实在理 实 实在 指针位置 八剩余词串 尾字 最大匹配词条 6 理 理 理 6 他说的确实在理 理” 在理 4 他说的确实 实 确实 2 他说的 的 的 1 他说 说 说 0 他 他 他 19
信息检索与数据挖掘 2019/3/4 19 词条化的策略 针对不同的语言,采取不同策略的词条化 分词的基本方法: 基于词典的最大匹配法 机器学习 19
信息检索与数据挖掘 2019/3/4 20 词条化可能遇到的问题(语言问题) 。中文和日文词之间没有间隔: ·莎拉波娃现在居住在美国东南部的佛罗里达。 ·分词结果无法保证百分百正确 ·日文中可以同时使用多种类型的字母表 ·日期/数字可以采用不同的格式 7才一于ュ之500社仗情報不足D左地時間范左S500K6,000方円 片假名 平假名 汉字 罗马字母 而终端用户可能完全用平假名方式输入查询!
信息检索与数据挖掘 2019/3/4 20 词条化可能遇到的问题(语言问题) • 中文和日文词之间没有间隔: • 莎拉波娃现在居住在美国东南部的佛罗里达。 • 分词结果无法保证百分百正确 • 日文中可以同时使用多种类型的字母表 • 日期/数字可以采用不同的格式 フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) 片假名 平假名 汉字 罗马字母 而终端用户可能完全用平假名方式输入查询!
信息检索与数据挖掘 2019/3/4 21 词条化可能遇到的问题(语言问题) 阿拉伯文(或希伯来文)通常从右到左书写,但是 某些部分(如数字)是从左到右书写 •词之间是分开的,但是单词中的字母形式会构成复 杂的连接方式 del o 1321962 o ←开始 .Algeria achieved its independence in 1962 after 132 years of French occupation
信息检索与数据挖掘 2019/3/4 21 词条化可能遇到的问题(语言问题) • 阿拉伯文 (或希伯来文) 通常从右到左书写,但是 某些部分(如数字)是从左到右书写 • 词之间是分开的,但是单词中的字母形式会构成复 杂的连接方式 • ← → ← → ← 开始 • ‘Algeria achieved its independence in 1962 after 132 years of French occupation.’