信息检索与数据挖掘 2019/3/4 12 第3章词典查找及扩展的倒排索引 ●第一部分:如何建立词项词典? ●文档解析 ●词条化 ●停用词 ●词项归一化 ●词形归并 ●词干还原 ●第二部分:如何实现倒排记录表? ●合并算法回顾 ●基于跳表指针的快速合并算法 ●短语查询 12
信息检索与数据挖掘 2019/3/4 12 第3章 词典查找及扩展的倒排索引 第一部分:如何建立词项词典? 文档解析 词条化 停用词 词项归一化 词形归并 词干还原 第二部分:如何实现倒排记录表? 合并算法回顾 基于跳表指针的快速合并算法 短语查询 12
信息检索与数据挖掘 2019/3/4 13 什么是词条化(Tokeni zat ion) ●词条化:将给定的字符序列拆分成一系列子序列的 过程,其中每一个子序列称之为一个“词条”。 ●输入:“Friends,Romans and Countrymen” ●输出: 。Friends 词条(Tokens) 。Romans 词项(Terms) 。Coun trymen ●每个词条都作为候选的索引。 ●但是什么是有效的索引? "Friends,Romans,countrymen,lend me your ears"is the first line of a speech by Mark Antony in the play Julius Caesar,by William Shakespeare.Occurring in Act Ine Il,it is on of the most famous lines inallShakespeare's works. LEND ME YOUR EARS
信息检索与数据挖掘 2019/3/4 13 什么是词条化(Tokenization) 词条化:将给定的字符序列拆分成一系列子序列的 过程,其中每一个子序列称之为一个“词条” 。 输入: “Friends, Romans and Countrymen” 输出: • Friends • Romans • Countrymen 每个词条都作为候选的索引。 但是什么是有效的索引? 词条(Tokens) 词项(Terms) 13 "Friends, Romans, countrymen, lend me your ears" is the first line of a speech by Mark Antony in the play Julius Caesar, by William Shakespeare. Occurring in Act III, scene II, it is one of the most famous lines in all of Shakespeare's works
信息检索与数据挖掘 2019/3/4 14 词条化可能遇到的问题 ·FAST Five hundred meters Aperture Spherical Radio Telescope ·SUN Bai尚am Stanford University Network ·Sun Microsystems ·2009年被Oraclet收购 袋Sun microsystems 14
信息检索与数据挖掘 2019/3/4 14 词条化可能遇到的问题 • FAST • Five hundred meters Aperture Spherical Radio Telescope • SUN • Stanford University Network • Sun Microsystems • 2009年被Oracle收购 14
信息检索与数据挖掘 2019/3/4 15 词条化可能遇到的问题(英文) e.g.Finland's capital Finland?Finlands?Finland's? ●连字符问题? ·Hewlett-Packard→Hewlett和Packard是二个词条 吗? ·State--of-the-art ·Co-education ●空格问题? ·San Francisco是一个词条还是二个词条? ●连字符和空格相互影响 Lowercase,lower-case,lower case ●英文句号的考虑 ●IEEE802.3,802.11ax,X.509 15
信息检索与数据挖掘 2019/3/4 15 词条化可能遇到的问题(英文) e.g.:Finland’s capital Finland? Finlands? Finland’s? 连字符问题? • Hewlett-Packard Hewlett和Packard 是二个词条 吗? • State-of-the-art • Co-education 空格问题? • San Francisco是一个词条还是二个词条? 连字符和空格相互影响 Lowercase,lower-case,lower case 英文句号的考虑 IEEE 802.3, 802.11ax, X.509 15
信息检索与数据挖掘 2019/3/4 16 词条化可能遇到的问题(数字) .3/20/91Mar.12,1991 20/3/91 。Te1:63601000 (800)234-2333 ·查询2009至2011年间车祸死亡的人数 .B-52 AK-47 ·PGP密钥:324a3df234cb23e ·双11
信息检索与数据挖掘 2019/3/4 16 词条化可能遇到的问题(数字) • 3/20/91 Mar. 12, 1991 20/3/91 • Tel:63601000 (800) 234-2333 • 查询2009至2011年间车祸死亡的人数 • B-52 AK-47 • PGP 密钥:324a3df234cb23e • 双11