当前位置：和泉文库 > 计算机 > 浏览文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine

文本处理 term处理文本的特性索引与检索倒排文件 Signature文件 PAT Tree Query处理相关反馈查询扩展

文件格式：PDF，文件大小：501.69KB，售价：23.22元

文档详细内容（约118页）

Stemming 克服词形的变化，把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点：。减少不同term的数量 ·识别相似的词 ·改进了检索性能，但不采用语言分析的方法 ■Stemming的缺点： ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的，这就错了

Stemming 克服词形的变化，把所有同根词转变为单一形式 RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION Stemming的优点: 减少不同term的数量识别相似的词改进了检索性能，但不采用语言分析的方法 Stemming的缺点：正确率显然达不到100% 不正确的stemming算法可能改变词的含义需要避免过分的截断 MEDICAL和MEDIA被识别为MED*，并被认为是意义相近的，这就错了

异文合并(Conflation)方法异文合并方法手工自动(Stemmers) 删除词缀后继变化数 Successor 查表 N-gram Variety 最长匹配简单删除

异文合并(Conflation)方法异文合并方法手工自动 (Stemmers) 删除词缀后继变化数 Successor Variety 查表 N-gram 最长匹配简单删除

查表 ■创建一个term和stem的对应表 TERM STEM engineering engineer engineered engineer engineer engineer ■表可以被索引起来，以便加快查找速度 ■创建这样的表很困难 ■存储空间的开销较大

查表创建一个term和stem的对应表表可以被索引起来，以便加快查找速度创建这样的表很困难存储空间的开销较大 TERM STEM engineering engineer engineered engineer engineer engineer

词缀删除算法词缀删除算法将term的前缀和/或后缀删除，留下词干 ■大多数算法删除后缀，例如：-SES,-ATION, ING等等 ■最长匹配 ■从词中删除最长匹配的后缀： computability-->comput singing-->sing avoid:ability->NULL,sing->s ▣迭代式最长匹配。重复最长匹配的过程： ·WILLINGNESS->删除NESS->删除ING

词缀删除算法词缀删除算法将term的前缀和 /或后缀删除，留下词干大多数算法删除后缀，例如：-SES, -ATION, - ING等等最长匹配从词中删除最长匹配的后缀: computability --> comput singing --> sing avoid: ability ->NULL, sing->s 迭代式最长匹配重复最长匹配的过程： WILLINGNESS --> 删除NESS --> 删除ING

上下文有关和上下文无关 ■上下文无关 ·根据后缀表删除后缀（或基于规则集） ■上下文有关 ■考虑词的其它性质，例如： .happily→happi-→happy ·定义一个上下文敏感的转换规则：如果一个词根以结尾，ⅰ 前面是p,那么将转换为y ■需要控制许多例外规则 ·从TABLE中删除-ABLE不行，从GAS中删除-S也不行 ·有时需要删除“双写字母” ·FORGETTING→FORGET

上下文有关和上下文无关上下文无关根据后缀表删除后缀 (或基于规则集 ) 上下文有关考虑词的其它性质，例如： happily → happi → happy 定义一个上下文敏感的转换规则：如果一个词根以i结尾，i 前面是 p，那么将i转换为 y 需要控制许多例外规则从TABLE中删除-ABLE不行，从GAS中删除-S也不行有时需要删除 “双写字母 ” FORGETTING → FORGET

点击进入文档下载页（PDF格式）

共118页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning
《统计自然语言处理》课程教学资源（PPT课件讲稿）第7章汉语自动分词与词性标注
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）01 Introduction（主讲：彭波）The CCF Advanced Disciplines Lectures
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）02 Link Analysis
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）03 Web Spam
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）04 Recommendation System
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）05 Infrastructure and Cloud
河南科技学院：信息工程学院本科课程教学大纲汇编（计算机科学与技术专业）
广东茂名农林科技职业学院：计算机网络技术人才培养方案（2020级）
广东茂名农林科技职业学院：计算机网络技术专业人才培养方案（2021级）
广东茂名农林科技职业学院：动漫制作技术专业人才培养方案（2020级）
南京农业大学：《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming
广东茂名农林科技职业学院：电子商务专业人才培养方案（2019级）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录