当前位置：和泉文库 > 计算机 > 浏览文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine

文本处理 term处理文本的特性索引与检索倒排文件 Signature文件 PAT Tree Query处理相关反馈查询扩展

文件格式：PDF，文件大小：501.69KB，售价：23.22元

文档详细内容（约118页）

Porter算法(1980) 每一步有一组上下文无关或有关的规则用来删除后缀，或者将其转换为其它形式 ■上下文无关规则：sses→ss,ies→i,s→NULL ·上下文有关规则： (*v*):ed-→NULL,ing→NULL (*V)的含义是：词根必须包含一个元音 plastered->plaster bled→bled'删除词缀后，剩下的词干里没有元音 ·问题： ·需要大量的语言知识来定义规则 ·由于人类语言的复杂性，规则无法覆盖全部情况 ·规则依赖于语言

Porter算法 (1980) 每一步有一组上下文无关或有关的规则用来删除后缀，或者将其转换为其它形式上下文无关规则：sses → ss, ies → i, s → NULL 上下文有关规则： (*v*) : ed → NULL, ing → NULL (*v*)的含义是：词根必须包含一个元音 plastered → plaster bled → bled 删除词缀后，剩下的词干里没有元音问题：需要大量的语言知识来定义规则由于人类语言的复杂性，规则无法覆盖全部情况规则依赖于语言

后继变化数Successor Variety 基于对文本集合的统计分析 ·给定一个足够大的语料库，可以通过统计的方法获得词干 ■这种方法是自动的，和语言关联性不大的后继变化数的定义： ·语料库中跟在某个字符串后的不同字符的数 ■考虑英文词典 ·pr?->后继变化数是多少？ ·pro?->? ·pr和pro谁更像一个词根？ ·直觉：如果一个字符串的后继变化数值很低，则可能是一个词根

后继变化数Successor Variety 基于对文本集合的统计分析给定一个足够大的语料库, 可以通过统计的方法获得词干这种方法是自动的，和语言关联性不大的后继变化数的定义：语料库中跟在某个字符串后的不同字符的数考虑英文词典 pr? -> 后继变化数是多少？ pro? -> ? pr 和 pro 谁更像一个词根? 直觉：如果一个字符串的后继变化数值很低，则可能是一个词根

后继变化数的例子 Corpus Prefix Successor Variety Letters ABLE,APE R 3 E,l,0 BEATABLE RE 2 A,D FIXABLE REA 1 D READ READ 3 A,I,S READABLE READA 1 B READING READAB 1 L READS READABL 1 E RED READABLE 1 ROPE,RIPE BLANK

后继变化数的例子 Prefix Successor Variety Letters R 3 E,I,O RE 2 A,D REA 1 D READ 3 A,I,S READA 1 B READAB 1 L READABL 1 E READABLE 1 BLANK Corpus ABLE, APE BEATABLE FIXABLE READ READABLE READING READS RED ROPE, RIPE

切分 ■使用后继变化数信息切分词 ■cut off ·通过后继变化数的cutoff值识别边界 ▣当后继变化数>=阈值时，进行切分 ■考虑阈值=2 RIEIADIABLE ■尖峰和高地 ·在后继变化数比前后都大，出现尖峰的位置切开 READIABLE ■切出来的词必须完整 I如：READ

切分使用后继变化数信息切分词 cut off 通过后继变化数的cutoff值识别边界当后继变化数>=阈值时，进行切分考虑阈值 = 2 R|E|AD|ABLE 尖峰和高地在后继变化数比前后都大，出现尖峰的位置切开 READ|ABLE 切出来的词必须完整如：READ

其它term处理 ■英文词形态还原 Calculated,Calculating -Calculate ·Went->go,goes->go ■中文分词 ·举例 ■“他将来北京” 。“研究生命的起源” 。英文有没有分词问题？ ■有，例如“give in”(投降)，必须分词

其它term处理英文词形态还原 Calculated, Calculating -> Calculate Went->go, goes->go 中文分词举例 “他将来北京” “研究生命的起源” 英文有没有分词问题？有，例如“give in”（投降），必须分词

点击进入文档下载页（PDF格式）

共118页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning
《统计自然语言处理》课程教学资源（PPT课件讲稿）第7章汉语自动分词与词性标注
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）01 Introduction（主讲：彭波）The CCF Advanced Disciplines Lectures
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）02 Link Analysis
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）03 Web Spam
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）04 Recommendation System
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）05 Infrastructure and Cloud
河南科技学院：信息工程学院本科课程教学大纲汇编（计算机科学与技术专业）
广东茂名农林科技职业学院：计算机网络技术人才培养方案（2020级）
广东茂名农林科技职业学院：计算机网络技术专业人才培养方案（2021级）
广东茂名农林科技职业学院：动漫制作技术专业人才培养方案（2020级）
南京农业大学：《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming
广东茂名农林科技职业学院：电子商务专业人才培养方案（2019级）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录