当前位置：和泉文库 > 计算机 > 浏览文档

北京大学：《数据结构与算法》课程教学资源（实习讲义）搜索引擎技术介绍

文件格式：PDF，文件大小：282.18KB，售价：2.3元

文档详细内容（约9页）

2 信息检索模型(2/2) 根据信息论原理，信息单位出现的频率越大，携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小，比如汉语中的“的”，英语中的 “the”。基于这一原理，“逆文本频率指数”（Inverse Document Frequency, IDF）通常被用来计算关键词的权重。关键词t的IDF值可以被表示为： IDF(t) = log( N/ df(t) ) 其中N是所有文档总数， df(t)表示单词t的文档频率(Document Frequency)，即单词t在多少篇文档中出现。 IDF是一个单词在语言中的统计特性，所以少量新文档加入对它影响很小，可以一次计算后作为单词的属性使用。把TF(t, d)定义为单词t在文档d中的出现频率，那么文档d中关键词t的权重可以表示为： Weight(t, d) = TF(t, d) * IDF(t) 其中，IDF(t)对单词t来说是一个全局权值，而TF(t, d)则是单词t在文档d中的局部权值。原理根据TF*IDF公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。信息检索系统的评价标准 “效率”几乎是任何计算机系统都需要考虑的问题，比如算法的时空效率，对于信息检索系统，重要的效率指标通常有：系统的查询响应时间（Response time）系统的查询吞吐量（Request throughput）。 “效果”关注用户需求的满足程度，对于信息检索系统通常有两个指标：查全率（Recall）和查准率（Precision）。查全率定义为检索结果集中的相关文档占整个文档全集中的相关文档的百分比查准率定义为检索结果集中与用户查询相关的文档占整个检索结果中所有文档的百分比。查全率是衡量检索系统取回相关信息的能力，查准率是衡量检索系统拒绝非相关信息的能力。实验证明，在信息检索中，查全率和查准率之间存在着相反的相互依赖关系，即查准率和查全率往往不能两全其美，通常查准率高时，查全率低；查全率高时，查准率低。 Web搜索引擎的难点数据数据规模巨大且增长快比如，Web上的网页量级是billion，中国的web页面就有几十亿！ Web的异构性多种多样文本、图片、视频、音频等非结构化和半结构化数据比如，文本数据和XML数据用户如何表达查询需求？如何解释查询结果？ Internet growth 0 5000000 10000000 15000000 20000000 25000000 30000000 35000000 40000000 Sep-69 Sep-72 Sep-75 Sep-78 Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Hosts Web搜索引擎体系结构 Query Engine Central Index indexer Webpages crawlers Query Ranked List of URLs

4 Issue：消除已经访问过的URL 检查某个URL是否已经被抓过了在将一个新的URL放到工作池之前要很快，不要在这里形成性能瓶颈（检查将要访问磁盘）符合条件（即未被访问过）的URLs放到crawler的任务中优化方法可以通过计算并对比（规格化后的）URL的MD5来实现利用访问的时空局部性--Cache 高效率的查找表数据结构用B-树管理 Bloom filter 空间效率很高，用于判断某元素是否属于某集合 Diving in the crawlers Take TSE for ex. 陈志杰预处理对于抓下来的HTML文档，需要解析HTML Word，PDF….. 扫描并提取词串英文 Stemming：提取词根中文 Segmenting：分词去掉停用词（Stop Words） “the”， “a”，etc “的”， “地”，等词性标注命名实体识别日期、数字、机构名、人名等。中文分词简介(1/3) 因为中文本身存在着很大的歧义性，同样一句话，不同的断句，表达的意思就不一样。这对于计算机去做机器分析，就带来了巨大的困难。下面的中文断句，来自百度广告宣传片: 我知道你不知道我知道你不知道我知道你不知道我知道，你不知道。我知道，你不知道我知道，你不知道我知道你，不知道我。知道你不知道我，知道你不知道我，知道你不知道我知道。你，不知道我知道你不知道另外中文的具体含义，还必须放在具体的前后语言环境中去分析。比如：在慈善拍卖会上，世界冠军们夺冠时的「乒乓球拍卖完了」中文分词，在具体的算法实现上分为三种：字符串匹配(正序、逆序、最少切分、最大切分等) 基于理解（词法，句法等方式处理）基于统计在中文搜索引擎中，目前基本上是这三种算法混合使用。第二种的算法实现起来过于复杂，所以以第一种和第三种算法为主。中文分词简介(2/3) 正向最大匹配法(MM)从左向右匹配词典逆向最大匹配法(RMM)从右向左匹配词典例子输入:企业要真正具有用工的自主权 MM:企业/要/真正/具有/用工/的/自主/权 RMM:企业/要/真正/具有/用工/的/自/主权全切分利用统计方法训练得到一个概率模型比如，P(人民|中国) = 0.6 根据词典生成各种可能的切分情况如何枚举？怎么保存结果？利用概率模型计算各种切分的可能性，可能性最大的就是最终结果中文分词简介(2/3) n-gram方法把单字（unigram）或相邻的两个字（bigram）或更多看作一个索引项例子：全文索引完成 unigram（1-gram）：全，文，索，引，完，成 bigram（2-gram）：全文,文索，索引，引完，完成 3-gram：全文索，文索引，索引完，引完成简单，P3实习大家可以考虑bigram分词

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录