《搜索引擎技术基础》课程教学大纲一、课程名称搜索引擎技术基础Fundamentalsof SearchEngineTechnology二、课程性质选修、专业课三、学时与学分24学时/1.5学分,线上(12学时)+线下(12学时)四、课程先导课C语言或Java语言、计算机组成原理、操作系统五、课程简介搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎是一种典型的分布式大数据处理系统,对于计算机科学与技术、网络空间安全等信息类专业的学生来说,学习搜索引擎的关键技术对于掌握本学科的基本理论和知识非常重要,有利于培养学生理论联系实践和解决实际问题的能力。本课程2010年由华中科技大学计算机科学与技术学院与百度公司联合开设的一门专业选课,是学校和企业联合为本科生开设专业课的试点课程。课程建设由华中科技大学计算机学院负责,百度公司在2010年-2015年期间每年安排相关领域具有丰富研发和买践经验技术和管理专家讲述者于专题,经过多年的改革和实践,该课程已经建设成为国内同领域的标杆课程。课程的开设,拉近了理论教学与实际应用的距离,学生在学习基础理论知识的同时可以很好地了解其在实际产品和企业中的应用,不仅可以指导学生择业,同时也为企业提供了展示企业文化、了解和选择学生的机会,是本科教学改革的成功实践。六、教学标课程结合搜索引擎领域的最新研究进展,全面系统地讲授搜索引擎的组成与原理、搜索引擎社区与垂直搜索、互联网厂告等基本理论和热门应用。课程内容由浅入深,既有深入浅出的基本原理、典型方法的理论分析,也有大量的与实际应用紧密结合的实践内容。课程定位于对搜索引擎技术的研究和应用感兴趣的学生和工程技术人员,如计算机科学与技术专业、网络空间安全专业和信息科学类相关专业的学生或者搜索引擎行业的从业人员。课程内容适合本科高年级学生,也可以作为对本领域感兴趣的研究生的入门课程,课程的主要内容已经经过多年的教学实践,同时补充了最新的研究成果,具有很强的针对性和实用性。1
1 《搜索引擎技术基础》课程教学大纲 一、课程名称 搜索引擎技术基础 Fundamentals of Search Engine Technology 二、课程性质 选修、专业课 三、学时与学分 24 学时/1.5 学分,线上(12 学时)+线下(12 学时) 四、课程先导课 C 语言或 Java 语言、计算机组成原理、操作系统 五、课程简介 搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信 息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给 用户的系统。搜索引擎是一种典型的分布式大数据处理系统,对于计算机科学与技术、 网络空间安全等信息类专业的学生来说,学习搜索引擎的关键技术对于掌握本学科的基 本理论和知识非常重要,有利于培养学生理论联系实践和解决实际问题的能力。 本课程 2010 年由华中科技大学计算机科学与技术学院与百度公司联合开设的一门 专业选课,是学校和企业联合为本科生开设专业课的试点课程。课程建设由华中科技大 学计算机学院负责,百度公司在 2010 年-2015 年期间每年安排相关领域具有丰富研发和 实践经验技术和管理专家讲述若干专题,经过多年的改革和实践,该课程已经建设成为 国内同领域的标杆课程。课程的开设,拉近了理论教学与实际应用的距离,学生在学习 基础理论知识的同时可以很好地了解其在实际产品和企业中的应用,不仅可以指导学生 择业,同时也为企业提供了展示企业文化、了解和选择学生的机会,是本科教学改革的 成功实践。 六、教学目标 课程结合搜索引擎领域的最新研究进展,全面系统地讲授搜索引擎的组成与原理、 搜索引擎社区与垂直搜索、互联网广告等基本理论和热门应用。课程内容由浅入深,既 有深入浅出的基本原理、典型方法的理论分析,也有大量的与实际应用紧密结合的实践 内容。课程定位于对搜索引擎技术的研究和应用感兴趣的学生和工程技术人员,如计算 机科学与技术专业、网络空间安全专业和信息科学类相关专业的学生或者搜索引擎行业 的从业人员。课程内容适合本科高年级学生,也可以作为对本领域感兴趣的研究生的入 门课程,课程的主要内容已经经过多年的教学实践,同时补充了最新的研究成果,具有 很强的针对性和实用性
课程的具体目标包括:目标1:通过本课程的学习使学生深入了解搜索引擎的基本原理、实现技术、搜索引擎产品的开发及商业运营模式。目标2:系统掌握大规模分布式搜索引擎的设计要点及其关键技术,运用相关的理论和技术开发小型的搜索引擎,实现面向主题和个性化的垂直搜索应用。目标3:结合科研项目和创新设计,通过分组实验培养学生综合运用所学知识解决实际问题的能力,激发学生的创造力,提高学生的创新能力。七、课程目标对毕业要求的支撑关系支撑的毕业要求二级指标点对应课程目标1.4能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程问题目标1解决方案的比较和综合。2.3对计算机复杂工程的多种可选方案,能根据约束条件并结合文献进行目标2分析和研究,并得出有效结论。3.3能为计算机复杂工程问题解决方案进行软、硬件系统和应用系统设目标3计,并能在设计中体现创新意识。10.2了解计算机领域的国际发展趋势、研究热点,理解和尊重世界不同目标1文化的差异性和多样性。八、基本教学内容与学时安排第1章引言本章主要讲述搜索引擎的历史背景和搜索技术的发展趋势,使学生能够对搜索引擎当前的发展有一个明确的认知。1.教学目标(1)掌握搜索引擎的基本概念;(2)了解搜索引擎的前世今生:(3)通过谷歌和百度的传奇故事,让学生掌握搜索引擎技术的发展趋势。2.教学重点搜索引擎基本概念与搜索技术的发展趋势。3.教学难点如何将搜索引擎的技术与计算机学科知识体系结合起来。4.教学设计环节设计综合应用线上自主学习、课堂讨论和课外阅读等教学形式。(1)线上自主学习利用课程的慕课资源,线上自主学习搜索引擎的基本概念、常见应用、发展历史和谷歌和百度的传奇故事。(2)课堂讨论2
2 课程的具体目标包括: 目标 1:通过本课程的学习使学生深入了解搜索引擎的基本原理、实现技术、搜索 引擎产品的开发及商业运营模式。 目标 2:系统掌握大规模分布式搜索引擎的设计要点及其关键技术,运用相关的理 论和技术开发小型的搜索引擎,实现面向主题和个性化的垂直搜索应用。 目标 3:结合科研项目和创新设计,通过分组实验培养学生综合运用所学知识解决 实际问题的能力,激发学生的创造力,提高学生的创新能力。 七、课程目标对毕业要求的支撑关系 支撑的毕业要求二级指标点 对应课程目标 1.4 能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程问题 解决方案的比较和综合。 目标 1 2.3 对计算机复杂工程的多种可选方案,能根据约束条件并结合文献进行 分析和研究,并得出有效结论。 目标 2 3.3 能为计算机复杂工程问题解决方案进行软、硬件系统和应用系统设 计,并能在设计中体现创新意识。 目标 3 10.2 了解计算机领域的国际发展趋势、研究热点,理解和尊重世界不同 文化的差异性和多样性。 目标 1 八、基本教学内容与学时安排 第 1 章 引言 本章主要讲述搜索引擎的历史背景和搜索技术的发展趋势,使学生能够对搜索引擎 当前的发展有一个明确的认知。 1.教学目标 (1)掌握搜索引擎的基本概念; (2)了解搜索引擎的前世今生; (3)通过谷歌和百度的传奇故事,让学生掌握搜索引擎技术的发展趋势。 2.教学重点 搜索引擎基本概念与搜索技术的发展趋势。 3.教学难点 如何将搜索引擎的技术与计算机学科知识体系结合起来。 4.教学设计环节设计 综合应用线上自主学习、课堂讨论和课外阅读等教学形式。 (1)线上自主学习 利用课程的慕课资源,线上自主学习搜索引擎的基本概念、常见应用、发展 历史和谷歌和百度的传奇故事。 (2)课堂讨论
讨论在互联网泡沫破裂的年代,搜索引擎为什么可以逆潮流而获得巨大成功?(3)课外阅读课外阅读谷歌创始人和百度创始人的传奇人生,激发学生创新创业的激情。第2章搜索引擎的结构与组成本章主要讲述搜索引擎的基本结构与组成部分,使学生掌握搜索引擎工作原理和关键技术,这是本课程的重要一章。1.教学目标(1)掌握搜索引擎爬虫的两中基本策略,并给出一个搜索引擎爬虫的实例(2)通过实例分析,掌握中文分词常用策略及其特点:(3)掌握搜索引擎的倒排索引和检索技术,揭示搜索引擎为何能够瞬间检索到数据的原理;(4)了解评价搜索引擎质量的评估指标。2.教学重点搜索引擎的网页爬取、中文分词和倒排索引技术。3.教学难点倒排索引技术是搜索引擎快速检索结果的技术关键。4.教学设计环节设计综合应用线上自主学习、课堂讨论和课后作业等教学形式。(1)线上自主学习利用课程的慕课资源,线上自主学习搜索引擎的网络爬取策略、分词方法、倒排索引、查询检索等。(2)课堂讨论讨论深度优先和广度优先的特点;中文分词中统计分词的实现方法:倒排索引与正排索引的区别等。(3)课外作业请简要阐述搜索引擎的组成和工作原理,通过你平时对搜索引擎的使用,你觉得现有的搜索引擎还存在哪些不足,给出解决的思路。第3章搜索引擎的排序策略本章主要讲述搜索引擎的网页排序策略,包括布尔模型、向量空间模型和链接分析排序方法。1.教学目标(1)布尔模型的基本理论和应用;(2)向量空间模型的理论和应用;(3)掌握链接分析的技术原理,尤其是PageRank算法的实现方法。2.教学重点3
3 讨论在互联网泡沫破裂的年代,搜索引擎为什么可以逆潮流而获得巨大成 功? (3)课外阅读 课外阅读谷歌创始人和百度创始人的传奇人生,激发学生创新创业的激情。 第 2 章 搜索引擎的结构与组成 本章主要讲述搜索引擎的基本结构与组成部分,使学生掌握搜索引擎工作原理和关 键技术,这是本课程的重要一章。 1.教学目标 (1)掌握搜索引擎爬虫的两中基本策略,并给出一个搜索引擎爬虫的实例; (2)通过实例分析,掌握中文分词常用策略及其特点; (3)掌握搜索引擎的倒排索引和检索技术,揭示搜索引擎为何能够瞬间检索到数 据的原理; (4)了解评价搜索引擎质量的评估指标。 2.教学重点 搜索引擎的网页爬取、中文分词和倒排索引技术。 3.教学难点 倒排索引技术是搜索引擎快速检索结果的技术关键。 4.教学设计环节设计 综合应用线上自主学习、课堂讨论和课后作业等教学形式。 (1)线上自主学习 利用课程的慕课资源,线上自主学习搜索引擎的网络爬取策略、分词方法、 倒排索引、查询检索等。 (2)课堂讨论 讨论深度优先和广度优先的特点;中文分词中统计分词的实现方法;倒排索 引与正排索引的区别等。 (3)课外作业 请简要阐述搜索引擎的组成和工作原理,通过你平时对搜索引擎的使用,你 觉得现有的搜索引擎还存在哪些不足,给出解决的思路。 第 3 章 搜索引擎的排序策略 本章主要讲述搜索引擎的网页排序策略,包括布尔模型、向量空间模型和链接分析 排序方法。 1.教学目标 (1)布尔模型的基本理论和应用; (2)向量空间模型的理论和应用; (3)掌握链接分析的技术原理,尤其是 PageRank 算法的实现方法。 2.教学重点
链接分析与PageRank算法。3.教学难点PageRank算法。4.教学设计环节设计综合应用线上自主学习、课堂讨论和课后作业等教学形式。(1)线上自主学习利用课程的慕课资源,线上自主学习布尔模型、向量空间模型和链接分析排序方法。(2)课堂讨论向量空间模型在网页排序中有何缺点?链接分析法在网页排序中的主要优势是什么?(3)课外作业使用C语言编程实现PageRank算法。第4章分布式搜索引擎本章系统讲述搜索引擎在分布式环境下的设计策略,现今搜索引擎的技术门槛在于大数据量、大访问量的情况下处理问题的能力,本章重点讲述分布式搜索引擎的解决方案。1.教学目标(1)掌握商用搜索引擎的常用分布式策略:(2)掌握分布式元搜索的原理和特点:(3)掌握散列式分布式搜索的原理和特点。2.教学重点分布式搜索和散列式分布式搜索。3.教学难点散列式分布式搜索。4.教学设计环节设计综合应用线上自主学习、课堂讨论和课后作业等教学形式。(1)线上自主学习利用课程的慕课资源,线上自主学习分布式策略、分布式元搜索和散列式分布式搜索的原理和特点。(2)课堂讨论分布式元搜索和散列式分布式搜索的优缺点?商用搜索引擎如何将二者有机结合在一起。(3)课外作业学习Spark框架和技术方案。4
4 链接分析与 PageRank 算法。 3.教学难点 PageRank 算法。 4.教学设计环节设计 综合应用线上自主学习、课堂讨论和课后作业等教学形式。 (1)线上自主学习 利用课程的慕课资源,线上自主学习布尔模型、向量空间模型和链接分析排 序方法。 (2)课堂讨论 向量空间模型在网页排序中有何缺点? 链接分析法在网页排序中的主要优 势是什么? (3)课外作业 使用 C 语言编程实现 PageRank 算法。 第 4 章 分布式搜索引擎 本章系统讲述搜索引擎在分布式环境下的设计策略,现今搜索引擎的技术门槛在于 大数据量、大访问量的情况下处理问题的能力,本章重点讲述分布式搜索引擎的解决方 案。 1.教学目标 (1)掌握商用搜索引擎的常用分布式策略; (2)掌握分布式元搜索的原理和特点; (3)掌握散列式分布式搜索的原理和特点。 2.教学重点 分布式搜索和散列式分布式搜索。 3.教学难点 散列式分布式搜索。 4.教学设计环节设计 综合应用线上自主学习、课堂讨论和课后作业等教学形式。 (1)线上自主学习 利用课程的慕课资源,线上自主学习分布式策略、分布式元搜索和散列式分 布式搜索的原理和特点。 (2)课堂讨论 分布式元搜索和散列式分布式搜索的优缺点?商用搜索引擎如何将二者有 机结合在一起。 (3)课外作业 学习 Spark 框架和技术方案
第5章多媒体搜索引擎本章针对多媒体数据的特点,系统讲述图像搜索、音频搜索、视频搜索的现状和挑战,讨论多媒体数据的语义鸿沟对于搜索质量的影响。1.教学目标(1)掌握图像搜索的现状和技术原理,深入了解存在的问题和挑战:(2)掌握音频搜索的现状和技术原理,深入了解存在的问题和挑战:(3)掌握视频搜索的现状和技术原理,深入了解存在的问题和挑战;(4)理解语义鸿沟对于多媒体搜索的影响。2.教学重点多媒体搜索的现状。3.教学难点基于内容的多媒体搜索和语义鸿沟。4.教学设计环节设计综合应用线上自主学习、课堂讨论和课后作业等教学形式。(1)线上自主学习利用课程的慕课资源,线上自主学习图像搜索、音频搜索、视频搜索的现状和技术原理。(2)课堂讨论多媒体搜索与文本搜索相比面临哪些困难?。(3)课外作业多媒体搜索在哪些方面还需要改进?第6章搜索引擎社区与垂直搜索本章以谷歌和百度搜索为例,讲述搜索引擎的社区和垂直搜索的概念和常见应用。1.教学目标(1)掌握搜索引擎社区作用和技术优势:(2)掌握垂直搜索的实现原理和优势。2.教学重点搜索社区的和垂直搜索的意义。3.教学难点垂直搜索。4.教学设计环节设计综合应用线上自主学习、课堂讨论和课后作业等教学形式。(1)线上自主学习利用课程的慕课资源,线上自主学习搜索社区的和垂直搜索概念、现状和技术原理。(2)课堂讨论5
5 第 5 章 多媒体搜索引擎 本章针对多媒体数据的特点,系统讲述图像搜索、音频搜索、视频搜索的现状和挑 战,讨论多媒体数据的语义鸿沟对于搜索质量的影响。 1.教学目标 (1)掌握图像搜索的现状和技术原理,深入了解存在的问题和挑战; (2)掌握音频搜索的现状和技术原理,深入了解存在的问题和挑战; (3)掌握视频搜索的现状和技术原理,深入了解存在的问题和挑战; (4)理解语义鸿沟对于多媒体搜索的影响。 2.教学重点 多媒体搜索的现状。 3.教学难点 基于内容的多媒体搜索和语义鸿沟。 4.教学设计环节设计 综合应用线上自主学习、课堂讨论和课后作业等教学形式。 (1)线上自主学习 利用课程的慕课资源,线上自主学习图像搜索、音频搜索、视频搜索的现状 和技术原理。 (2)课堂讨论 多媒体搜索与文本搜索相比面临哪些困难?。 (3)课外作业 多媒体搜索在哪些方面还需要改进? 第 6 章 搜索引擎社区与垂直搜索 本章以谷歌和百度搜索为例,讲述搜索引擎的社区和垂直搜索的概念和常见应用。 1.教学目标 (1)掌握搜索引擎社区作用和技术优势; (2)掌握垂直搜索的实现原理和优势。 2.教学重点 搜索社区的和垂直搜索的意义。 3.教学难点 垂直搜索。 4.教学设计环节设计 综合应用线上自主学习、课堂讨论和课后作业等教学形式。 (1)线上自主学习 利用课程的慕课资源,线上自主学习搜索社区的和垂直搜索概念、现状和技 术原理。 (2)课堂讨论