《大数据分析》课程大纲一、课程名称:大数据分析二、课程性质:选修、理论课三、学时与学分:40学时,2.5学分四、课程先导课:高级语言程序设计,大数据导论、Python语言等五、课程简介针对大数据集合的4v特性,了解如何将数据挖掘原理应用与解剖大型复杂数据集,包括非常大型数据库中的数据集,或通过数据解析来进行挖掘,学习探索和分析的数据模式,了解将数据转化为有价值的可用信息的大数据分析方式和工具。课程将系统地介绍大数据分析的理论、算法,包括初级数据挖掘和高级关系挖掘、协同滤波等经典大数据分析算法,同时就文本大数据分析、知识计算、网络数据挖掘、社会媒体分析等内容进行应用方面的简述。六、课程目标通过相关教学活动,让学生接触并理解大数据分析的工作原理,掌握常见的大数据分析方法,使学生具有Python大数据分析和开发的能力。提升学生数据分析的能力。课程的具体目标包括:目标1:熟悉基本的map-reduce处理思想,掌握shuffle和combine过程的原理与意义,以培养学生对大数据问题的基本思考模式。目标2:了解PageRank问题的背景与应用场景,掌握概率转移矩阵的迭代运算方法,了解设置阻尼系数和归一化过程的意义。目标3:熟悉频繁项集、支持度、关联规则和置信度的概念,掌握Apriori和pcy算法原理。目标4:掌握kmeans算法核心要点,掌握两种基本的评价指标并且能够可视化两个维度下的聚类效果图。目标5:了解协同过滤(CF)与基于内容推荐(CB)两种推荐算法的基本思想与应用场景,掌握这两种推荐算法的实现。在此基础上,进一步要求学生掌握MinHash算法的基本原理,要求能够运用该算法对效用矩阵进行降维处理
《大数据分析》课程大纲 一、课程名称:大数据分析 二、课程性质:选修、理论课 三、学时与学分:40 学时,2.5 学分 四、课程先导课:高级语言程序设计,大数据导论、Python 语言等 五、课程简介 针对大数据集合的 4v 特性,了解如何将数据挖掘原理应用与解剖大型复杂 数据集,包括非常大型数据库中的数据集,或通过数据解析来进行挖掘,学习探 索和分析的数据模式,了解将数据转化为有价值的可用信息的大数据分析方式和 工具。课程将系统地介绍大数据分析的理论、算法,包括初级数据挖掘和高级关 系挖掘、协同滤波等经典大数据分析算法,同时就文本大数据分析、知识计算、 网络数据挖掘、社会媒体分析等内容进行应用方面的简述。 六、课程目标 通过相关教学活动,让学生接触并理解大数据分析的工作原理,掌握常见的 大数据分析方法,使学生具有 Python 大数据分析和开发的能力。提升学生数据 分析的能力。 课程的具体目标包括: 目标 1:熟悉基本的 map-reduce 处理思想,掌握 shuffle 和 combine 过程的 原理与意义,以培养学生对大数据问题的基本思考模式。 目标 2:了解 PageRank 问题的背景与应用场景,掌握概率转移矩阵的迭代 运算方法,了解设置阻尼系数和归一化过程的意义。 目标 3:熟悉频繁项集、支持度、关联规则和置信度的概念,掌握 Apriori 和 pcy 算法原理。 目标 4:掌握 kmeans 算法核心要点,掌握两种基本的评价指标并且能够可 视化两个维度下的聚类效果图。 目标 5:了解协同过滤(CF)与基于内容推荐(CB)两种推荐算法的基本思想与 应用场景,掌握这两种推荐算法的实现。在此基础上,进一步要求学生掌握 MinHash 算法的基本原理,要求能够运用该算法对效用矩阵进行降维处理
七、课程目标对毕业要求的支撑关系支撑的毕业要求二级指标点对应课程目标1.3能将软硬件知识、相关工程知识和模型方法用于推演和分析计算目标2、3、4、5机复杂工程问题1.4能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程目标1问题解决方案进行比较和综合2.1能综合运用数学、自然科学、工程科学以及计算机科学的基本原目标2、3、4、5理,识别、判断和表达计算机复杂工程问题的关键环节3.1掌握与计算机复杂工程问题有关的工程设计和软硬件产品开发全周期、全流程的基本设计/开发方法和技术,了解影响设计目标和技目标2、3、4、5术方案的多种因素八、教学设计及对课程目标的支持第一章大数据分析系统与平台1.教学目标1)了解国际、国内大数据分析平台与工具:2)理解MapReduce编程模型及其核心思想;3)编写MapReduce程序实例--词频统计(WordCount);4)掌握MapReduce分布式计算框架的基本组成及各部分的主要功能;5)熟练掌握MapReduce框架下常用编程组件与功能模块的使用及实现6)熟悉与了解常见的大数据分析系统,包括HadoopMapRedcue、Spark等对大数据分析计算的性能评价指标,理解不同数据分析系统的特点及局限性;2.教学重点1)MapReduce编程模型MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员将自已的程序运行在分布式系统上。通过指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。2)MapReduce的工作过程从大数据分析课程的实践需求出发,要求学生能深刻理解MapReduce先分后总的分布式数据分析的内涵,明确大数据分析课程要解决什么问题,利用MapReduce工具可以解决什么问题。要求学生理解从输入文件分片由MapTask处理到Reduce端合并输出的分布式处理分析过程
七、课程目标对毕业要求的支撑关系 支撑的毕业要求二级指标点 对应课程目标 1.3 能将软硬件知识、相关工程知识和模型方法用于推演和分析计算 机复杂工程问题 目标 2、3、4、5 1.4 能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程 问题解决方案进行比较和综合 目标 1 2.1 能综合运用数学、自然科学、工程科学以及计算机科学的基本原 理,识别、判断和表达计算机复杂工程问题的关键环节 目标 2、3、4、5 3.1 掌握与计算机复杂工程问题有关的工程设计和软硬件产品开发全 周期、全流程的基本设计/开发方法和技术,了解影响设计目标和技 术方案的多种因素 目标 2、3、4、5 八、教学设计及对课程目标的支持 第一章 大数据分析系统与平台 1.教学目标 1)了解国际、国内大数据分析平台与工具; 2)理解 MapReduce 编程模型及其核心思想; 3)编写 MapReduce 程序实例-词频统计(Word Count); 4)掌握 MapReduce 分布式计算框架的基本组成及各部分的主要功能; 5)熟练掌握 MapReduce 框架下常用编程组件与功能模块的使用及实现; 6)熟悉与了解常见的大数据分析系统,包括 Hadoop MapRedcue、Spark 等 对大数据分析计算的性能评价指标,理解不同数据分析系统的特点及局限性; 2.教学重点 1)MapReduce 编程模型 MapReduce 是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。 概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编 程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员 将自己的程序运行在分布式系统上。通过指定一个 Map(映射)函数,用来把一 组键值对映射成一组新的键值对,指定并发的 Reduce(归约)函数,用来保证 所有映射的键值对中的每一个共享相同的键组。 2)MapReduce 的工作过程 从大数据分析课程的实践需求出发,要求学生能深刻理解 MapReduce 先分后 总的分布式数据分析的内涵,明确大数据分析课程要解决什么问题,利用 MapReduce 工具可以解决什么问题。要求学生理解从输入文件分片由 MapTask 处理到 Reduce 端合并输出的分布式处理分析过程
3)MapTask工作原理要求学生能理解MapTask的工作机制。具体来说,理解MapTask处理流程划分的五个阶段以及每个阶段的具体任务。4)ReduceTask工作原理要求学生能理解ReduceTask的工作机制。具体来说,理解ReduceTask处理流程划分的三个阶段以及每个阶段的具体任务。5)Shuffle工作原理Shuffle过程包含在Map和Reduce两端,即Mapshuffle和Reduceshuffl。要求学生掌握Map端的Shuffle过程包括:对Map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件,分区有序的含义是map输出的键值对按分区进行排列,具有相同partition值的键值对存储在一起,每个分区里面的键值对又按key值进行升序排列。要求学生掌握Reduce端的Shuffle过程主要包括:复制Map输出、排序合并两个阶段。6)MapReduce性能优化策略进行大数据运算,当数据量极其大时,那么对MapReduce性能的优化重要性不言而喻,尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。要求学生了解下列与MapReduce相关的性能优化策略和方法,主要包括四个方面:数据输入、Map阶段、Reduce阶段、Shuffle阶段。3.教学难点1)MapReduce工作过程从大数据分析课程的实践需求出发,要求学生能深刻理解MapReduce先分后总的分布式数据分析的内涵,明确大数据分析课程要解决什么问题,利用MapReduce工具可以解决什么问题。要求学生深入了解从输入文件分片由MapTask处理到Reduce端合并输出的整个分布式处理分析过程。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、编成实践与作业、课外阅读等教学形式。1)讨论围绕不同大数据处理系统的性能评价指标及其内涵和局限性等问题展开讨论。2)编程实践与作业
3)MapTask 工作原理 要求学生能理解 MapTask 的工作机制。具体来说,理解 MapTask 处理流程 划分的五个阶段以及每个阶段的具体任务。 4)ReduceTask 工作原理 要求学生能理解 ReduceTask 的工作机制。具体来说,理解 ReduceTask 处理 流程划分的三个阶段以及每个阶段的具体任务。 5)Shuffle 工作原理 Shuffle 过程包含在 Map 和 Reduce 两端,即 Map shuffle 和 Reduce shuffl。要 求学生掌握 Map 端的 Shuffle 过程包括:对 Map 的结果进行分区、排序、分割, 然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分 区有序的文件,分区有序的含义是 map 输出的键值对按分区进行排列,具有相 同 partition 值的键值对存储在一起,每个分区里面的键值对又按 key 值进行升序 排列。要求学生掌握 Reduce 端的 Shuffle 过程主要包括:复制 Map 输出、排序 合并两个阶段。 6)MapReduce 性能优化策略 进行大数据运算,当数据量极其大时,那么对 MapReduce 性能的优化重要性 不言而喻,尤其是 Shuffle 过程中的参数配置对作业的总执行时间影响特别大。 要求学生了解下列与 MapReduce 相关的性能优化策略和方法,主要包括四个方 面:数据输入、Map 阶段、Reduce 阶段、Shuffle 阶段。 3.教学难点 1)MapReduce 工作过程 从大数据分析课程的实践需求出发,要求学生能深刻理解 MapReduce 先分后 总的分布式数据分析的内涵,明确大数据分析课程要解决什么问题,利用 MapReduce 工具可以解决什么问题。要求学生深入了解从输入文件分片由 MapTask 处理到 Reduce 端合并输出的整个分布式处理分析过程。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、编成实践与作业、课 外阅读等教学形式。 1)讨论 围绕不同大数据处理系统的性能评价指标及其内涵和局限性等问题展开讨 论。 2)编程实践与作业
围绕MapReduce的编程运行及优化,要求学生参与一系列经典案例的编程实践,包括:词频统计、倒排索引、数据去重和TopN等。3)课外阅读推荐学生阅读关于国际大数据分析技术相关的最新资料、报道。第二章链接分析(LinkAnalysis)与PageRank本章的主要知识点包括PageRank、随机游走、特定主题游走、图的相似性、LinkSpam、TrustRank、HITS等。PageRank是谷歌的镇店之宝,一种用来对网络中节点的重要性排序的算法。这个算法最初是用来对网页重要性进行排序。人们对PageRank进行个各种改动,基于相关算法在推荐、社会网络分析、自然语言处理等领域推出了很多实用的解决方案。本章内容要求学生围绕看两个基本问题展开学习,即PageRank算法是怎么来的呢?怎么计算?1.教学目标1)了解PageRank基本概念,根据网页重要性进行页面排名;2)掌握基本的PageRank算法:3)理解PageRank的矩阵表达;4)理解并掌握PageRank的矩阵表达实例;5)深刻理解密送代方法:6)从马尔可夫角度看待PageRank7)理解进阶版PageRank的必要性;9)理解Teleport实列:10)PageRank算法效率分析:11)理解和掌握完整版PageRank算法:12)基于特定主题的PageRank;2.教学重点1)PageRank的基本算法要求学生理解PageRank算法利用网络的图结构来评价网页的重要性,这里的图结构是指指向网页的链接,也就是Inlink。要求理解PageRank算法的两种假设:数量假设(指向该网站的数量越多,重要性越高)和质量假设(指向该网站越权威,重要性越高);并由此为基准理解PageRank基本算法思想及定义。2)PageRank的矩阵表达理解Columnstochastic(列随机)矩阵,即矩阵M每一个列上的元素之和为1,符合上面约束条件还有行随机矩阵和双随机矩阵),我们假设网页i有d个外链
围绕 MapReduce 的编程运行及优化,要求学生参与一系列经典案例的编程 实践,包括:词频统计、倒排索引、数据去重和 TopN 等。 3)课外阅读 推荐学生阅读关于国际大数据分析技术相关的最新资料、报道。 第二章 链接分析(Link Analysis)与 PageRank 本章的主要知识点包括 PageRank、随机游走、特定主题游走、图的相似性、 Link Spam、TrustRank、HITS 等。PageRank 是谷歌的镇店之宝,一种用来对 网络中节点的重要性排序的算法。这个算法最初是用来对网页重要性进行排序。 人们对 PageRank 进行个各种改动,基于相关算法在推荐、社会网络分析、自 然语言处理等领域推出了很多实用的解决方案。本章内容要求学生围绕着两个 基本问题展开学习,即 PageRank 算法是怎么来的呢?怎么计算? 1.教学目标 1)了解 PageRank 基本概念,根据网页重要性进行页面排名; 2)掌握基本的 PageRank 算法; 3)理解 PageRank 的矩阵表达; 4)理解并掌握 PageRank 的矩阵表达实例; 5)深刻理解密迭代方法; 6)从马尔可夫角度看待 PageRank; 7)理解进阶版 PageRank 的必要性; 9)理解 Teleport 实列; 10)PageRank 算法效率分析; 11)理解和掌握完整版 PageRank 算法; 12)基于特定主题的 PageRank; 2.教学重点 1)PageRank 的基本算法 要求学生理解 PageRank 算法利用网络的图结构来评价网页的重要性,这里 的图结构是指指向网页的链接,也就是 Inlink。要求理解 PageRank 算法的两种 假设:数量假设(指向该网站的数量越多,重要性越高)和质量假设(指向该网 站越权威,重要性越高);并由此为基准理解 PageRank 基本算法思想及定义。 2)PageRank 的矩阵表达 理解 Column stochastic (列随机) 矩阵,即矩阵 M(每一个列上的元素之和为 1, 符合上面约束条件还有行随机矩阵和双随机矩阵),我们假设网页 j 有 dj 个外链
接,第i个外链接指向第i个网页,即可倒出PageRank的矩阵表达式。要求学生理解矩阵特征值、特征向量的概念。3)理解和掌握密送代计算方法根据PageRank矩阵表达的分析,要找到重要度的向量,就是要求转移矩阵M的特征值为1的特征值向量。求这个特征向量的方法就是PowerIteratiorMethod,也就是是求绝对值最大的特征值向量的方法。要求学生理解和掌握密迭代方法的原理和计算。4)理解什么是Teleport及进阶版PageRank要求学生理解基本版PageRank无法处理的两种情况:“网页只有入度没有出度(DeadEnd)”以及“网页即使有出度也是指向其本身(SpiderTraps)”。DeadEnd是一个严重问题;第二种情况SpiderTraps不会对收敛性产生影响,但收敛到的PageRank不是理想目标。以上两种情况的解决方法就是“teleport”(随机跳转)。5)特定主题游走了解原始的PageRank算法只能提供通用的importancescore这一局限性。优化目标:不只是根据importancescore来评估网页,而是加上该网页离某个主题的距离,例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终的PageRank算法计算结果。3.教学难点1)理解和掌握密迭代计算方法要求学生理解并熟练掌握PageRank矩阵表达的分析,理解要找到重要度的向量,就是要求转移矩阵M的特征值为1的特征值向量。求这个特征向量的方法就是PowerIterationMethod,也就是是求绝对值最大的特征值向量的方法。2)深刻理解掌握特定主题游走深刻理解原始的PageRank算法只能提供通用的importancescore这一局限性。根据不同具体需求设立优化目标,不只是根据单一的importancescore来评估网页,而是加上该网页离某个主题的距离,例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终的PageRank算法计算结果。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、编成实践与作业、课外阅读等教学形式。1)讨论
接,第 j 个外链接指向第 i 个网页,即可倒出 PageRank 的矩阵表达式。要求学生 理解矩阵特征值、特征向量的概念。 3)理解和掌握密迭代计算方法 根据 PageRank 矩阵表达的分析,要找到重要度的向量,就是要求转移矩阵 M 的特征值为 1 的特征值向量。求这个特征向量的方法就是 Power Iteration Method,也就是是求绝对值最大的特征值向量的方法。要求学生理解和掌握密 迭代方法的原理和计算。 4)理解什么是 Teleport 及进阶版 PageRank 要求学生理解基本版 PageRank 无法处理的两种情况:“网页只有入度没有 出度(Dead End)”以及“网页即使有出度也是指向其本身(Spider Traps)”。 Dead End 是一个严重问题;第二种情况 Spider Traps 不会对收敛性产生影响,但 收敛到的 PageRank 不是理想目标。以上两种情况的解决方法就是“teleport”(随 机跳转)。 5)特定主题游走 了解原始的 PageRank 算法只能提供通用的 importance score 这一局限性。 优化目标:不只是根据 importance score 来评估网页,而是加上该网页离某 个主题的距离,例如运动、娱乐、历史等。就是要加入各种权重来重新计算最终 的 PageRank 算法计算结果。 3.教学难点 1)理解和掌握密迭代计算方法 要求学生理解并熟练掌握 PageRank 矩阵表达的分析,理解要找到重要度的向量, 就是要求转移矩阵 M 的特征值为 1 的特征值向量。求这个特征向量的方法就是 Power Iteration Method,也就是是求绝对值最大的特征值向量的方法。 2)深刻理解掌握特定主题游走 深刻理解原始的 PageRank 算法只能提供通用的 importance score 这一局限性。 根据不同具体需求设立优化目标,不只是根据单一的 importance score 来评估网 页,而是加上该网页离某个主题的距离,例如运动、娱乐、历史等。就是要加入 各种权重来重新计算最终的 PageRank 算法计算结果。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、编成实践与作业、 课外阅读等教学形式。 1)讨论