《大数据处理》课程大纲一、课程名称:大数据处理二、课程性质:必修、理论课三、学时与学分:40学时,3学分四、课程先导课:C语言程序设计、数据结构、算法设计与分析、数据库系统原理、操作系统等五、课程简介“大数据处理”是一门工程性、技术性和实践性都很强的核心专业基础课程,它主要包含了大数据处理模式、大数据存储模式、大数据编程模式以及大数据处理体系结构等诸多方面,是大数据分析以及应用的基础,在计算机学科系列课程中,是综合应用前期基础课程最集中的一门课程,其技术支撑了当前生活中大规模数据分析应用。通过本课程的学习,使学习者掌握数据处理和整体流程,能够针对实践中遇到的数据完成数据建模、处理以及分析工作。大数据处理模式方面,主要让大家熟练应用大数据的并行和分布式处理;在大数据存储模式方面,主要让学习者了解大数据如何存储以及相应的文件系统;在大数据编程模式方面,主要让学习者了解批处理、流处理、交互式处理以及图处理;在大数据处理体系结构方面,主要让大家了解当前常用的数据中心结构。此外,本课程还将介绍大数据管理和系统优化方面的技术。以上所有知识点都将辅以大数据处理实例并结合相应大数据处理系统从而让学习者能胜任工作中遇到的各类大数据处理实践问题。六、课程目标通过相关教学活动,帮助学生掌握大数据处理的基本概念、原理与架构,使学习者掌握数据处理和整体流程,能够针对实践中遇到的数据完成数据建模、处理以及分析工作,具有设计开发大数据处理算法和应用程序的基本能力。同时,了解大数据发展的最前沿技术,并深入认识和理解大数据的发展趋势和解决实际问题的能力。课程的具体目标包括:目标1:使学生能系统掌握大数据并行处理有关的基本概念、基本原理、基本架构,使学生了解分布式集群系统,并熟悉基于分布式集群系统设计的Hadoop系统的组件功能及其运行机制,了解大数据分布式流处理系统、大数据图计算系
《大数据处理》课程大纲 一、课程名称:大数据处理 二、课程性质:必修、理论课 三、学时与学分:40 学时,3 学分 四、课程先导课:C 语言程序设计、数据结构、算法设计与分析、数据库系统原 理、操作系统等 五、课程简介 “大数据处理”是一门工程性、技术性和实践性都很强的核心专业基础课程, 它主要包含了大数据处理模式、大数据存储模式、大数据编程模式以及大数据处 理体系结构等诸多方面,是大数据分析以及应用的基础,在计算机学科系列课程 中,是综合应用前期基础课程最集中的一门课程,其技术支撑了当前生活中大规 模数据分析应用。通过本课程的学习,使学习者掌握数据处理和整体流程,能够 针对实践中遇到的数据完成数据建模、处理以及分析工作。大数据处理模式方面, 主要让大家熟练应用大数据的并行和分布式处理;在大数据存储模式方面,主要 让学习者了解大数据如何存储以及相应的文件系统;在大数据编程模式方面,主 要让学习者了解批处理、流处理、交互式处理以及图处理;在大数据处理体系结 构方面,主要让大家了解当前常用的数据中心结构。此外,本课程还将介绍大数 据管理和系统优化方面的技术。以上所有知识点都将辅以大数据处理实例并结合 相应大数据处理系统从而让学习者能胜任工作中遇到的各类大数据处理实践问 题。 六、课程目标 通过相关教学活动,帮助学生掌握大数据处理的基本概念、原理与架构,使 学习者掌握数据处理和整体流程,能够针对实践中遇到的数据完成数据建模、处 理以及分析工作,具有设计开发大数据处理算法和应用程序的基本能力。同时, 了解大数据发展的最前沿技术,并深入认识和理解大数据的发展趋势和解决实际 问题的能力。 课程的具体目标包括: 目标 1:使学生能系统掌握大数据并行处理有关的基本概念、基本原理、基 本架构,使学生了解分布式集群系统,并熟悉基于分布式集群系统设计的 Hadoop 系统的组件功能及其运行机制,了解大数据分布式流处理系统、大数据图计算系
统、以及相应的大数据管理系统。培养学生的并行数据处理理念与分布式协同管理理念。目标2:使学生能够掌握分布式存储系统HDFS的分布式存储方案及数据的分布式管理方式,了解HDFS的特点、架构、数据读取过程、数据写入过程,了解分布式存储划分策略以及数据存储一致性问题和数据容错问题,熟悉并掌握分布式键值系统以及与传统关系数据库的异同。培养学生能根据各种应用需要及数据类型特点,制定合适的大数据存储方案。目标3:使学生能够掌握MapReduce编程技术,能够了解MapReduce编程模型理念、工作原理及主要特点,熟悉MapReduce数据流概念以及Map过程、Shuffle过程和Reduce过程,利用案例分析,使学生会使用MapReduce思想处理实际大数据分析工作。七、教学设计及对课程目标的支持第一章大数据处理基础1.教学目标1)了解大数据基本特征;2)了解大数据存储模式:3)了解大数据处理模式:4)了解大数据编程模式;5)了解大数据处理体系结构。本章教学支持课程目标1。2.教学重点1)理解大数据的特征这是大数据处理课程的出发点,要求学生能深刻理解当前日常生活中有那些属于大数据,能从自身感受上感知大数据的存在,并能认识到大数据的4V特征,从根本上理解大数据与传统数据的基本不同,理解为什么传统的处理方法不适用于大数据处理。2)理解分布式计算的内涵分布式计算是大数据处理的核心技术,要求学生熟悉分布式集群计算的概念以及实际架构,理解多线程、多任务、多主机的计算环境,理解分布式计算与传统计算模式的区别。3.教学难点1)大数据4V特征定义
统、以及相应的大数据管理系统。培养学生的并行数据处理理念与分布式协同管 理理念。 目标 2:使学生能够掌握分布式存储系统 HDFS 的分布式存储方案及数据的 分布式管理方式,了解 HDFS 的特点、架构、数据读取过程、数据写入过程,了 解分布式存储划分策略以及数据存储一致性问题和数据容错问题,熟悉并掌握分 布式键值系统以及与传统关系数据库的异同。培养学生能根据各种应用需要及数 据类型特点,制定合适的大数据存储方案。 目标 3:使学生能够掌握 MapReduce 编程技术,能够了解 MapReduce 编程 模型理念、工作原理及主要特点,熟悉 MapReduce 数据流概念以及 Map 过程、 Shuffle 过程和 Reduce 过程,利用案例分析,使学生会使用 MapReduce 思想处理 实际大数据分析工作。 七、教学设计及对课程目标的支持 第一章 大数据处理基础 1.教学目标 1)了解大数据基本特征; 2)了解大数据存储模式; 3)了解大数据处理模式; 4)了解大数据编程模式; 5)了解大数据处理体系结构。 本章教学支持课程目标 1。 2.教学重点 1)理解大数据的特征 这是大数据处理课程的出发点,要求学生能深刻理解当前日常生活中有那些 属于大数据,能从自身感受上感知大数据的存在,并能认识到大数据的 4V 特征, 从根本上理解大数据与传统数据的基本不同,理解为什么传统的处理方法不适用 于大数据处理。 2)理解分布式计算的内涵 分布式计算是大数据处理的核心技术,要求学生熟悉分布式集群计算的概念 以及实际架构,理解多线程、多任务、多主机的计算环境,理解分布式计算与传 统计算模式的区别。 3.教学难点 1)大数据 4V 特征定义
理解大数据4V特征与传统数据的区别。2)分布式计算模型理解分布式与并行计算概念4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业、课外实践、课外阅读等教学形式。1)讨论围绕大数据产生由来、特征、与传统数据不同展开。2)作业围绕大数据特征、分布式计算、并行计算布置。3)课外实践要求学生数据大数据处理软件等开发工具。4)课外阅读阅读关于大数据技术国内外发展过程的文献。第二章大数据存储基础本章的主要知识点包括大数据存储系统的特点:分布式文件系统;分布式键值系统;新型存储器件的内存系统。1.教学目标1)熟练掌握分布式存储系统概念与特点;2)掌握分布式文件系统架构3)掌握分布式键值系统;4)掌握新型存储器件的内存系统。本章教学支持的课程目标为目标2。2.教学重点1)分布式文件系统及特点理解分布式文件系统HDFS的系统架构,熟悉数据分布概念,理解数据复制与一致性,理解数据容错机制、理解分布式文件系统的数据读写流程。2)分布式键值系统与特点理解分布式键值系统Dynamo的系统架构,熟悉数据分布概念,理解数据复制与一一致性,理解数据容错机制、理解分布式键值系统的负载均衡以及数据读写流程。3.教学难点1)HDFS系统架构
理解大数据 4V 特征与传统数据的区别。 2)分布式计算模型 理解分布式与并行计算概念 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业、课外实践、课 外阅读等教学形式。 1)讨论 围绕大数据产生由来、特征、与传统数据不同展开。 2)作业 围绕大数据特征、分布式计算、并行计算布置。 3)课外实践 要求学生数据大数据处理软件等开发工具。 4)课外阅读 阅读关于大数据技术国内外发展过程的文献。 第二章 大数据存储基础 本章的主要知识点包括大数据存储系统的特点;分布式文件系统;分布式键 值系统;新型存储器件的内存系统。 1.教学目标 1)熟练掌握分布式存储系统概念与特点; 2)掌握分布式文件系统架构; 3)掌握分布式键值系统; 4)掌握新型存储器件的内存系统。 本章教学支持的课程目标为目标 2。 2.教学重点 1)分布式文件系统及特点 理解分布式文件系统 HDFS 的系统架构,熟悉数据分布概念,理解数据复制 与一致性,理解数据容错机制、理解分布式文件系统的数据读写流程。 2)分布式键值系统与特点 理解分布式键值系统 Dynamo 的系统架构,熟悉数据分布概念,理解数据复 制与一致性,理解数据容错机制、理解分布式键值系统的负载均衡以及数据读写 流程。 3.教学难点 1)HDFS 系统架构
理解HDFS基本结构,理解NameNode工作原理,理解SecondaryNameNode工作原理,理解DataNode工作原理,理解HDFS副本存访策略,。2)分布式键值系统特点熟悉分布式键值系统数据结构、数据模型与存储方式,理解分布式键值系统与其他格式相互转换方式,理解分布式键值系统的表设计,理解分布式键值系统与传统关系数据库RDBMS的区别。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读等教学形式。1)课堂讨论围绕分布式键值系统与传统关系数据库RDBMS的区别展开。2)作业围绕HDFS副本存访策略等内容布置。3)课外阅读分布式键值系统等相关论文。第三章大数据管理基础本章的主要知识点包括大数据管理的现实需求;大数据的划分策略:大数据的组织管理方式;大数据仓库系统。1.教学目标1)了解大数据特征及相应的管理需求;2)掌握大数据的划分策略;3)掌握大数据的组织管理方式;4)了解大数据仓库系统。本章教学支持的课程目标为目标1和目标3。2.教学重点1)大数据划分大数据的划分策略,数据一致性理论。2)大数据的组织管理方式关系数据库:键值数据库:列值数据库:文档数据库:图数据库。3.教学难点1)数据一致性理论让学生理解在分布式场景下,在保证数据具有一定穴余度的情况下,在更新数据时如何保证数据的一致性
理解 HDFS 基本结构,理解 NameNode 工作原理,理解 Secondary NameNode 工作原理,理解 DataNode 工作原理,理解 HDFS 副本存访策略,。 2)分布式键值系统特点 熟悉分布式键值系统数据结构、数据模型与存储方式,理解分布式键值系统 与其他格式相互转换方式,理解分布式键值系统的表设计,理解分布式键值系统 与传统关系数据库 RDBMS 的区别。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读 等教学形式。 1)课堂讨论 围绕分布式键值系统与传统关系数据库 RDBMS 的区别展开。 2)作业 围绕 HDFS 副本存访策略等内容布置。 3)课外阅读 分布式键值系统等相关论文。 第三章 大数据管理基础 本章的主要知识点包括大数据管理的现实需求;大数据的划分策略;大数据 的组织管理方式;大数据仓库系统。 1.教学目标 1)了解大数据特征及相应的管理需求; 2)掌握大数据的划分策略; 3)掌握大数据的组织管理方式; 4)了解大数据仓库系统。 本章教学支持的课程目标为目标 1 和目标 3。 2.教学重点 1)大数据划分 大数据的划分策略,数据一致性理论。 2)大数据的组织管理方式 关系数据库;键值数据库;列值数据库;文档数据库;图数据库。 3.教学难点 1)数据一致性理论 让学生理解在分布式场景下,在保证数据具有一定冗余度的情况下,在更新 数据时如何保证数据的一致性
2)大数据的组织管理让学生理解五种大数据的组织管理方式:关系数据库、键值数据库、列族数据库、文档数据库、图书库,以及这些组织管理的适用场景。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业与讨论。1)讨论本章课堂讨论主要围绕大数据分片存储的划分方式展开。2)作业本章课堂讨论五种大数据的组织管理方式的异同。第四章大数据编程本章的主要知识点包括函数式编程概念、起源以及特点,针对大数据的处理而设计的MapReduce编程模型,以及对应的案例研究。1.教学目标1)掌握函数式编程概念、起源以及特点;2)掌握针对大数据处理而设计的MapReduce编程模型;3)掌握基于MapReduce编程模型而设计的两个案例分析:本章教学支持课程目标1-目标3。2.教学重点1)函数式编程让学生充分理解函数式编程理念,从函数式编程的起源开始介绍,让学生理解函数式编程的语言家族发展历程,从而深入理解函数式编程的概念及函数式编程的特点。2)MapReduce编程深刻理解MapReduce的编程思想,以问题提出做为切入点,让学生了解MapReduce的起源,熟悉MapReduce的基本功能模块以及这些模块的工作原理,理解MapReduce编程模型的主要特点。3.教学难点1)函数式编程概念掌握理解函数式编程的概念及函数式编程的特点。2)MapReduce编程模块
2)大数据的组织管理 让学生理解五种大数据的组织管理方式:关系数据库、键值数据库、列族数 据库、文档数据库、图书库,以及这些组织管理的适用场景。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业与讨论。 1)讨论 本章课堂讨论主要围绕大数据分片存储的划分方式展开。 2)作业 本章课堂讨论五种大数据的组织管理方式的异同。 第四章 大数据编程 本章的主要知识点包括函数式编程概念、起源以及特点,针对大数据的处理 而设计的 MapReduce 编程模型,以及对应的案例研究。 1.教学目标 1)掌握函数式编程概念、起源以及特点; 2)掌握针对大数据处理而设计的 MapReduce 编程模型; 3)掌握基于 MapReduce 编程模型而设计的两个案例分析; 本章教学支持课程目标 1-目标 3。 2.教学重点 1)函数式编程 让学生充分理解函数式编程理念,从函数式编程的起源开始介绍,让学生理 解函数式编程的语言家族发展历程,从而深入理解函数式编程的概念及函数式编 程的特点。 2)MapReduce 编程 深刻理解 MapReduce 的编程思想,以问题提出做为切入点,让学生了解 MapReduce 的起源,熟悉 MapReduce 的基本功能模块以及这些模块的工作原理, 理解 MapReduce 编程模型的主要特点。 3.教学难点 1)函数式编程概念 掌握理解函数式编程的概念及函数式编程的特点。 2)MapReduce 编程模块