《大数据导论》课程大纲一、课程名称:大数据导论二、课程性质:必修、理论课三、学时与学分:24学时,1.5学分四、课程先导课:信息技术导论,数据结构等五、课程简介《大数据导论》课程是计算机专业的通识课程,为学生学习大数据管理、处理与分析等关键技术打下基础。它是一门通识课程,也是数据科学与大数据专业的必要课程。通过课程的学习,让学生了解大数据专业的内涵特点、大数据与社会经济发展的关系以及大数据的主要学科知识和课程体系。同时培养学生大数据处理问题的思维,引导学生认识大数据技术,要求学生了解学习大数据需要掌握的技术技术知识,熟悉海量数据处理的基本流程以及与之匹配使用的主要技术和工具。通过本课程的学习,加深学生对大数据的认识,并为后续专业课程打下良好的基础。六、课程目标通过相关教学活动,课程学习让学生掌握大数据的概念和基本特征,了解大数据、云计算与人工智能的关系,了解大数据与社会各领域的应用关系。通过对大数据硬件架构和处理流程及相关技术与工具介绍,让学生了解数据预处理,Hadoop、Spark、数据存储及数据分析等技术。通过课程的学习为后续相关课程做铺垫,让学生可以选择不同方向继续大数据的深入学习。课程的具体目标包括:目标1:全面阐述大数据涵盖的基础内容:培养学生认知能力,建立使用大数据技术解决问题的思维;目标2:掌握大数据基本概念、介绍大数据核心关键技术;培养学生数据搜集、加工处理和分析的能力;目标3:对大数据技术的广泛应用及前沿发展有所了解:通过学习大数据所带来的新应用、新技术、新工具,培养学生的创新精神,促进学生将大数据与生活结合起来。七、课程自标对毕业要求的支撑关系
《大数据导论》课程大纲 一、课程名称:大数据导论 二、课程性质:必修、理论课 三、学时与学分:24 学时,1.5 学分 四、课程先导课:信息技术导论,数据结构等 五、课程简介 《大数据导论》课程是计算机专业的通识课程,为学生学习大数据管理、处 理与分析等关键技术打下基础。它是一门通识课程,也是数据科学与大数据专业 的必要课程。通过课程的学习,让学生了解大数据专业的内涵特点、大数据与社 会经济发展的关系以及大数据的主要学科知识和课程体系。同时培养学生大数据 处理问题的思维,引导学生认识大数据技术,要求学生了解学习大数据需要掌握 的技术技术知识,熟悉海量数据处理的基本流程以及与之匹配使用的主要技术和 工具。通过本课程的学习,加深学生对大数据的认识,并为后续专业课程打下良 好的基础。 六、课程目标 通过相关教学活动,课程学习让学生掌握大数据的概念和基本特征,了解大 数据、云计算与人工智能的关系,了解大数据与社会各领域的应用关系。通过对 大数据硬件架构和处理流程及相关技术与工具介绍,让学生了解数据预处理, Hadoop、Spark、数据存储及数据分析等技术。通过课程的学习为后续相关课程 做铺垫,让学生可以选择不同方向继续大数据的深入学习。 课程的具体目标包括: 目标 1:全面阐述大数据涵盖的基础内容;培养学生认知能力,建立使用大 数据技术解决问题的思维; 目标 2:掌握大数据基本概念、介绍大数据核心关键技术;培养学生数据搜 集、加工处理和分析的能力; 目标 3:对大数据技术的广泛应用及前沿发展有所了解;通过学习大数据所 带来的新应用、新技术、新工具,培养学生的创新精神,促进学生将大数据与生 活结合起来。 七、课程目标对毕业要求的支撑关系
支撑的毕业要求二级指标点对应课程目标1.3能将软硬件知识、相关工程知识和模型方法用于推演和分析计算目标1机复杂工程问题1.4能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程目标2问题解决方案进行比较和综合2.1能综合运用数学、自然科学、工程科学以及计算机科学的基本原目标3理,识别、判断和表达计算机复杂工程问题的关键环节12.1能认识到计算机技术日新月异的发展特点,认同自主学习和终目标4身学习的必要性12.2具备自主学习能力,能通过多种途径拓展自己的知识和能力,目标5包括理解能力,归纳总结的能力和提出问题的能力等八,教学设计及对课程目标的支持第一章数据与大数据1.教学目标1)了解国际、国内大数据的发展现状;2)了解从数据到大数据的发展脉络,大数据应用现状:3)掌握大数据多边定义,大数据是什么、有什么用以及如何用:4)熟悉大数据价值期望,了解大数据的研究范式;5)熟悉大数据技术图谱,大数据的生命周期以及大数据价值实现。本章教学支持课程目标1和课程目标3。2.教学重点1)大数据的多边定义和理解这是大数据的出发点,要求学生能深刻理解大数据的内涵,大数据不仅仅是“大”,所谓大数据,是指数据本身及为了实现“数据->价值”。大数据已成为联系人类社会、物理世界和信息世界的纽带,需要构建融合人、机、物三元世界统一的信息系统。2)大数据价值期望熟悉大数据所对应的价值,了解大数据引导传统产业重构并催生新兴业态,基于大数据所带来的新型人工智能应用快速发展。3.教学难点1)大数据价值实现的系列方法、思路和策略掌握如何从数据到知识、从知识到智能的能力。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业、课外实践和课外阅读等教学形式
支撑的毕业要求二级指标点 对应课程目标 1.3 能将软硬件知识、相关工程知识和模型方法用于推演和分析计算 机复杂工程问题 目标 1 1.4 能将软硬件知识、相关工程知识和模型方法用于计算机复杂工程 问题解决方案进行比较和综合 目标 2 2.1 能综合运用数学、自然科学、工程科学以及计算机科学的基本原 理,识别、判断和表达计算机复杂工程问题的关键环节 目标 3 12.1 能认识到计算机技术日新月异的发展特点,认同自主学习和终 身学习的必要性 目标 4 12.2 具备自主学习能力,能通过多种途径拓展自己的知识和能力, 包括理解能力,归纳总结的能力和提出问题的能力等 目标 5 八、教学设计及对课程目标的支持 第一章 数据与大数据 1.教学目标 1)了解国际、国内大数据的发展现状; 2)了解从数据到大数据的发展脉络,大数据应用现状; 3)掌握大数据多边定义,大数据是什么、有什么用以及如何用; 4)熟悉大数据价值期望,了解大数据的研究范式; 5)熟悉大数据技术图谱,大数据的生命周期以及大数据价值实现。 本章教学支持课程目标 1 和课程目标 3。 2.教学重点 1)大数据的多边定义和理解 这是大数据的出发点,要求学生能深刻理解大数据的内涵,大数据不仅仅是 “大”,所谓大数据,是指数据本身及为了实现“数据->价值”。大数据已成为 联系人类社会、物理世界和信息世界的纽带,需要构建融合人、机、物三元世界 统一的信息系统。 2)大数据价值期望 熟悉大数据所对应的价值,了解大数据引导传统产业重构并催生新兴业态, 基于大数据所带来的新型人工智能应用快速发展。 3.教学难点 1)大数据价值实现的系列方法、思路和策略 掌握如何从数据到知识、从知识到智能的能力。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业、课外实践和课 外阅读等教学形式
1)讨论围绕大数据分类、数据智能与数据科学等问题展开。2)作业围绕大数据价值实现进行布置。3)课外实践要求学生学习亚马逊的大规模推荐系统,大数据下淘宝“千人千面”,今日头条数字营销,将学习的结果应用于本章的课堂讨论。4)课外阅读阅读观看央视《大数据时代》纪录片。第二章大数据感知与获取本章的主要知识点包括数据获取的渠道,内部数据及获取方法,外部数据及获取方法和深网数据及获取方法。1.教学目标1)了解海量数据的产生;2)熟练掌握多种多样的数据格式3)掌握不同数据源需不同的获取协议;大数据应用的多源性特征;不同数据源的获取技术/策略;4)了解几种典型的数据获取途径。本章教学支持的课程目标为目标2。2.教学重点1)数据格式将本章多中多样的数据格式主要包括交易记录、系统日志、搜索历史、社交等,让学生深刻理解数据是信息时代的基础生活资料与市场要素。2)数据获取让学生理解不同数据源的获取协议、掌握大数据应用的典型特征、数据获取渠道的技术流分类。理解内部数据与互联网数据的不同。3.教学难点1)外部数据获取理解网络大数据的特性,多源异构性、时效性、社会性和高噪音等:掌握利用网络爬虫自动抓取万维网信息。2)深网数据及获取方法了解深网内容的价值,深网信息的特点:课程教学阶段要让学生通过对深网数据的深刻理解,掌握相应数据获取的方法
1)讨论 围绕大数据分类、数据智能与数据科学等问题展开。 2)作业 围绕大数据价值实现进行布置。 3)课外实践 要求学生学习亚马逊的大规模推荐系统,大数据下淘宝“千人千面”,今日 头条数字营销,将学习的结果应用于本章的课堂讨论。 4)课外阅读 阅读观看央视《大数据时代》纪录片。 第二章 大数据感知与获取 本章的主要知识点包括数据获取的渠道,内部数据及获取方法,外部数据及 获取方法和深网数据及获取方法。 1.教学目标 1)了解海量数据的产生; 2)熟练掌握多种多样的数据格式; 3)掌握不同数据源需不同的获取协议;大数据应用的多源性特征;不同数 据源的获取技术/策略; 4)了解几种典型的数据获取途径。 本章教学支持的课程目标为目标 2。 2.教学重点 1)数据格式 将本章多中多样的数据格式主要包括交易记录、系统日志、搜索历史、社交 等,让学生深刻理解数据是信息时代的基础生活资料与市场要素。 2)数据获取 让学生理解不同数据源的获取协议、掌握大数据应用的典型特征、数据获取 渠道的技术流分类。理解内部数据与互联网数据的不同。 3.教学难点 1)外部数据获取 理解网络大数据的特性,多源异构性、时效性、社会性和高噪音等;掌握利 用网络爬虫自动抓取万维网信息。 2)深网数据及获取方法 了解深网内容的价值,深网信息的特点;课程教学阶段要让学生通过对深网 数据的深刻理解,掌握相应数据获取的方法
4.教学环节设计围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读等教学形式。1)课堂讨论围绕不同数据获取方法的局限性展开。2)作业围绕数据获取方法、数据价值发现等内容布置。3)课外阅读[VLDB'01]Crawling theHidden Web,[PVLDB'08] Google'sDeep-WebCraw等内容。第三章大数据存储与管理本章的主要知识点包括分布式文件系统,分布式数据库,非关系型数据库,云数据库,大数据的SQL查询引擎。1.教学目标1)掌握分布式文件系统的基本概念;2)掌握HDFS的主要设计目标;3)学习分布式数据库HBase;4)掌握NoSQL与关系数据库的不同。本章教学支持的课程目标为目标2和目标3。2.教学重点1)分布式文件系统的数据存储方式,安全机制,数据读取速率和评价指标。2)非关系型与关系数据库的优势和劣势对比。3.教学难点1)BASE理论基本可用性,允许分区失败:状态允许有短时间不同步;最终一致性,数据最终保持一致。2)CAP理论让学生深刻理解一个分布式系统最多只能同时满足一致性、可用性和分区容错这三项中的两项。3)SQL查询引擎课程教学阶段要让学生通过大数据SOL查询引擎来处理大规模数据,掌握SQL结构化查询语言,设计大数据的访问和查询接口。4.教学环节设计
4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讨论、作业、课外实践、课外阅读 等教学形式。 1)课堂讨论 围绕不同数据获取方法的局限性展开。 2)作业 围绕数据获取方法、数据价值发现等内容布置。 3)课外阅读 [VLDB’01] Crawling the Hidden Web、[PVLDB’08] Google’s Deep-Web Craw 等内容。 第三章 大数据存储与管理 本章的主要知识点包括分布式文件系统,分布式数据库,非关系型数据库, 云数据库,大数据的 SQL 查询引擎。 1.教学目标 1)掌握分布式文件系统的基本概念; 2)掌握 HDFS 的主要设计目标; 3)学习分布式数据库 HBase; 4)掌握 NoSQL 与关系数据库的不同。 本章教学支持的课程目标为目标 2 和目标 3。 2.教学重点 1)分布式文件系统的数据存储方式,安全机制,数据读取速率和评价指标。 2)非关系型与关系数据库的优势和劣势对比。 3.教学难点 1)BASE 理论 基本可用性,允许分区失败;状态允许有短时间不同步;最终一致性,数据 最终保持一致。 2)CAP 理论 让学生深刻理解一个分布式系统最多只能同时满足一致性、可用性和分区容 错这三项中的两项。 3)SQL 查询引擎 课程教学阶段要让学生通过大数据 SQL 查询引擎来处理大规模数据,掌握 SQL 结构化查询语言,设计大数据的访问和查询接口。 4.教学环节设计
围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业。1)讨论本章课堂讨论主要围绕典型的云数据库展开。2)作业课后使用Phoenix等查询引擎在分布式数据库上进行创建表、插入数据和数据查询。第四章大数据分析本章的主要知识点包括数据理解与预处理,数据建模基本方法-机器学习,高级数据建模技术-深度学习,大数据可视化技术,帮助学生认识到数据分析是大数据处理的重要组成部分。1.教学目标1)掌握不同的数据类型,数据度量方法;2)掌握数据建模方法;3)掌握机器学习过程,非监督学习:4)熟悉高级数据建模技术;5)熟悉大数据可视化技术。本章教学支持课程目标2。2.教学重点1)数据工程将数据转化为有利于后续分析的处理形式,进行形式化的表示和描述,2)数据挖掘深刻理解数据挖掘是从现有的信息中提取数据的模式和模型,是从大数据中找出知识的过程。3)可视化技术掌握大数据可视化方法技术,学会使用大数据可视化工具。3.教学难点1)深度学习掌握卷积神经网络主要包括的输入层、卷积层、池化层、全连接层以及输出层等。2)可视分析通过交互式可视化界面辅助用户对大规模复杂数据集进行分析推理的科学与技术。4.教学环节设计
围绕教学重点和教学难点,综合应用课堂讲授与讨论、作业。 1)讨论 本章课堂讨论主要围绕典型的云数据库展开。 2)作业 课后使用 Phoenix 等查询引擎在分布式数据库上进行创建表、插入数据和数 据查询。 第四章 大数据分析 本章的主要知识点包括数据理解与预处理,数据建模基本方法-机器学习,高 级数据建模技术-深度学习,大数据可视化技术,帮助学生认识到数据分析是大 数据处理的重要组成部分。 1.教学目标 1)掌握不同的数据类型,数据度量方法; 2)掌握数据建模方法; 3)掌握机器学习过程,非监督学习; 4)熟悉高级数据建模技术; 5)熟悉大数据可视化技术。 本章教学支持课程目标 2。 2.教学重点 1)数据工程 将数据转化为有利于后续分析的处理形式,进行形式化的表示和描述。 2)数据挖掘 深刻理解数据挖掘是从现有的信息中提取数据的模式和模型,是从大数据中 找出知识的过程。 3)可视化技术 掌握大数据可视化方法技术,学会使用大数据可视化工具。 3.教学难点 1)深度学习 掌握卷积神经网络主要包括的输入层、卷积层、池化层、全连接层以及输出 层等。 2)可视分析 通过交互式可视化界面辅助用户对大规模复杂数据集进行分析推理的科学 与技术。 4.教学环节设计