课程运行和建设情况 全日制专业硕士《大数据技术基础》课程负责人 文件名 媒体大数据内容理解与智能 选课人数超过100人,旁听 四 PBigData-PPT-ch序号 大数据技术实施层次 P ig Data-PpT-Ch安装Hado 大数据融合与存储 作为课程参考教材 我的网盘·大数国技术基础学生考 搜素我的网 □[ain-+nnrc 文件名 四【 o o spare 文回回12大数作业甘材是升唐令 015-11-2713:17 知圆13组大数黑程 2015-112623:54 9 Spar 国大1 2015-11-262228 四大日1 2015-11-262241 o Spar 2015-11-262228 人 ②大数 国大回4大数报告李刘路彭西 2015-11-262232 e大数9大国7亚媒王东大 2015-11-262234 回国第大数(电 回【四 □9大数作业张胜男崔茂刘亚东 2015-11-262236 数据 第回10大数术资料却 2015-11-262237 以第口丽11要杰杰朱根发朱礼伟大数技术 49521M日 2015-11-262237 ②北京大 13回马14大数术基 2015-11-262239 15王题16大款海陈鸡,王血P 265.11MB 2015-11-262240 LPPP 一国17大数据基础2015141306杨森201 2640MB 2015-11262240 igData-PPT-Ch16回徐19厘大数技木基2154 131.89MB2015-1-262241 ogAta-ppT-Ch「17日徐口题大数技术基础(漂江灵许 88.59MB 2015-11-262229 国3大数痛程作业xip 31.32MB 201511-262232 18国张 □国5组大数技术基础数据集x 9432MB 2015-11-262245 Big Data- PPT-Chia?回国张回6大数程2051413073a 25.34MB 2015-11-2622134 增乔背冒贯源厍,可以供子生恒系、分析、头驱和头政,廾又捋动展 信息物理社会可信服务计算重点实验室
课程运行和建设情况 全日制专业硕士《大数据技术基础》课程负责人 该课程被列为计算机学院全日制专业硕士专业特色课程,同时申请了“媒体大数据内容理解与智能 服务”校内实训项目,秋季学期开课,32学时,2学分,目前开课2次,选课人数超过100人,旁听 人数未统计(约50人) 收集、整理并制作了16章课程教学课件,形成了课程教学大纲,选取了9本教材作为课程参考教材 收集了Duke University《Algorithms for Big-Data Management》、University of Minnesota, Twin Cities《Big Data and the Cloud》、University of Rochester《Big Data Computer Systems》、 Washington University in St. Louis《Recent Advances in Networking - Data Center Virtualization, SDN, Big Data, Cloud Computing, Internet of Things》、University of Connecticut《Topics in Big Data Analytics》、北京大学《大规模数据处理与云计算》等国内外大数据相关20余门课程教学内容 、教学组织、知识单元结构作为课程教学重要参考 收集了腾讯《腾讯分布式数据仓库(TDW)》、京东《Hadoop在京东的应用》、阿里巴巴《基于 Spark on Yarn的淘宝数据挖掘平台》、中山大学《大数据分析的案例、方法与挑战》等30余份专题 报告作为课程行业参考 收集了190余篇大数据相关技术与教学研究论文,参加了20余次大数据相关技术与教学研讨 为了增强学生的实践能力,开课之初就组成3-4人的项目小组,按照课程项目驱动学生学习,最终的 考核成绩也按照项目完成情况和难度系数加权得到,为了杜绝个别学生的惰性,课程项目实施过程 需要全程录制视频 通过两个学年的课程建设,形成了20个按照大数据技术实施层次和大数据技术工程师等级的课程项 目;形成了33份小组课程报告,收集了气象、新闻、生物、电商、音乐、电影、点评等20余个领域 的约3TB数据;在20个课程项目的基础上,鼓励学生自由选题,还形成了足球比赛预测、电商销售 预测、音乐推荐等大数据新型技术、模型和系统,这些数据资源将导入大数据创新人才实训与实践 培养平台资源库,可以供学生检索、分析、实验和实践,并支持动态扩展 项 目 序号 项目名称 大数据技术实施层次 难度等级 1 安装Hadoop 大数据融合与存储 初级 2 熟悉常用的Spark操作 大数据融合与存储 初级 3 熟悉常用的HDFS操作 大数据融合与存储 初级 4 熟悉常用的HBase操作 大数据融合与存储 初级 5 HDFS-Java-API编程实践 大数据融合与存储、大数据 计算与分析 初级 6 HBase-Shell命令和Java-API编程 实践 大数据融合与存储、大数据 计算与分析 初级 7 MapReduce编程初级实践 大数据计算与分析 初级 8 用 MapReduce 实现数据集连接 (Join)操作 大数据计算与分析、大数据 典型应用 初级 9 编写MapReduce程序实现词频统 计 大数据计算与分析、大数据 融合与存储 初级 10 熟悉MongoDB的基本操作 大数据融合与存储 中级 11 使用RDS-for-MySQL数据库 大数据融合与存储 中级 12 关系数据库和NoSQL数据库操作实 践 大数据融合与存储 中级 13 大数据推荐系统 大数据典型应用 中级 14 基于ECharts可视化库的图表制作 大数据可视化 中级 15 Easel.ly信息图制作实践 大数据可视化 中级 16 Hadoop上的数据仓库Hive初级实 践教程 大数据融合与存储 高级 17 图计算框架Hama的基础操作实践 大数据计算与分析 高级 18 大数据技术与流量异常检测 大数据典型应用 高级 19 D3可视化库安装和使用 大数据可视化 高级 20 可视化工具Tableau操作实践 大数据可视化 高级
三次研讨课内容建议(每次可选其中一点或多点,均需 要结合自身实践或部分实践) ■第一次研讨课:1、Hdop的生态链结构、安装 与部署方式、在典型行业和企业的应用案例; 2、分布式爬虫技术及其实践 ■第二次研讨课:1、 MapReduce工作流程、要点 编程实践与算例;2、⑩DFS文件系统及其数 据读写方式;3、Hive数据仓库技术及其应用 ;4、 NOSQL数据存储技术及其应用案例 第三次研讨课:1、 Spark内存计算架构及其并 行编程方式与算例;2、数据可视化技术及其 案例 信息物理社会可信服务计算重点实验室
三次研讨课内容建议(每次可选其中一点或多点,均需 要结合自身实践或部分实践) 第一次研讨课:1、Hdoop的生态链结构、安装 与部署方式、在典型行业和企业的应用案例; 2、分布式爬虫技术及其实践 第二次研讨课:1、MapReduce工作流程、要点 、编程实践与算例;2、HDFS文件系统及其数 据读写方式;3、Hive数据仓库技术及其应用 ;4、NoSQL数据存储技术及其应用案例 第三次研讨课:1、Spark内存计算架构及其并 行编程方式与算例;2、数据可视化技术及其 案例
大数据时代
大数据时代
信息技术革命的小周期 慧化 2 网络化 移动互联网 数字化1990 云计算 架构化 1970-1990 物联网 1950-1970 大数据 Something Big is Happening NOW
1 3 2 架构化 1950-1970 数字化 1970-1990 网络化 1990-2010+ 物联网 大数据 Something Big is Happening NOW 移动互联网 云计算 4 信息技术革命的小周期 智慧化
大数据之大 〉《红楼梦》含标点87万字(不含标点853509字) 每个汉字占两个字节:1汉字=16bt=2*8位=2 bytes 丶1GB约等于671部红楼梦 TB约等于631,903部 1PB约等于647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4 月:收录数据235TB) 中国国家图书馆:2631万册 1EB=4000倍美国国会图书馆存储的信息量 丶600美元的硬盘就可以存储全世界所有的歌曲 丶MG|数据:全球企业2010年在硬盘上存储了超过 7EB(EB等于10亿GB)的新数据,同时,消费者在PC 和笔记本等设备上存储了超过6EB新数据
大数据之大 《红楼梦》含标点87万字(不含标点853509字) 每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes 1GB 约等于671部红楼梦 1TB 约等于631,903 部 1PB 约等于647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4 月:收录数据235TB ) 中国国家图书馆:2631万册 1EB = 4000倍美国国会图书馆存储的信息量 600美元的硬盘就可以存储全世界所有的歌曲 MGI数据:全球企业2010 年在硬盘上存储了超过 7EB(1EB 等于10 亿GB)的新数据,同时,消费者在PC 和笔记本等设备上存储了超过6EB 新数据 2019/5/16 15