当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《大数据导论》课程讲义（PPT教学课件）第7章数据处理与分析

7.1 数据处理与分析的概念 7.1.1 数据分析与数据挖掘 7.1.2数据分析与数据处理 7.1.3大数据处理与分析 7.2机器学习和数据挖掘算法 7.2.1概述 7.2.2 分类 7.2.3聚类 7.2.4 回归分析 7.2.5关联规则 7.2.6协同过滤 7.3 大数据处理与分析技术 7.3.1技术分类 7.3.2 流计算 7.3.3 图计算 7.4大数据处理与分析代表性产品 7.4.1 分布式计算框架MapReduce 7.4.2 数据仓库Hive 7.4.3数据仓库Impala 7.4.4 基于内存的分布式计算框架Spark 7.4.5 TensorFlowOnSpark 7.4.6 流计算框架Storm 7.4.7 流计算框架Flink 7.4.8大数据编程框架Beam 7.4.9查询分析系统Dremel

文件格式：PPT，文件大小：6.16MB，售价：25.3元

共122页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约122页）

72.6协同过滤基于物品的协同过滤算法(简称 IemcA算法)是目前业界应用最多的算法。无论是亚马逊还是Netfⅸ,其推荐系统的基础都是 Items算法。 ItemE算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品。 ItemE算法并不利用物品的内容属性计算物品之间的相似度,而主要通过分析用户的行为记录来计算物品之间的相似度,该算法基于的假设是物品A和物品B具有很大的相似度是因为喜欢物品A的用户大多也喜欢物品B。例如,该算法会因为你购买过《数据挖掘导论》而给你推荐《机器学习实战》,因为,买过《数据挖掘导论》的用户多数也购买了《机器学习实战》。基于模型的协同过滤算法( ModelcF)是通过已经观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。实际上 ModelCF同时考虑了用户和物品两个方面,因此,它也可以看作是 UserC和| emcF的混合形式大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.2.6协同过滤基于物品的协同过滤算法（简称ItemCF算法）是目前业界应用最多的算法。无论是亚马逊还是Netflix，其推荐系统的基础都是ItemCF算法。 ItemCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品。 ItemCF算法并不利用物品的内容属性计算物品之间的相似度，而主要通过分析用户的行为记录来计算物品之间的相似度，该算法基于的假设是：物品A和物品B具有很大的相似度是因为喜欢物品A的用户大多也喜欢物品B。例如，该算法会因为你购买过《数据挖掘导论》而给你推荐《机器学习实战》，因为，买过《数据挖掘导论》的用户多数也购买了《机器学习实战》。基于模型的协同过滤算法（ModelCF）是通过已经观察到的所有用户给产品的打分，来推断每个用户的喜好并向用户推荐适合的产品。实际上， ModelCF同时考虑了用户和物品两个方面，因此，它也可以看作是 UserCF和ItemCF的混合形式

7.3大数据处理与分析技术 73.1技术分类 7.32流计算 733图计算大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.3 大数据处理与分析技术 7.3.1技术分类 7.3.2 流计算 7.3.3 图计算

7.31技术分类表大数据计算模式及其代表产品大数据计算模式解决问题代表产品批处理计算针对大规模数据的批 Map Reduce、 Spark等量处理 Flink、 Storm、S4、 Spark 流计算针对流数据的实时计 Streaming、 Flume、 Streams、算 Puma、 DStream、 Super mario 银河流数据处理平台等 Pregel、 GraphX、 Graph、图计算针对大规模图结构数 Powerτph、Hama、据的处理 Golden orb等查询分析计算大规模数据的存储管 Dremel、Hive、 Cassandra、理和查询分析 Impala 大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.3.1技术分类大数据计算模式解决问题代表产品批处理计算针对大规模数据的批量处理 MapReduce、Spark等流计算针对流数据的实时计算 Flink、Storm、S4、Spark Streaming、Flume、Streams、 Puma、DStream、Super Mario 、银河流数据处理平台等图计算针对大规模图结构数据的处理 Pregel、GraphX、Giraph、 PowerGraph、Hama、 GoldenOrb等查询分析计算大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、 Impala等表大数据计算模式及其代表产品

勇7.32流计算 1流计算概念流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息 : @ 数据采集》实时分析处理》结果反馈图7-1流计算示意图大数据导论厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.3.2 流计算流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息。数据采集实时分析处理结果反馈 1.流计算概念图7-1 流计算示意图

勇7.32流计算流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低,如用户点击流。因此,当事件出现时就应该立即进行处理,而不是缓存起来进行批量处理。为了及时处理流数据,就需要一个低延迟、可扩展、高可靠的处理引擎对于一个流计算系统来说,它应达到如下需求: 高性能:处理大数据的基本要求,如每秒处理几十万条数据海量式:支持TB级甚至是PB级的数据规模 ·实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别分布式:支持大数据的基本架构,必须能够平滑扩展易用性:能够快速进行开发和部署可靠性:能可靠地处理流数据大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据导论》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.3.2 流计算流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低，如用户点击流。因此，当事件出现时就应该立即进行处理，而不是缓存起来进行批量处理。为了及时处理流数据，就需要一个低延迟、可扩展、高可靠的处理引擎对于一个流计算系统来说，它应达到如下需求： •高性能：处理大数据的基本要求，如每秒处理几十万条数据 •海量式：支持TB级甚至是PB级的数据规模 •实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别 •分布式：支持大数据的基本架构，必须能够平滑扩展 •易用性：能够快速进行开发和部署 •可靠性：能可靠地处理流数据

点击进入文档下载页（PPT格式）

共122页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第2章 Scala语言基础
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第1章大数据技术概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第7章 MapReduce
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）课程介绍（主讲：林子雨）
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第3章分布式文件系统HDFS
厦门大学：《计算机应用基础》PPT讲义课件_第二章操作系统Windows XP
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第6章云数据库
复旦大学：《高级Web技术》课程教学大纲（戴开宇）
《高级Web技术》参考资料：MyEclipse创建基于X-File的Web service及调用实例详解
《高级Web技术》参考资料：Architectural Styles and the design of Network-based Software Achitectures
《高级Web技术》参考资料：MyEclipse 6 Java 开发中文教程_第十一章开发Spring+Struts+Hibernate应用
《高级Web技术》参考资料：Spring中文教程（Spring Framework开发参考手册 version 1.1）
《高级Web技术》参考资料：MyEclipse 6 Java 开发中文教程_第十六章开发EJB应用
《高级Web技术》参考资料：MyEclipse 6 Java 开发中文教程_第十五章开发XFire Web Service应用
《高级Web技术》参考资料：深入Spring 2：轻量级J2EE开发框架原理与实践_第五章面向切面的编程（AOP）及在Spring中的应用

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录