《数据采集与预处理》课程教学大纲 一、课程基本信息 课程代码:20110083 课程名称:数据采集与预处理 英文名称:DataAcquisition and Preprocessing 课程类别:专业课 时:48 学 分:3 适用对象:2020级大数据管理与应用专业 考核方式:考查 先修课程:Python程序设计 二、课程简介 本课程详细阐述了大数据领域数据采集与预处理的相关理论和技术,是大数据管 理与应用专业的核心课程。课程内容共8章,包括概述、大数据实验环境搭建、网络 数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成 ETL工具Kettle、使用pandas进行数据清洗。通过本课程的学习,引导学生向数据 工程师方向发展。 This course describes in detail the relevant theories and technologies of data acquisition and preprocessing in the field of big data.The course consists of 8 chapters,including overview,establishment of big data experimental environment,network data collection,distributed message system Kafka,log collection system flume,data integration in data warehouse,ETL tool kettle,and data cleaning using pandas. 三、课程性质与教学目的 《数据采集与预处理》是大数据管理与应用专业开设的一门专业基础课。课程全 面、系统的介绍大数据领域数据采集与预处理的相关理论和技术。 通过本课程的学习旨在让学生实现以下教学目的: (1)培养合格的社会主义事业接班人: (2) 拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法: (3)熟悉大数据实验环境的搭建方法:了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法:了解Kafka的特性,掌握使用Python操作Kafka的方 1
1 《数据采集与预处理》课程教学大纲 一、课程基本信息 课程代码:20110083 课程名称:数据采集与预处理 英文名称:Data Acquisition and Preprocessing 课程类别:专业课 学 时:48 学 分:3 适用对象:2020 级大数据管理与应用专业 考核方式:考查 先修课程:Python 程序设计 二、课程简介 本课程详细阐述了大数据领域数据采集与预处理的相关理论和技术,是大数据管 理与应用专业的核心课程。课程内容共 8 章,包括概述、大数据实验环境搭建、网络 数据采集、分布式消息系统 Kafka、日志采集系统 Flume、数据仓库中的数据集成、 ETL 工具 Kettle、使用 pandas 进行数据清洗。通过本课程的学习,引导学生向数据 工程师方向发展。 This course describes in detail the relevant theories and technologies of data acquisition and preprocessing in the field of big data. The course consists of 8 chapters, including overview, establishment of big data experimental environment, network data collection, distributed message system Kafka, log collection system flume, data integration in data warehouse, ETL tool kettle, and data cleaning using pandas. 三、课程性质与教学目的 《数据采集与预处理》是大数据管理与应用专业开设的一门专业基础课。课程全 面、系统的介绍大数据领域数据采集与预处理的相关理论和技术。 通过本课程的学习旨在让学生实现以下教学目的: (1) 培养合格的社会主义事业接班人; (2) 拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法; (3) 熟悉大数据实验环境的搭建方法;了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法;了解 Kafka 的特性,掌握使用 Python 操作 Kafka 的方
法:了解Flume的组件功能,掌握使用Flume采集数据的方法:了解数据仓库中的数 据集成方法,熟悉ETL和CDC:掌握ETL工具Kettle的基本使用方法:掌握使用pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野 培养学生的数据能力。 四、教学内容及要求 第一章概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务:掌握数据的概念、类型、组织形式等:掌握数据预处理的主要步骤: 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就:理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性。 (二)教学内容 1.1.数据 1.1.1. 数据的概念 1.1.2. 数据类型 1.1.3. 数据的组织形式 1.1.4. 数据的价值 1.1.5. 数据爆炸 1.2.数据分析过程 1.3.数据采集与预处理的任务 1.4.数据采集 1.4.1. 数据采集的概 1.4.2. 数据采集的三大要点 1.4.3. 数据采集的数据源 1.4.4. 数据采集方法 1.5.数据清洗 1.5.1. 数据清洗的应用领域 1.5.2. 数据清洗的实现方式 1.5.3. 数据清洗的内容 1.5.4. 数据清洗的注意事项 1.5.5. 数据清洗的基本流程 2
2 法;了解 Flume 的组件功能,掌握使用 Flume 采集数据的方法;了解数据仓库中的数 据集成方法,熟悉 ETL 和 CDC;掌握 ETL 工具 Kettle 的基本使用方法;掌握使用 pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野, 培养学生的数据能力。 四、教学内容及要求 第一章 概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务;掌握数据的概念、类型、组织形式等;掌握数据预处理的主要步骤; 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就;理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性。 (二)教学内容 1.1. 数据 1.1.1. 数据的概念 1.1.2. 数据类型 1.1.3. 数据的组织形式 1.1.4. 数据的价值 1.1.5. 数据爆炸 1.2. 数据分析过程 1.3. 数据采集与预处理的任务 1.4. 数据采集 1.4.1. 数据采集的概念 1.4.2. 数据采集的三大要点 1.4.3. 数据采集的数据源 1.4.4. 数据采集方法 1.5. 数据清洗 1.5.1. 数据清洗的应用领域 1.5.2. 数据清洗的实现方式 1.5.3. 数据清洗的内容 1.5.4. 数据清洗的注意事项 1.5.5. 数据清洗的基本流程
1.5.6. 数据清洗的评价标准 1.6.数据集成 1.7.数据转换 1.7.1. 数据转换策略 1.7.2. 平滑处理 1.7.3. 规范化处理 1.8.数据脱敏 1.8.1. 数据脱敏原则 1.8.2. 数据脱敏方法 (三)思考与实践 1.数据采集与预处理在大数据应用过程的重要性? 2.数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括Python、 JDK、MySQL、 Hadoop等的搭建方法,为后续的实验开展提供基础。 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.1.Python的安装和使用 2.1.1. Python简介 2.1.2. Python的安装 2.1.3. Python的基本使用方法 2.1.4. Python基础语法知识 2.1.5. Python第三方模块的安装 2.2.JDK的安装 2.3.MySQL数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言SQL 2.3.3. 安转vSOL 2.3.4. MySQL数据库的实用方法 3
3 1.5.6. 数据清洗的评价标准 1.6. 数据集成 1.7. 数据转换 1.7.1. 数据转换策略 1.7.2. 平滑处理 1.7.3. 规范化处理 1.8. 数据脱敏 1.8.1. 数据脱敏原则 1.8.2. 数据脱敏方法 (三)思考与实践 1. 数据采集与预处理在大数据应用过程的重要性? 2. 数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章 大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括 Python、 JDK、MySQL、Hadoop 等的搭建方法,为后续的实验开展提供基础。 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.1. Python 的安装和使用 2.1.1. Python 简介 2.1.2. Python 的安装 2.1.3. Python 的基本使用方法 2.1.4. Python 基础语法知识 2.1.5. Python 第三方模块的安装 2.2. JDK 的安装 2.3. MySQL 数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言 SQL 2.3.3. 安装 MySQL 2.3.4. MySQL 数据库的实用方法
2.3.5.使用Python操作MySQL数据库 2.4.Hadoop的安装和使用 2.4.1. Hadoop简介 2.4.2. 分布式文件系统HDFS 2.4.3. Hadoop的安装 2.4.4. HDFS的基本使用方法 (三)思老与实 1.Python语言的优点? 2.关系型数据库的特点? 3.HDFS的体系结构。 4.实践:实验1熟悉MySQL和HDFS操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引孳或需要网络数据的企业提供数据来源:掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1.网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2.网页基础知识 3.2.1. 超文本和HT 3.2.2. HTTP 3.3.用Python实现HTTP请求 3.3.1. urllib模块 3.3.2. ur11ib3模块 3.3.3. requests模块 3.4.定制requests 3.4.1. 传递URL参数 3.4.2. 定制请求头 3.4.3. 网络超时
4 2.3.5. 使用 Python 操作 MySQL 数据库 2.4. Hadoop 的安装和使用 2.4.1. Hadoop 简介 2.4.2. 分布式文件系统 HDFS 2.4.3. Hadoop 的安装 2.4.4. HDFS 的基本使用方法 (三)思考与实践 1. Python 语言的优点? 2. 关系型数据库的特点? 3. HDFS 的体系结构。 4. 实践:实验 1 熟悉 MySQL 和 HDFS 操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章 网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引擎或需要网络数据的企业提供数据来源;掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1. 网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2. 网页基础知识 3.2.1. 超文本和 HTML 3.2.2. HTTP 3.3. 用 Python 实现 HTTP 请求 3.3.1. urllib 模块 3.3.2. urllib3 模块 3.3.3. requests 模块 3.4. 定制 requests 3.4.1. 传递 URL 参数 3.4.2. 定制请求头 3.4.3. 网络超时
3.5.解析网页 3.5.1. BeautifulSoup简介 3.5.2 BeautifulSoup四大对象 3.5.3. 遍历文档树 3.5.4. CSS选择器 3.6.综合实例 3.6.1. 实例1:采集网页数据保存到文本 36.2. 实例2:采集网页数据保存到MSQL数据库 3.7.Scrapy框架 3.7.1. Scrapy框架概述 3.7.2. Xpath语言 3.7.3 crapy框架应用实例 (三)思考与实践 1.网络爬虫有哪些类型? 2.什么是反爬机制? 工作流的主要步骤有哪些? 网络爬虫初级实践 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章分布式消息系统Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统Kafka与传统消息系统之间的区别。 (二)教学内容 4.1.Kafka简介 4.1.1. Kafka的特性 412. Kafka的应用场景 4.1.3. Kafka的消息传递摸式 4.2.Kafka在大数据生态系统中的作用 4.3.Kafka与F1ume的区别与联系 4.4.Kafka相关概念 4.5.Kafka的安装和使用 4.5.1. 安装Kafka 4.5.2. 使用Kafka 5
5 3.5. 解析网页 3.5.1. BeautifulSoup 简介 3.5.2. BeautifulSoup 四大对象 3.5.3. 遍历文档树 3.5.4. CSS 选择器 3.6. 综合实例 3.6.1. 实例 1:采集网页数据保存到文本 3.6.2. 实例 2:采集网页数据保存到 MySQL 数据库 3.7. Scrapy 框架 3.7.1. Scrapy 框架概述 3.7.2. Xpath 语言 3.7.3. Scrapy 框架应用实例 (三)思考与实践 1. 网络爬虫有哪些类型? 2. 什么是反爬机制? 3. Scrapy 工作流的主要步骤有哪些? 4. 实践:实验 2 网络爬虫初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章 分布式消息系统 Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统 Kafka 与传统消息系统之间的区别。 (二)教学内容 4.1. Kafka 简介 4.1.1. Kafka 的特性 4.1.2. Kafka 的应用场景 4.1.3. Kafka 的消息传递模式 4.2. Kafka 在大数据生态系统中的作用 4.3. Kafka 与 Flume 的区别与联系 4.4. Kafka 相关概念 4.5. Kafka 的安装和使用 4.5.1. 安装 Kafka 4.5.2. 使用 Kafka