《商务数据采集与分析》课程教学大纲 一、课程基本信息 课程代码:20110242 课程名称:商务数据采集与分析 英文名称: 课程类别:专业课 学 时:32 学 分:2 适用对象:2020级电子商务专业 老核方式:老杳 先修课程:Python程序设计 二、课程简介 本课程详细阐述了商务数据分析与应用中数据采集和处理问题,是电子商务专业 的专业选修课程。课程内容共8章,包括概述、大数据实验环境搭建、网络数据采集、 分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具 Kettle、使用pandas进行数据清洗。本果程结合市场上常用的数据采集和处理工具 产教融合,能开发学生的自发探索能力,同时引导学生坚持中国道路、弘扬中国精神, 培养学生爱国情怀:树立法治意识,坚守法规:培养匠人精神和奉献精神。 This course describes data collection and processing in business data analysis and application in detail,and is a professional elective course for e-commerce majors.The course content consists of 8 chapters,including overview,big data experiment environment construction,network data collection,distributed message system Kafka,log collection system Flume, data integration in data warehouse,ETL tool Kettle,and data cleaning using Pandas.This course combines data collection and processing tools commonly used in the market,and integrates production and teaching,which can develop students'spontaneous exploration ability,guide students to adhere to the Chinese road,promote the Chinese spirit,and cultivate students'patriotism Set up the consciousness of rule of law and stick to laws and regulations; Cultivate the spirit of craftsmanship and dedication. 三、课程性质与教学目的 《商务数据采集与分析》是电子商务专业开设的一门专业课。课程全面、系统的 介绍大数据领域数据采集与处理的相关理论和技术。 1
1 《商务数据采集与分析》课程教学大纲 一、课程基本信息 课程代码:20110242 课程名称:商务数据采集与分析 英文名称: 课程类别:专业课 学 时:32 学 分:2 适用对象:2020 级电子商务专业 考核方式:考查 先修课程:Python 程序设计 二、课程简介 本课程详细阐述了商务数据分析与应用中数据采集和处理问题,是电子商务专业 的专业选修课程。课程内容共 8 章,包括概述、大数据实验环境搭建、网络数据采集、 分布式消息系统 Kafka、日志采集系统 Flume、数据仓库中的数据集成、ETL 工具 Kettle、使用 pandas 进行数据清洗。本课程结合市场上常用的数据采集和处理工具, 产教融合,能开发学生的自发探索能力,同时引导学生坚持中国道路、弘扬中国精神, 培养学生爱国情怀;树立法治意识,坚守法规;培养匠人精神和奉献精神。 This course describes data collection and processing in business data analysis and application in detail, and is a professional elective course for e-commerce majors. The course content consists of 8 chapters, including overview, big data experiment environment construction, network data collection, distributed message system Kafka, log collection system Flume, data integration in data warehouse, ETL tool Kettle, and data cleaning using Pandas. This course combines data collection and processing tools commonly used in the market, and integrates production and teaching, which can develop students' spontaneous exploration ability, guide students to adhere to the Chinese road, promote the Chinese spirit, and cultivate students' patriotism; Set up the consciousness of rule of law and stick to laws and regulations; Cultivate the spirit of craftsmanship and dedication. 三、课程性质与教学目的 《商务数据采集与分析》是电子商务专业开设的一门专业课。课程全面、系统的 介绍大数据领域数据采集与处理的相关理论和技术
通过本课程的学习旨在让学生实现以下教学目的: (1)培养合格的社会主义事业接班人: (2)拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法: (3)熟悉大数据实验环境的搭建方法:了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法:了解Kafka的特性,掌握使用Python操作Kafka的方 法:了解Flume的组件功能,掌握使用Flume采集数据的方法:了解数据仓库中的数 据集成方法,熟悉ETL和CDC:掌握ETL工具Kettle的基本使用方法:掌握使用pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野 培养学生的数据能力。 四、教学内容及要求 第一章概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务:掌握数据的概念、类型、组织形式等:掌握数据预处理的主要步骤: 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就:理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性 (二)教学内容 a)数据 i.数据的概念 ii.数据类型 iii.数据的组织形式 iv.数据的价值 V,数据爆炸作 b)数据分析过程 C)数据采集与预处理的任务 d)数据采集 ⅰ。数据采集的概今 ii.数据采集的三大要点 iii.数据采集的数据源 iv.数据采集方法
2 通过本课程的学习旨在让学生实现以下教学目的: (1) 培养合格的社会主义事业接班人; (2) 拓宽学生眼界,使学生认识数据采集与预处理在大数据等前沿领域的先进 应用,同时掌握相关数据处理方法; (3) 熟悉大数据实验环境的搭建方法;了解网络爬虫的基础知识,掌握使用网 络爬虫获取网页数据的方法;了解 Kafka 的特性,掌握使用 Python 操作 Kafka 的方 法;了解 Flume 的组件功能,掌握使用 Flume 采集数据的方法;了解数据仓库中的数 据集成方法,熟悉 ETL 和 CDC;掌握 ETL 工具 Kettle 的基本使用方法;掌握使用 pandas 进行数据清洗的方法。 本课程以实践教学为主,并提供大量补充学习资料,以深化学生对知识的理解。 同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野, 培养学生的数据能力。 四、教学内容及要求 第一章 概述 (一)目的与要求 通过本章的学习要求学生达到:了解数据分析过程和数据采集与预处理的 任务;掌握数据的概念、类型、组织形式等;掌握数据预处理的主要步骤; 了解数据采集与预处理对大数据应用的作用及全球化过程中我国大数据产业 快速发展的伟大成就;理解为什么今天的中国,对于数据应用型企业数据采 集与预处理的重要性。 (二)教学内容 a) 数据 i. 数据的概念 ii. 数据类型 iii. 数据的组织形式 iv. 数据的价值 v. 数据爆炸 b) 数据分析过程 c) 数据采集与预处理的任务 d) 数据采集 i. 数据采集的概念 ii. 数据采集的三大要点 iii. 数据采集的数据源 iv. 数据采集方法
e)数据清洗 1.数据清洗的应用领域 ii.数据清洗的实现方式 ii.数据清洗的内容 iv.数据清洗的注意事项 V。数据清洗的基本流程 v.数据清洗的评价标准 f)数据集成 g)数据转换 1.数据转换策略 ii.平滑处理 iii.规范化处理 h)数据脱敏 i.数据脱敏原则 ii.数据脱敏方法 (三)思考与实践 1.数据采集与预处理在大数据应用过程的重要性? 2.数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括Python DK、MySQL、Hadoop等的搭建方法,为后续的实验开展提供基础 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.l.Python的安装和使用 2.1.1. Python简介 2.1.2. Python的安装 2.1.3. Python的基本使用方法 2.1.4. Python基础语法知识 2.1.5. Python第三方模块的安装 3
3 e) 数据清洗 i. 数据清洗的应用领域 ii. 数据清洗的实现方式 iii. 数据清洗的内容 iv. 数据清洗的注意事项 v. 数据清洗的基本流程 vi. 数据清洗的评价标准 f) 数据集成 g) 数据转换 i. 数据转换策略 ii. 平滑处理 iii. 规范化处理 h) 数据脱敏 i. 数据脱敏原则 ii. 数据脱敏方法 (三)思考与实践 1. 数据采集与预处理在大数据应用过程的重要性? 2. 数据采集与预处理任务和过程是什么? (四)教学方法与手段 课堂讲授,多媒体教学和课堂讨论等。 第二章 大数据实验环境搭建 (一)目的与要求 通过本章的学习要求学生达到:能掌握大数据实验环境,包括 Python、 JDK、MySQL、Hadoop 等的搭建方法,为后续的实验开展提供基础。 了解应用技术的发展对数据采集与预处理方法推动作用,我国在应用技术 方面的领先,使得大数据应用在各领域得到了广泛的应用,有力的促进了国 民经济的高速发展。 (二)教学内容 2.1. Python 的安装和使用 2.1.1. Python 简介 2.1.2. Python 的安装 2.1.3. Python 的基本使用方法 2.1.4. Python 基础语法知识 2.1.5. Python 第三方模块的安装
2.2.JDK的安装 2.3.MySQL数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言SQL 2.3.3. 安装MySOL 2.3.4. MySQL数据库的实用方法 2.3.5. 使用Python操作vSOL.数据库 2.4.Hadoop的安装和使用 2.4.1. Hadoop简介 2.4.2. 分布式文件系统HDFS 2.4.3. Hadoop的安装 2.4.4. HDFS的基本使用方法 (三)思考与实践 l.Python语言的优点? 2.关系型数据库的特点? 3.HDFS的体系结构。 4.实践:实验1熟悉MySQL和HDS操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引擎或需要网络数据的企业提供数据来源:掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1.网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2.网页基础知识 3.2.1. 超文本和HT 3.2.2. HTTP 3.3.用Python实现HTTP请求 3.3.1. url1ib模块
4 2.2. JDK 的安装 2.3. MySQL 数据库的安装和使用 2.3.1. 关系数据库 2.3.2. 关系数据库标准语言 SQL 2.3.3. 安装 MySQL 2.3.4. MySQL 数据库的实用方法 2.3.5. 使用 Python 操作 MySQL 数据库 2.4. Hadoop 的安装和使用 2.4.1. Hadoop 简介 2.4.2. 分布式文件系统 HDFS 2.4.3. Hadoop 的安装 2.4.4. HDFS 的基本使用方法 (三)思考与实践 1. Python 语言的优点? 2. 关系型数据库的特点? 3. HDFS 的体系结构。 4. 实践:实验 1 熟悉 MySQL 和 HDFS 操作。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第三章 网络数据采集 (一)目的与要求 通过本章的学习要求学生达到:能使用网络爬虫的功能下载网页数据,为 搜索引擎或需要网络数据的企业提供数据来源;掌握网络爬虫的编写方法, 理解如何请求网页及如何解析网页。 (二)教学内容 3.1. 网络爬虫概述 3.1.1. 什么是网络爬虫 3.1.2. 网络爬虫的类型 3.1.3. 反爬机制 3.2. 网页基础知识 3.2.1. 超文本和 HTML 3.2.2. HTTP 3.3. 用 Python 实现 HTTP 请求 3.3.1. urllib 模块
3.3.2. url1ib3模块 3.3.3. requests模块 3.4.定制requests 3.4.1. 传递URL参数 3.42 定制请求头 3.4.3. 网络超时 3.5.解析网页 3.5.1. BeautifulSoup简介 3.5.2. BeautifulSoup四大对象 3.5.3. 遍历文档树 3.5.4. CSS选择器 3.6.综合实例 3.6.1. 实例1:采集网而数据保存到文木 3.6.2. 实例2:采集网页数据保存到MySQL数据库 3.7.Scrapy框架 3.7.1. Scrapy框架概述 37.2 Xpath语言 3.7.3. Scrapy框架应用实例 (三)思考与实践 1.网络爬虫有哪些类型 2.什么是反爬机制? 3.Scrapy 工作流的主要步骤有哪些 4.实践:实验2网络爬虫初级实践。 (四)数学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章分布式消息系统Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统Kafka与传统消息系统之间的区别。 (二)教学内容 4.1.Kafka简介 4.1.L.Kafka的特性 4.1.2. Kafka的应用场景 4.1.3. Kafka的消息传递模式 5
5 3.3.2. urllib3 模块 3.3.3. requests 模块 3.4. 定制 requests 3.4.1. 传递 URL 参数 3.4.2. 定制请求头 3.4.3. 网络超时 3.5. 解析网页 3.5.1. BeautifulSoup 简介 3.5.2. BeautifulSoup 四大对象 3.5.3. 遍历文档树 3.5.4. CSS 选择器 3.6. 综合实例 3.6.1. 实例 1:采集网页数据保存到文本 3.6.2. 实例 2:采集网页数据保存到 MySQL 数据库 3.7. Scrapy 框架 3.7.1. Scrapy 框架概述 3.7.2. Xpath 语言 3.7.3. Scrapy 框架应用实例 (三)思考与实践 1. 网络爬虫有哪些类型? 2. 什么是反爬机制? 3. Scrapy 工作流的主要步骤有哪些? 4. 实践:实验 2 网络爬虫初级实践。 (四)教学方法与手段 课堂讲授,多媒体教学,实验教学和课堂讨论等。 第四章 分布式消息系统 Kafka (一)目的与要求 通过本章的学习要求学生达到:了解分布式消息订阅分发系统在数据采集 中的重要地位,理解分布式消息系统 Kafka 与传统消息系统之间的区别。 (二)教学内容 4.1. Kafka 简介 4.1.1. Kafka 的特性 4.1.2. Kafka 的应用场景 4.1.3. Kafka 的消息传递模式