《Python网络爬虫实务》教学大纲课程类别(必修/选修):选修课程名称:Python网络爬虫实务课程英文名称:PythonWebCrawlerPractice其中实验/实践学时:16总学时/周学时/学分:32/2/2先修课程:Python与大数据分析,Web前端应用开发后续课程支撑:新媒体营销,深度学习授课地点:实验楼503授课时间:2-17周周一9,10节授课对象:2023级电商开课学院:粤台产业科技学院任课教师姓名/职称:巩泊成/助教答疑时间、地点与方式:课堂或课后,教室或通讯软件,当面或线上答疑课程考核方式:开卷()闭卷()课程论文()其它(V)报告使用教材:《Python爬虫超详细实战攻略:微课视频版》,夏敏捷等,清华大学出版社,2021年1月,ISBN:9787302538752教学参考资料:无课程简介:爬虫程序是数据技术收集信息的基础,爬取到需要的数据后,就可以对数据进行分析和建立应用。网络肥虫就是自动的从互联网上获取数据的程序基本上我们在浏览网站时所能见到的数据都可以通过爬虫程序保存下来,可以透过爬虫程序来获取相关的数据。本课程主要分成四大部分,第一部分为网络爬虫相关基础知识,包括html,浏览器开发者工具、http请求的介绍。第二部分为数据请求方法介绍,包含urllib和requests的使用操作。第三部分为数据提取方法,包括正则化、Xpath及beautifulsoup4等三种提取数据的方法。第四部分为进阶爬虫技术及综合实践,包括js逆向分析、selenium工具、scrapy框架及实际爬虫演练。1
1 《Python 网络爬虫实务》教学大纲 课程名称: Python 网络爬虫实务 课程类别(必修/选修):选修 课程英文名称:Python Web Crawler Practice 总学时/周学时/学分:32/2/2 其中实验/实践学时:16 先修课程: Python 与大数据分析,Web 前端应用开发 后续课程支撑:新媒体营销,深度学习 授课时间:2-17 周 周一 9,10 节 授课地点:实验楼 503 授课对象: 2023 级电商 开课学院: 粤台产业科技学院 任课教师姓名/职称: 巩泊成/助教 答疑时间、地点与方式:课堂或课后,教室或通讯软件,当面或线上答疑 课程考核方式:开卷()闭卷()课程论文()其它(√)报告 使用教材: 《Python 爬虫超详细实战攻略:微课视频版》,夏敏捷等,清华大学出版社,2021 年 1 月,ISBN:9787302538752 教学参考资料: 无 课程简介: 爬虫程序是数据技术收集信息的基础,爬取到需要的数据后,就可以对数据进行分析和建立应用。网络爬虫就是自动的从互联网上获取数据的程序。 基本上我们在浏览网站时所能见到的数据都可以通过爬虫程序保存下来,可以透过爬虫程序来获取相关的数据。本课程主要分成四大部分,第一部分为 网络爬虫相关基础知识,包括 html, 浏览器开发者工具、http 请求的介绍。第二部分为数据请求方法介绍,包含 urllib 和 requests 的使用操作。第 三部分为数据提取方法,包括正则化、Xpath及 beautifulsoup4等三种提取数据的方法。第四部分为进阶爬虫技术及综合实践,包括 js逆向分析、selenium 工具、scrapy 框架及实际爬虫演练
课程教学目标及对毕业要求指标点的支撑:毕业要求支撑毕业要求指标点课程教学目标目标1:1-工程知识:能够运用数学、基础科学、计算机科培养学生具备计算机软件设计、企业互联网与电子商务系1-工程知识:能够将数学、自然科学、学与技术、企业互联网平台系统、电子商务信息管统开发、大数据分析、跨境电商经营管理等领域专业知识工程基础和专业知识用于解决计算机理与信息系统、电子商务经营管理等相关知识,对与技能,成为专业技术人才,能以科学方法解决问题与进工程专业的复杂工程问题。企业互联网与电子商务系统开发运维问题具有解决能力。行创新。目标2折3-设计/开发解决方案:能够设计(开3-设计/开发解决方案:能够掌握企业互联网与电培养学生具有独立思考、创新思维、组织管理、沟通协调、发)满足计算机工程特定需求的体系,子商务系统的前端设计、后端设计、数据库设计、自我挑战、终身学习的能力。并在设计环节中考虑社会、健康、安全、数据挖掘、大数据分析、云计算等基础理论与技术,法律、文化及环境等因素。在提出复杂具有追求创新的意识,对企业互联网与电子商务系工程问题的解决方案时具有创新意识。统开发运维问题提出创新解决方案。目标38-职业规范:具有人文社会科学素养、8-职业规范:进行企业互联网与电子商务系统开发提升学生人文素养、社会服务的情操,培养学生良好的职社会责任感,能够在工程实践中理解并运维工作时,能够遵守职业道德与规范,履行社会遵守工程职业道德和行为规范,做到责业道德与社会责任感。任并发挥正面影响力。任担当、贡献国家、服务社会。目标4:9-个人和团队:在解决计算机工程专业9-个人和团队:具有积极正面谋事的人格特质与良培养学生具有创新力、团队力、专业力、跨界力、服务力的复杂工程问题时,能够在多学科组成性团队互动的做事态度,在企业互联网与电子商务与英语运用能力,并具有国际观,奉献社会国家及人类。的团队中承担个体、团队成员或负责人系统开发运维复杂问题解决过程中能够发挥关键的角色。性作用,让问题以团队合作方式快速完成。2
2 课程教学目标及对毕业要求指标点的支撑: 课程教学目标 支撑毕业要求指标点 毕业要求 目标 1: 培养学生具备计算机软件设计、企业互联网与电子商务系 统开发、大数据分析、跨境电商经营管理等领域专业知识 与技能,成为专业技术人才,能以科学方法解决问题与进 行创新。 1-工程知识:能够将数学、自然科学、 工程基础和专业知识用于解决计算机 工程专业的复杂工程问题。 1-工程知识:能够运用数学、基础科学、计算机科 学与技术、企业互联网平台系统、电子商务信息管 理与信息系统、电子商务经营管理等相关知识,对 企业互联网与电子商务系统开发运维问题具有解 决能力。 目标 2: 培养学生具有独立思考、创新思维、组织管理、沟通协调、 自我挑战、终身学习的能力。 3-设计/开发解决方案:能够设计(开 发)满足计算机工程特定需求的体系, 并在设计环节中考虑社会、健康、安全、 法律、文化及环境等因素。在提出复杂 工程问题的解决方案时具有创新意识。 3-设计/开发解决方案:能够掌握企业互联网与电 子商务系统的前端设计、后端设计、数据库设计、 数据挖掘、大数据分析、云计算等基础理论与技术, 具有追求创新的意识,对企业互联网与电子商务系 统开发运维问题提出创新解决方案。 目标 3: 提升学生人文素养、社会服务的情操,培养学生良好的职 业道德与社会责任感。 8-职业规范:具有人文社会科学素养、 社会责任感,能够在工程实践中理解并 遵守工程职业道德和行为规范,做到责 任担当、贡献国家、服务社会。 8-职业规范:进行企业互联网与电子商务系统开发 运维工作时,能够遵守职业道德与规范,履行社会 责任并发挥正面影响力。 目标 4: 培养学生具有创新力、团队力、专业力、跨界力、服务力 与英语运用能力,并具有国际观,奉献社会国家及人类。 9-个人和团队:在解决计算机工程专业 的复杂工程问题时,能够在多学科组成 的团队中承担个体、团队成员或负责人 的角色。 9-个人和团队:具有积极正面谋事的人格特质与良 性团队互动的做事态度,在企业互联网与电子商务 系统开发运维复杂问题解决过程中能够发挥关键 性作用,让问题以团队合作方式快速完成
理论教学进程表支撑教学模式周次教学主题授课数师学时数教学内容(重点、难点、课程思政融入点)教学方法作业安排课程线下/混合式目标重点:anaconda安装、Pycharm安装、爬目标虫基础概念介绍-目标课程思政融入点:透过人文关怀角度教学课堂讲授与巩泊成线下11开发工具安装三小组讨论阀述网络肥虫抵念,培养学生具备专业知识用于造福人民,善尽社会责任,业养成目标四科学严谨、认真细致、实事求是的科学态度和职业道德。重点:HTML标签、HTTP基本原理与请求、目标课堂讲授与浏览器开发者模式的使用-巩泊成线下12HTML基础与网络小组讨论目标难点:浏览器开发者模式的使用三目标重点:urllib的基础操作、GET与POST请课堂讲授与-巩泊成线下3求静态网页采集1小组讨论目标难点:urllib模块操作二线下巩泊成1静态网页采集Ⅱ重点:requests的基础操作、GET与POST课堂讲授与课后作业:urllib目标3
3 理论教学进程表 周次 教学主题 授课教师 学时数 教学内容(重点、难点、课程思政融入点) 教学模式 线下/混合式 教学方法 作业安排 支撑 课程 目标 1 开发工具安装 巩泊成 1 重点:anaconda 安装、Pycharm 安装、爬 虫基础概念介绍 课程思政融入点:透过人文关怀角度教学 阐述网络爬虫概念,培养学生具备专业知 识用于造福人民,善尽社会责任,並养成 科学严谨、认真细致、实事求是的科学态 度和职业道德。 线下 课堂讲授与 小组讨论 目 标 一 目 标 三 目 标 四 2 HTML 基础与网络 巩泊成 1 重点:HTML 标签、HTTP 基本原理与请求、 浏览器开发者模式的使用 难点:浏览器开发者模式的使用 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 3 静态网页采集 I 巩泊成 1 重点:urllib 的基础操作、GET 与 POST 请 求 难点:urllib 模块操作 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 4 静态网页采集 II 巩泊成 1 重点:requests 的基础操作、GET 与 POST 线下 课堂讲授与 课 后 作 业: urllib 目 标
请求小组讨论1与requests练习目标难点:requests模块操作三目标课堂讲授与数据提取方法:重点:正则表达式基础语法一巩泊成1线下5小组讨论正则表达式I目标难点:正则表达式使用方法二目标课堂讲授与-数据提取方法:置点:re的基础操作线下巩泊成16小组讨论目标正则表达式II难点:re库函数的使用二重点:Xpath安装、Xpath语法、Ixml模块目标难点:Xpath语法、1xml模块课堂讲授与数据提取方法:一巩泊成线下17课程思政融入点:透过华为公司在5G网络小组讨论Xpath目标通讯技术领先全球却遭到美国无情打压,二鼓励学生面对问题克服问题,学习从逆境中持续成长进步。目标-数据提取方法:重点:CSS选择器使用课堂讲授与课后作业:爬虫案例巩泊成1线下8bs4实践目标难点:CSS选择器使用小组讨论福三4
4 请求 难点:requests 模块操作 小组讨论 与 requests 练习 一 目 标 二 5 数据提取方法: 正则表达式 I 巩泊成 1 重点:正则表达式基础语法 难点:正则表达式使用方法 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 6 数据提取方法: 正则表达式 II 巩泊成 1 重点:re 的基础操作 难点:re 库函数的使用 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 7 数据提取方法: Xpath 巩泊成 1 重点:Xpath 安装、Xpath 语法、lxml 模 块 难点:Xpath 语法、lxml 模块 课程思政融入点:透过华为公司在 5G 网络 通讯技术领先全球却遭到美国无情打压, 鼓励学生面对问题克服问题,学习从逆境 中持续成长进步。 线下 课堂讲授与 小组讨论 目 标 一 目 标 二 8 数据提取方法: bs4 巩泊成 1 重点:CSS 选择器使用 难点:CSS 选择器使用 线下 课堂讲授与 小组讨论 课后作业:爬虫案例 实践 目 标 一 目 标 二
目标-动态网页数据接重点:js逆向解析数据接口课堂讲授与巩泊成1线下9口解析目标难点:js逆向解析数据接口小组讨论三目标重点:安装chromedriver、Selenium查找-Selenium自动化课堂讲授与巩泊成1线下10节点、切换iFrame工具I目标小组讨论难点:Selenium查找节点三目标重点:动作链、页面滚动、延时等待、选Selenium自动化课堂讲授与课后作业:selenium-线下巩泊成111项卡管理、异常处理、绕过检测工具II小组讨论练习目标难点:动作链、页面滚动、绕过检测三目标重点:Scrapy框架的安装与原理三课堂讲授与巩泊成1线下12Serapy框架I小组讨论目标难点:Scrapy框架原理四目标重点:Scrapy框架基本操作-课堂讲授与1线下巩泊成13Scrapy框架II小组讨论目标难点:Scrapy框架基本操作三重点:多多线程基础知识、多线程编程课后作业:爬虫案例目标课堂讲授与巩泊成1线下14多线程爬虫三实践难点:多线程编程小组讨论5
5 9 动态网页数据接 口解析 巩泊成 1 重点:js 逆向解析数据接口 难点:js 逆向解析数据接口 线下 课堂讲授与 小组讨论 目 标 一目 标 二 10 Selenium 自动化 工具 I 巩泊成 1 重点:安装 chromedriver、Selenium 查找 节点、切换 iFrame 难点:Selenium 查找节点 线下 课堂讲授与 小组讨论 目 标 一目 标 二 11 Selenium 自动化 工具 II 巩泊成 1 重点:动作链、页面滚动、延时等待、选 项卡管理、异常处理、绕过检测 难点:动作链、页面滚动、绕过检测 线下 课堂讲授与 小组讨论 课后作业:selenium 练习 目 标 一目 标 二 12 Scrapy 框架 I 巩泊成 1 重点:Scrapy 框架的安装与原理 难点:Scrapy 框架原理 线下 课堂讲授与 小组讨论 目 标 三目 标 四 13 Scrapy 框架 II 巩泊成 1 重点:Scrapy 框架基本操作 难点:Scrapy 框架基本操作 线下 课堂讲授与 小组讨论 目 标 一目 标 二 14 多线程爬虫 巩泊成 1 重点:多线程基础知识、多线程编程 难点:多线程编程 线下 课堂讲授与 小组讨论 课后作业:爬虫案例 实践 目 标 三