中国社会科学院大学文本挖掘与社会科学研究课程大纲课程基本信息(Course Information)*学分课程编号*学时322102143021082(Course ID)(Credit Hours)(Credits)(中文)文本挖掘与社会科学研究*课程名称(CourseName)(英文)Text-miningandSocialScienceResearch先修课程(PrerequisiteCourses)课程概述与教学目标1.文本挖掘的对象为文本数据库,涵盖社交媒体、消费者评论、政策文献、书籍期刊等多样化的文档数据。通过该课程,旨在使学生理解文本挖掘技术在社会科学研究中的应用场景,引导学生根据需要尝试运用文本挖掘展开社会科学研究。课程以社会科学研究重要理论为基础,以python环境为实践平台,通过基于网络文本、政策文本、文献文本的案例实践,系统讲解如何将文本资料中的信息提取为量化数据,并应用于社会科学研究的分析中。*课程简介2.重点、难点(Description)课程的重点包括:首先介绍文本数据的类型、获取方法,并结合具体研究问题进行教授。课程为文本数据挖掘的基础入门课程,针对人文社会科学的学生,以讲解及剖析研究思路为主。课程的主要难点是:要保证课程内容难易度得当。讲解过深可能引起学生畏难心理,过浅则较难有收获,将结合案例讲授,辅以python实操训练,使学生能够学得会、用得着。3.基本要求要求学生符合学校教学考勤要求:课程前阅读指定文献;按时提交期末作业Textmining is a frontierfield that combines computers science and social sciences.Textmining is datamining applied to information extracted fromtexts including socialmedia,consumerreviews,policy literature, books,journals,and more.Through thiscourse,*课程简介students are supposed to understandtheapplicationof text miningin social science(Description)research,andlearntousetextminingtoconductsocial scienceresearchasneeded.Based on the important theories of social science research, the coursetakes Python as thepracticeplatform,and systematicallyexplainshowtoextracttheinformationintextmaterials and applythemto social scienceresearch*教材自编讲义(Textbooks)参考资料刘金岭,钱升华.文本数据挖掘与Python应用.北京:清华大学出版社,2021.02.(OtherReferences)*课程类别口公共基础课/全校公共必修课团通识教育课口专业基础课(CourseCategory)口专业核心课/专业必修课口专业拓展课/专业选修课口其他
中国社会科学院大学文本挖掘与社会科学研究课程大纲 课程基本信息(Course Information) 课程编号 (Course ID) 102143021082 *学时 (Credit Hours) 32 *学分 (Credits) 2 *课程名称 (Course Name) (中文)文本挖掘与社会科学研究 (英文)Text-mining and Social Science Research 先修课程 (Prerequisite Courses) *课程简介 (Description) 1. 课程概述与教学目标 文本挖掘的对象为文本数据库,涵盖社交媒体、消费者评论、政策文献、书籍、 期刊等多样化的文档数据。通过该课程,旨在使学生理解文本挖掘技术在社会科学研 究中的应用场景,引导学生根据需要尝试运用文本挖掘展开社会科学研究。课程以社 会科学研究重要理论为基础,以 python 环境为实践平台,通过基于网络文本、政策 文本、文献文本的案例实践,系统讲解如何将文本资料中的信息提取为量化数据,并 应用于社会科学研究的分析中。 2. 重点、难点 课程的重点包括:首先介绍文本数据的类型、获取方法,并结合具体研究问题进 行教授。课程为文本数据挖掘的基础入门课程,针对人文社会科学的学生,以讲解及 剖析研究思路为主。 课程的主要难点是:要保证课程内容难易度得当。讲解过深可能引起学生畏难心 理,过浅则较难有收获,将结合案例讲授,辅以 python 实操训练,使学生能够学得 会、用得着。 3. 基本要求 要求学生符合学校教学考勤要求;课程前阅读指定文献;按时提交期末作业 *课程简介 (Description) Text mining is a frontier field that combines computers science and social sciences. Text mining is data mining applied to information extracted from texts including social media, consumer reviews, policy literature, books, journals, and more. Through this course, students are supposed to understand the application of text mining in social science research, and learn to use text mining to conduct social science research as needed. Based on the important theories of social science research, the course takes Python as the practice platform, and systematically explains how to extract the information in text materials and apply them to social science research. *教材 (Textbooks) 自编讲义 参考资料 (Other References) 刘金岭,钱升华. 文本数据挖掘与 Python 应用. 北京:清华大学出版社, 2021.02. *课程类别 (Course Category) 公共基础课/全校公共必修课 ☑通识教育课 专业基础课 专业核心课/专业必修课 专业拓展课/专业选修课 其他
口线上,教学平台*授课对象*授课模式全校本科生团线下口混合式口其他(TargetStudents)(Modeof Instruction)口实践类(70%以上学时深入基层)*开课院系*授课语言团中文口全外语社会与民族学院(School)(Languageof Instruction)口双语:中文+(外语讲授不低于50%)王宇昕,讲师,博士毕业于清华大学教育经济与管理专业,硕士课程负责人毕业于韩国高丽大学教育社会学专业,美国威斯康星大学访问学姓名及简介者。在《中国高教研究》、《学位与研究生教育》、《国家教育行政学院学报》等CSSCI期刊发表多篇学术论文,参与教育部发展规划*授课教师信息司、学位管理与研究生教育司、北京市教委等多项委托课题。(Teacher Information)盖赞,副教授,博士毕业于北京工业大学计算机应用技术专业,团队成员专注于机器学习、模式识别、人工智能在图像识别和文本分析领姓名及简介域的研究。在SCI和EI检索的期刊发表多篇论文,主持和参与国家自然科学基金项目、教育部人文社科项目等课题。学习目标了解基本的文本数据类型及应用场景,初步掌握文本挖掘思路,并根据研究兴趣(Learning领域制定相应研究计划。Outcomes)平时成绩(30%):考核内容包括出勤情况、课堂表现、文献阅读情况等。*考核方式期末成绩(70%):提交期末作业,形式为研究设计,涵盖“研究问题”、“研究(Grading)综述”、“数据和数据的使用”三部分内容。要求1500字以上,较好地完成了文献调研工作,研究思路正确,研究计划可行。*课程教学计划(TeachingPlan)填写规范化要求见附件其中周课其教学内容摘要学习周次学办(必含章节名称、讲述的内容提要、实验的名称、教学方法、课堂讨论的题目、程e验题时授讨环阅读文献参考书目及作业等)课课论节第一讲走进文本挖掘与社会科学研究第一节文本与文本挖掘1.什么是文本数据2.什么是文本挖掘第二节文本挖掘与社会科学研究第一周21.社会科学研究概述2.文本挖掘如何应用于社会科学研究第三节本门课程的内容结构介绍教学方法:讲授法第二讲文本挖掘的基本概念与应用范畴第一节文本挖掘的定义与概念第二周1.文本数据的概念22.文本挖掘的定义第二节文本挖掘的主要技术手段介绍
*授课对象 (Target Students) 全校本科生 *授课模式 (Mode of Instruction) 线上,教学平台 ☑线下 混合式 其他 实践类(70%以上学时深入基层) *开课院系 (School) 社会与民族学院 *授课语言 (Language of Instruction) ☑中文 全外语 双语:中文+ (外语讲授不低于 50%) *授课教师信息 (Teacher Information) 课程负责人 姓名及简介 王宇昕,讲师,博士毕业于清华大学教育经济与管理专业,硕士 毕业于韩国高丽大学教育社会学专业,美国威斯康星大学访问学 者。在《中国高教研究》、《学位与研究生教育》、《国家教育行政 学院学报》等 CSSCI 期刊发表多篇学术论文,参与教育部发展规划 司、学位管理与研究生教育司、北京市教委等多项委托课题。 团队成员 姓名及简介 盖赟,副教授,博士毕业于北京工业大学计算机应用技术专业, 专注于机器学习、模式识别、人工智能在图像识别和文本分析领 域的研究。在 SCI 和 EI 检索的期刊发表多篇论文,主持和参与国 家自然科学基金项目、教育部人文社科项目等课题。 学习目标 ( Learning Outcomes) 了解基本的文本数据类型及应用场景,初步掌握文本挖掘思路,并根据研究兴趣 领域制定相应研究计划。 *考核方式 (Grading) 平时成绩(30%):考核内容包括出勤情况、课堂表现、文献阅读情况等。 期末成绩(70%):提交期末作业,形式为研究设计,涵盖“研究问题”、“研究 综述”、“数据和数据的使用”三部分内容。要求 1500 字以上,较好地完成了文献调 研工作,研究思路正确,研究计划可行。 *课程教学计划(Teaching Plan)填写规范化要求见附件 周次 周 学 时 其中 教学内容摘要 (必含章节名称、讲述的内容提要、实验的名称、教学方法、课堂讨论的题目、 阅读文献参考书目及作业等) 讲 授 实 验 课 习 题 课 课 程 讨 论 其 他 环 节 第一周 2 2 第一讲 走进文本挖掘与社会科学研究 第一节 文本与文本挖掘 1. 什么是文本数据 2. 什么是文本挖掘 第二节 文本挖掘与社会科学研究 1. 社会科学研究概述 2. 文本挖掘如何应用于社会科学研究 第三节 本门课程的内容结构介绍 教学方法:讲授法 第二周 2 2 第二讲 文本挖掘的基本概念与应用范畴 第一节 文本挖掘的定义与概念 1. 文本数据的概念 2. 文本挖掘的定义 第二节 文本挖掘的主要技术手段介绍
第三节文本挖掘技术的主要应用场景1.文本挖掘的主要研究领域2.文本挖掘的商业应用教学方法:讲授法第三讲质性文本分析与文本挖掘第一节质性文本分析基础简述1.扎根理论2.内容分析第三周第二节质性文本分析的基本概念与分析过程22第三节质性文本分析的基本方法第四节质性文本分析与文本挖掘教学方法:讲授法第四讲文本挖掘的主要流程(一)第一节文本挖掘的流程概述第二节文本数据获取1.常见的文本数据2.语料库与词典第四周第三节文本数据预处理221.文本数据预处理的一般过程2.文本数据预处理的难点3.中文文本预处理教学方法:讲授法第五讲文本挖掘的主要流程(二)第一节分词1.什么是分词2.中文分词的难点3.常用的分词方法第二节词性标注第五周1.为什么要进行词性标注222.中文词性标注第三节停用词去除第四节实践分词工具:jieba教学方法:讲授法第六讲文本挖掘在社会科学研究中的应用第一节基于不同的文本类型1.在线文本2.政策文本第六周223.文献文本第二节基于不同的学科类型1.新闻传播学2.管理学
第三节 文本挖掘技术的主要应用场景 1. 文本挖掘的主要研究领域 2. 文本挖掘的商业应用 教学方法:讲授法 第三周 2 2 第三讲 质性文本分析与文本挖掘 第一节 质性文本分析基础简述 1. 扎根理论 2. 内容分析 第二节 质性文本分析的基本概念与分析过程 第三节 质性文本分析的基本方法 第四节 质性文本分析与文本挖掘 教学方法:讲授法 第四周 2 2 第四讲 文本挖掘的主要流程(一) 第一节 文本挖掘的流程概述 第二节 文本数据获取 1. 常见的文本数据 2. 语料库与词典 第三节 文本数据预处理 1. 文本数据预处理的一般过程 2. 文本数据预处理的难点 3. 中文文本预处理 教学方法:讲授法 第五周 2 2 第五讲 文本挖掘的主要流程(二) 第一节 分词 1. 什么是分词 2. 中文分词的难点 3. 常用的分词方法 第二节 词性标注 1. 为什么要进行词性标注 2. 中文词性标注 第三节 停用词去除 第四节 实践分词工具:jieba 教学方法:讲授法 第六周 2 2 第六讲 文本挖掘在社会科学研究中的应用 第一节 基于不同的文本类型 1. 在线文本 2. 政策文本 3. 文献文本 第二节 基于不同的学科类型 1. 新闻传播学 2. 管理学
3.经济与金融学教学法:讲授法;案例教学第七讲如何挖掘文本数据(一)第一节文本特征表示1.词袋模型2.从one-hot到Bi-gram第二节词频统计第七周21.词频统计(TF)2.词频-逆文档频率(TF-IDF)3.案例:政府工作报告的词频统计研究教学法:讲授法;案例教学第八讲如何挖掘文本数据(二)第一节LDA主题模型1.主题模型是什么2.LDA生成过程第八周第二节LDA主题模型的案例221.案例一:顾客满意度分析2.案例二:基于文献的LDA主题模型分析教学法:讲授法;案例教学第九讲如何挖掘文本数据(三)第一节情感分析1.情感分析的应用场景2.基于词典的情感分析第九周22第二节情感分析的案例1.案例1:游客评论主题挖掘与情感分析2:案例2:新浪微博文本情感分析教学法:讲授法;案例教学第十讲如何挖掘文本数据(四)第一节文本挖掘的局限性第十周第二节运用文本挖掘开展社会科学研究的总体思路2教学法:讲授法:专题研讨第十一讲课堂讨论:基于文本挖掘的研究问题与研究设计第十一2周教学法:专题研讨第十二讲利用Python处理文本数据简单应用(一)第一节Python软件介绍与基础操作第十二21.使用字符串周2.条件、循环和其他语句第二节语料库与文本数据获取
3. 经济与金融学 教学法:讲授法;案例教学 第七周 2 2 第七讲 如何挖掘文本数据(一) 第一节 文本特征表示 1. 词袋模型 2. 从 one-hot 到 Bi-gram 第二节 词频统计 1. 词频统计(TF) 2. 词频-逆文档频率(TF- IDF) 3. 案例:政府工作报告的词频统计研究 教学法:讲授法;案例教学 第八周 2 2 第八讲 如何挖掘文本数据(二) 第一节 LDA 主题模型 1. 主题模型是什么 2. LDA 生成过程 第二节 LDA 主题模型的案例 1. 案例一:顾客满意度分析 2. 案例二:基于文献的 LDA 主题模型分析 教学法:讲授法;案例教学 第九周 2 2 第九讲 如何挖掘文本数据(三) 第一节 情感分析 1. 情感分析的应用场景 2. 基于词典的情感分析 第二节 情感分析的案例 1. 案例 1:游客评论主题挖掘与情感分析 2. 案例 2:新浪微博文本情感分析 教学法:讲授法;案例教学 第十周 2 1 1 第十讲 如何挖掘文本数据(四) 第一节 文本挖掘的局限性 第二节 运用文本挖掘开展社会科学研究的总体思路 教学法:讲授法;专题研讨 第十一 周 2 2 第十一讲 课堂讨论:基于文本挖掘的研究问题与研究设计 教学法:专题研讨 第十二 周 2 1 1 第十二讲 利用 Python 处理文本数据简单应用(一) 第一节 Python 软件介绍与基础操作 1. 使用字符串 2. 条件、循环和其他语句 第二节 语料库与文本数据获取
1.语料库和词典介绍2.网络爬虫采集网页数据教学方法:讲授法第十三讲利用Python处理文本数据简单应用(二)第一节ieba分词的基本用法1.jieba方法2.基于规则的中文分词第十三第二节关键词提取21周1.词频与词云2.词频统计3.生成“词云”教学方法:讲授法案例教学第十四讲利用Python处理文本数据简单应用(三)第一节概率主题模型理论回顾第十四第二节LDA主题模型实例211周1.主题模型的python实现2.主题模型结果的可视化教学方法:讲授法;案例教学第十五讲利用Python处理文本数据简单应用(四)第一节情感分析理论回顾第十五第二节情感分析实例211周1.情感分析的python实现2.使用SnowNLP进行商品评价教学方法:讲授法;案例教学第十六第十六讲:课堂讨论与期末汇报2周教学法:专题研讨与课堂汇报总计32235备注(Notes)
1. 语料库和词典介绍 2. 网络爬虫采集网页数据 教学方法:讲授法 第十三 周 2 1 1 第十三讲 利用 Python 处理文本数据简单应用(二) 第一节 ieba 分词的基本用法 1. jieba 方法 2. 基于规则的中文分词 第二节 关键词提取 1. 词频与词云 2. 词频统计 3. 生成“词云” 教学方法:讲授法;案例教学 第十四 周 2 1 1 第十四讲 利用 Python 处理文本数据简单应用(三) 第一节 概率主题模型理论回顾 第二节 LDA 主题模型实例 1. 主题模型的 python 实现 2. 主题模型结果的可视化 教学方法:讲授法;案例教学 第十五 周 2 1 1 第十五讲 利用 Python 处理文本数据简单应用(四) 第一节 情感分析理论回顾 第二节 情感分析实例 1. 情感分析的 python 实现 2. 使用 SnowNLP 进行商品评价 教学方法:讲授法;案例教学 第十六 周 2 2 第十六讲:课堂讨论与期末汇报 教学法:专题研讨与课堂汇报 总计 32 23 4 5 备注(Notes)