中国社会科学院大学《文本分析》课程大纲课程基本信息(CourseInformation)*学分课程编号*学时481163020025(CourseID)(Credit Hours)(Credits)文本分析*课程名称(CourseName)Text Analytics先修课程(Prerequisite Courses)文本分析或自然语言处理(NLP)是信息时代最重要的技术之一。NLP的应用无处不在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、虚拟代理、医疗报告等。对文本数据的分析需要理解自然语言文本,这是计算机的一项艰巨任务。在过去的时间里,大量的统计方法已经被证明对于“浅层的”,但*课程简介稳健的文本数据分析模式发现和知识发现工作良好。近年来,深度学习(或神经网络)(Description)方法不再需要传统的、特定某种任务的特征工程,在许多不同的NLP任务中获得了(中文300-500字)非常高的性能。本课程主要介绍文本分析、NLP的相关技术,这些方法将涵盖文本数据分析的主要技术,以发现有趣的模式,提取有用的知识,并支持决策,同时借助讲座、作业和期末专题深入了解文本分析、NLP深度学习的前沿研究。Text analysis or natural language processing (NLP) is one of the most importanttechnologies in the information age.NLP is applied everywhere because peoplecommunicate almost everything in language:Web search,advertising,e-mail, customerservice, language translation, virtual agent, medical report, etc. The analysis of text dataneeds to understand natural languagetext,which is a difficult task for computers.In thepasttime,a largenumber of statistical methodshave been proved towork well for"shallow",but robust text data analysis pattern discovery andknowledge discovery.In*课程简介recent years, deep learning (or neural network)methods no longer need the traditional(Description)feature engineering of a specific task,and have achieved veryhigh performance inmanydifferent NLPtasks.This course mainly introduces the relevant technologies of text analysis and NLp todiscover interesting patterns, extract useful knowledge and support decision-making. Atthe same time,with the help of lectures, assignments and final projects, wewill have anin-depth understanding ofthefrontier research of text analysis andNLP in-deeplearning.*教材文本数据挖掘,宗成庆著,清华大学出版社,2019年,第1版,ISBN:9787302519904(Textbooks)参考资料(OtherReferences)
中国社会科学院大学《文本分析》课程大纲 课程基本信息(Course Information) 课程编号 (Course ID) 1163020025 *学时 (Credit Hours) 48 *学分 (Credits) 2 *课程名称 (Course Name) 文本分析 Text Analytics 先修课程 (Prerequisite Courses) *课程简介 (Description) (中文 300-500 字) 文本分析或自然语言处理(NLP)是信息时代最重要的技术之一。NLP 的应用无处不 在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻 译、虚拟代理、医疗报告等。对文本数据的分析需要理解自然语言文本,这是计算机 的一项艰巨任务。在过去的时间里,大量的统计方法已经被证明对于“浅层的”,但 稳健的文本数据分析模式发现和知识发现工作良好。近年来,深度学习(或神经网络) 方法不再需要传统的、特定某种任务的特征工程,在许多不同的 NLP 任务中获得了 非常高的性能。 本课程主要介绍文本分析、NLP 的相关技术,这些方法将涵盖文本数据分析的主要技 术,以发现有趣的模式,提取有用的知识,并支持决策,同时借助讲座、作业和期末 专题深入了解文本分析、NLP 深度学习的前沿研究。 *课程简介 (Description) Text analysis or natural language processing (NLP) is one of the most important technologies in the information age. NLP is applied everywhere because people communicate almost everything in language: Web search, advertising, e-mail, customer service, language translation, virtual agent, medical report, etc. The analysis of text data needs to understand natural language text, which is a difficult task for computers. In the past time, a large number of statistical methods have been proved to work well for "shallow", but robust text data analysis pattern discovery and knowledge discovery. In recent years, deep learning (or neural network) methods no longer need the traditional feature engineering of a specific task, and have achieved very high performance in many different NLP tasks. This course mainly introduces the relevant technologies of text analysis and NLP to discover interesting patterns, extract useful knowledge and support decision-making. At the same time, with the help of lectures, assignments and final projects, we will have an in-depth understanding of the frontier research of text analysis and NLP in-deep learning. *教材 (Textbooks) 文本数据挖掘,宗成庆著,清华大学出版社,2019 年,第 1 版,ISBN:9787302519904 参考资料 (Other References)
*课程类别口公共基础课/全校公共必修课回通识教育课口专业基础课口专业核心课/专业必修课口专业拓展课/专业选修课口其他(CourseCategory)口线上,教学平台*授课对象*授课模式全校本科生团线下口混合式口其他(TargetStudents)(ModeofInstruction)口实践类(70%以上学时深入基层)团中文*开课院系*授课语言口全外语计算机教研部(School)(Languageof Instruction)口双语:中文+(外语讲授不低于50%)课程负责人翟剑锋副教授计算机教研部负责人姓名及简介*授课教师信息(Teacher Information)团队成员姓名及简介本课程主要介绍文本分析、NLP的相关技术,以发现有趣的模式,提取有用的知识并支持决策,同时借助讲座、作业和期末专题深入了解文本分析、NLP深度学习的前沿研究。学习目标1、熟悉文本分析、NLP领域的相关技术,能够运用其成熟的算法解决问题;2、能够借助文本分析技术对非结构化数据进行探索,并发现潜在规律,以提取有用Learning的知识。Outcomes)3、了解常见的文本表示方法,熟悉文本处理的一半流程;4、具备借助工具或程序设计语言,提出相应问题解决方案的能力;5、具备将文本分析技术运用到人文社科领域,并解决现实问题,为决策提供技术支撑。*考核方式平时成绩30%、期末成绩70%(Grading)*课程教学计划(TeachingPlan)(以表述清楚教学安排为宜,字数不限)填写规范化要求见附件其中周教学内容摘要课其实习周次学讲程(必含章节名称、讲述的内容提要、实验的名称、教学方法、课堂讨论的题目、他验时授讨环阅读文献参考书目及作业等)课课论节第一章绪论第一周1.1基本概念,1.2主要任务,1.3文本分析面临的困难第二章数据预处理第二周2.1数据获取,2.2正则表达式
*课程类别 (Course Category) 公共基础课/全校公共必修课 通识教育课 专业基础课 专业核心课/专业必修课 专业拓展课/专业选修课 其他 *授课对象 (Target Students) 全校本科生 *授课模式 (Mode of Instruction) 线上,教学平台 线下 混合式 其他 实践类(70%以上学时深入基层) *开课院系 (School) 计算机教研部 *授课语言 (Language of Instruction) 中文 全外语 双语:中文+ (外语讲授不低于 50%) *授课教师信息 (Teacher Information) 课程负责人 姓名及简介 翟剑锋 副教授 计算机教研部负责人 团队成员 姓名及简介 学习目标 ( Learning Outcomes) 本课程主要介绍文本分析、NLP 的相关技术,以发现有趣的模式,提取有用的知识并 支持决策,同时借助讲座、作业和期末专题深入了解文本分析、NLP 深度学习的前沿 研究。 1、熟悉文本分析、NLP 领域的相关技术,能够运用其成熟的算法解决问题; 2、能够借助文本分析技术对非结构化数据进行探索,并发现潜在规律,以提取有用 的知识。 3、了解常见的文本表示方法,熟悉文本处理的一半流程; 4、具备借助工具或程序设计语言,提出相应问题解决方案的能力; 5、具备将文本分析技术运用到人文社科领域,并解决现实问题,为决策提供技术支 撑。 *考核方式 (Grading) 平时成绩 30%、期末成绩 70% *课程教学计划(Teaching Plan)(以表述清楚教学安排为宜,字数不限)填写规范化要求见附件 周次 周 学 时 其中 教学内容摘要 (必含章节名称、讲述的内容提要、实验的名称、教学方法、课堂讨论的题目、 阅读文献参考书目及作业等) 讲 授 实 验 课 习 题 课 课 程 讨 论 其 他 环 节 第一周 3 2 1 第一章 绪论 1.1 基本概念,1.2 主要任务,1.3 文本分析面临的困难 第二周 3 2 1 第二章 数据预处理 2.1 数据获取,2.2 正则表达式
第二章数据预处理第三周32.3文本切分,2.4文本规范化,2.5中文预处理2.6词性标注及句法分析第三章文本表示第四周3.1语言模型3.2词袋模型第三章文本表示3.3神经网络语言模型3.4词的分布式表示3.5短语及文档的分第五周布式表示第四章文本分类第六周4.1特征选择,4.2传统的分类方法第四章文本分类第七周4.3基于神经网络的分类方法第五章文本聚类第八周5.1相似性度量5.2文本聚类算法5.3性能评估第六章主题模型第九周6.1潜在语义分析6.2概率潜在语义分析第六章主题模型第十周6.3潜在狄利克雷分布6.4LDA算法第七章情感分析与观点挖掘第十一周7.1情感分析任务类别7.2文档或句子级情感分析方法7.3词语级情感分析第七章情感分析与观点挖掘第十二周7.4属性级情感分析7.5特殊问题
第三周 3 2 1 第二章 数据预处理 2.3 文本切分,2.4 文本规范化,2.5 中文预处理 2.6 词性标注及句 法分析 第四周 3 2 1 第三章 文本表示 3.1 语言模型 3.2 词袋模型 第五周 3 2 1 第三章 文本表示 3.3 神经网络语言模型 3.4 词的分布式表示 3.5 短语及文档的分 布式表示 第六周 3 2 1 第四章 文本分类 4.1 特征选择,4.2 传统的分类方法 第七周 3 2 1 第四章 文本分类 4.3 基于神经网络的分类方法 第八周 3 2 1 第五章 文本聚类 5.1 相似性度量 5.2 文本聚类算法 5.3 性能评估 第九周 3 2 1 第六章 主题模型 6.1 潜在语义分析 6.2 概率潜在语义分析 第十周 3 2 1 第六章 主题模型 6.3 潜在狄利克雷分布 6.4 LDA 算法 第十一周 3 2 1 第七章 情感分析与观点挖掘 7.1 情感分析任务类别 7.2 文档或句子级情感分析方法 7.3 词语 级情感分析 第十二周 3 2 1 第七章 情感分析与观点挖掘 7.4 属性级情感分析 7.5 特殊问题
第七章情感分析与观点挖掘第十三周7.6案例实现,电影评论分析第八章综合运用第十四周文本量化运用实例1第八章综合运用第十五周文本量化运用实例2第十六周复习总计(教学方法包含讲授法、专题研讨、案例教学、视频教学、课堂汇报、课后实践等备注(Notes)
第十三周 3 2 1 第七章 情感分析与观点挖掘 7.6 案例实现,电影评论分析 第十四周 3 2 1 第八章综合运用 文本量化运用实例 1 第十五周 3 2 1 第八章综合运用 文本量化运用实例 2 第十六周 3 2 1 复习 总计 48 32 16 (.教学方法包含讲授法、专题研讨、案例教学、视频教学、课堂汇报、课后实践等) 备注(Notes)