《自然语言处理》课程大纲一、课程名称:自然语言处理二、课程性质:选修、理论课三、学时与学分:40学时(理论学时:32,实验学时:8),2.5学分四、课程先导课:线性代数(或矩阵论),概率论与数理统计,微积分,C语言程序设计(或python/java/c++任何一种编程语言),算法设计与分析五、课程简介“自然语言处理”是一门兼顾理论性与实践性的课程,主要包含七个重要部分:自然语言处理综述、语言模型(N-gram语言模型)、序列标注问题(Sequencelabellingproblem)、句法分析、语义分析、情感分析、词向量等。其中:自然语言处理综述主要介绍人工智能发展历史综述,不同领域自然语言处理应用问题及方法等,自然语言处理基本技术方法概述,其中包括部分机器学习知识,自然语言处理层次架构,具体任务介绍,歧义问题,经验主义方法等;语言模型主要包括自然语言处理相关语言模型基础理论以及相关平滑处理技术等(如N-Gram;链式规则ChainRule等);序列标注问题(Sequencelabellingproblem)主要知识点包括序列标注学习及其相关应用等(如离散/连续马尔科夫模型、中文分词、词性标注、命名实体识别等):句法分析主要包括自然语言中语法分析等基础理论知识等(如上下文无关文法、自上而下句法分析、概率上下文无关文法、最大似然训练、依存语法树等):语义分析主要知识点包括自然语言中语义分析等基础理论知识等(如语义角色、语义角色标注、基于句法树方法等):词尚量主要包括基于神经网络的自然语言处理技术与基础理论知识等(如Word2vec词向量、基于循环神经网络语言模型等)。力求跟踪自然语言处理的发展脉络、技术理论、产业成果并以翔实的形态进行展现教学。六、课程目标通过相关教学活动,帮助学生理解自然语言处理的核心概念、任务和方法,建立从数理基础到实际应用的整体思维框架,培养学生深入思考,知行合一的科学思维方法,提高学生对于自然语言处理技术的理解与应用能力。课程的具体目标包括:目标1:使学生掌握自然语言处理基本思想原理、流行算法和技术,着重讲述自然语言处理中经典任务:中文语言基本处理(分词、词性标注、命名实体识别等)及典型自然语言处理相关应用问题等。同时,将方法与理论(统计机器学
《自然语言处理》课程大纲 一、课程名称:自然语言处理 二、课程性质:选修、理论课 三、学时与学分:40 学时(理论学时:32,实验学时:8),2.5 学分 四、课程先导课:线性代数(或矩阵论),概率论与数理统计, 微积分,C语 言程序设计(或 python/java/c++任何一种编程语言),算法设计与分析 五、课程简介 “自然语言处理”是一门兼顾理论性与实践性的课程,主要包含七个重要部 分:自然语言处理综述、语言模型(N-gram 语言模型)、序列标注问题 (Sequence labelling problem)、句法分析、语义分析、情感分析、词向量等。其中:自然语 言处理综述主要介绍人工智能发展历史综述,不同领域自然语言处理应用问题及 方法等,自然语言处理基本技术方法概述,其中包括部分机器学习知识,自然语 言处理层次架构,具体任务介绍,歧义问题,经验主义方法等;语言模型主要包 括自然语言处理相关语言模型基础理论以及相关平滑处理技术等(如 N-Gram; 链式规则 Chain Rule 等);序列标注问题 (Sequence labelling problem) 主要知识 点包括序列标注学习及其相关应用等(如离散/连续马尔科夫模型、中文分词、 词性标注、命名实体识别等);句法分析主要包括自然语言中语法分析等基础理 论知识等(如上下文无关文法、自上而下句法分析、概率上下文无关文法、最大 似然训练、依存语法树等);语义分析主要知识点包括自然语言中语义分析等基 础理论知识等(如语义角色、语义角色标注、基于句法树方法等);词向量主要 包括基于神经网络的自然语言处理技术与基础理论知识等(如 Word2vec 词向量、 基于循环神经网络语言模型等)。力求跟踪自然语言处理的发展脉络、技术理论、 产业成果并以翔实的形态进行展现教学。 六、课程目标 通过相关教学活动,帮助学生理解自然语言处理的核心概念、任务和方法, 建立从数理基础到实际应用的整体思维框架,培养学生深入思考,知行合一的科 学思维方法,提高学生对于自然语言处理技术的理解与应用能力。 课程的具体目标包括: 目标 1:使学生掌握自然语言处理基本思想原理、流行算法和技术,着重讲 述自然语言处理中经典任务:中文语言基本处理(分词、词性标注、命名实体识 别等)及典型自然语言处理相关应用问题等。同时,将方法与理论(统计机器学
习理论/计算学习理论/数据挖掘理论/信息学理论)紧密结合,掌握自然语言处理的基本思想、概念和常见算法;为毕业要求1提供支持。目标2:使学生理解概率论、统计、认知科学等基础交叉学科知识和思想在计算机相关问题的建模发挥的作用,理解相关模型的思想本质,学生对自然语言领域的研究对象、研究目标和研究方法有全局性的了解;为毕业要求1提供支持。目标3:通过习题讨论、实验和课程设计,使学生巩固理论思想和知识,培养学生分析模型、动手实现自然语言处理中不同任务和应用,以及解决科研与实际问题的能力。这需要通过学习掌握新技术和新方法才能做,从而锻炼自主学习的能力。为毕业要求12提供支持。目标4:能认识到计算机技术日新月异的发展特点,以我们课程所介绍的人工智能、大数据、自然语言处理为例,使学生认同自主学习和终身学习的必要性。为毕业要求12提供支持。七、课程自标对毕业要求的支撑关系支撑的毕业要求二级指标点对应课程目标目标1-21.1能将数学、自然科学和信息科学的语言工具用手计算机复杂工程问题的表述。1.2能针对计算机复杂工程问题的具体对象进行建模和求解。目标1-212.1能认识到计算机技术日新月异的发展特点,认同自主学习和终目标3身学习的必要性12.2具备自主学习能力,能通过多种途径拓展自己的知识和能力,目标4包括理解能力,归纳总结的能力和提出问题的能力等八、教学设计及对课程目标的支持第一章自然语言处理综述本章主要介绍人工智能发展历史综述,不同领域自然语言处理应用问题及方法等,自然语言处理基本技术方法概述,其中包括部分机器学习知识,自然语言处理层次架构,具体任务介绍,歧义问题,经验主义方法等。1.教学目标1)了解自然语言处理主要应用;2)了解自然语言处理基本技术方法:本章教学支持课程目标1和课程目标4。2.教学重点机器学习知识。3.教学难点学习概率论中相关知识思想,应用分析解决实际自然语言中问题
习理论/计算学习理论/数据挖掘理论/信息学理论)紧密结合,掌握自然语言处理 的基本思想、概念和常见算法;为毕业要求 1 提供支持。 目标 2:使学生理解概率论、统计、认知科学等基础交叉学科知识和思想在 计算机相关问题的建模发挥的作用,理解相关模型的思想本质,学生对自然语言 领域的研究对象、研究目标和研究方法有全局性的了解;为毕业要求 1 提供支持。 目标 3:通过习题讨论、实验和课程设计,使学生巩固理论思想和知识,培 养学生分析模型、动手实现自然语言处理中不同任务和应用,以及解决科研与实 际问题的能力。这需要通过学习掌握新技术和新方法才能做,从而锻炼自主学习 的能力。为毕业要求 12 提供支持。 目标 4:能认识到计算机技术日新月异的发展特点,以我们课程所介绍的人 工智能、大数据、自然语言处理为例,使学生认同自主学习和终身学习的必要性。 为毕业要求 12 提供支持。 七、课程目标对毕业要求的支撑关系 支撑的毕业要求二级指标点 对应课程目标 1.1 能将数学、自然科学和信息科学的语言工具用于计算机复杂工程 问题的表述。 目标 1-2 1.2 能针对计算机复杂工程问题的具体对象进行建模和求解。 目标 1-2 12.1 能认识到计算机技术日新月异的发展特点,认同自主学习和终 身学习的必要性 目标 3 12.2 具备自主学习能力,能通过多种途径拓展自己的知识和能力, 包括理解能力,归纳总结的能力和提出问题的能力等 目标 4 八、教学设计及对课程目标的支持 第一章 自然语言处理综述 本章主要介绍人工智能发展历史综述,不同领域自然语言处理应用问题及方 法等,自然语言处理基本技术方法概述,其中包括部分机器学习知识,自然语言 处理层次架构,具体任务介绍,歧义问题,经验主义方法等。 1.教学目标 1)了解自然语言处理主要应用; 2)了解自然语言处理基本技术方法; 本章教学支持课程目标 1 和课程目标 4。 2.教学重点 机器学习知识。 3.教学难点 学习概率论中相关知识思想,应用分析解决实际自然语言中问题
4.教学环节设计结合现代机器学习以及自然语言处理的发展,开展文献阅读与讨论,较全面地介绍自然语言处理领域的核心概念、任务和方法。第二章基本数学及信息学理论本章的主要知识点包括概率论基础及信息论基础以及线性代数,最大似然估计等机器学习知识与方法。·概率Probability,条件概率ConditionalProbability,期望Expectation,方差Variance,标准差Deviation,协方差Covariance,二项分布BinomialDistribution,高斯分布GaussianDistribution等:·熵Entropy,联合熵JointEntropy,条件熵ConditionalEntropy,互信息MutualInformation,KL散度KL-Divergence,交叉熵CrossEntropy·最大似然估计MaximumLikelihoodEstimation;·梯度下降GradientDescent;·参数学习ParameterEstimation;1.教学目标1)了解线性代数等基本数学知识;2)了解概率论基础;3)了解信息论基础:本章教学支持的课程目标为目标1和目标2。2.教学重点统计概率论基础。通过上述内容的教学,使学生了解统计概率论的核心概念和应用方法。3.教学难点经典概率论知识:条件概率,贝叶斯定理,期望,方差,标准差,协方差,二项分布,高斯分布等。4.教学环节设计针对教学内容展开讨论,重视理解和掌握基本原理和方法,从数理基础、方法与应用、前沿专题三个层次培养学生的科学思维方法。1)课堂讨论围绕统计概率应用的不同实例展开,使学生不仅了解基础的统计概率知识,也能初步联系实践。2)课外阅读推荐优秀文章,使学生建立良好的数理基础概念
4.教学环节设计 结合现代机器学习以及自然语言处理的发展,开展文献阅读与讨论,较全面 地介绍自然语言处理领域的核心概念、任务和方法。 第二章 基本数学及信息学理论 本章的主要知识点包括概率论基础及信息论基础以及线性代数,最大似然估 计等机器学习知识与方法。 概率 Probability,条件概率 Conditional Probability,期望 Expectation , 方 差 Variance , 标 准 差 Deviation , 协 方 差 Covariance,二项分布 Binomial Distribution,高斯分布 Gaussian Distribution 等; 熵 Entropy,联合熵 Joint Entropy,条件熵 Conditional Entropy, 互信息 Mutual Information,KL 散度 KL-Divergence,交叉熵 Cross Entropy 最大似然估计 Maximum Likelihood Estimation; 梯度下降 Gradient Descent; 参数学习 Parameter Estimation; 1.教学目标 1) 了解线性代数等基本数学知识; 2)了解概率论基础; 3)了解信息论基础; 本章教学支持的课程目标为目标 1 和目标 2。 2.教学重点 统计概率论基础。 通过上述内容的教学,使学生了解统计概率论的核心概念和应用方法。 3.教学难点 经典概率论知识:条件概率,贝叶斯定理,期望,方差,标准差,协方差, 二项分布,高斯分布等。 4.教学环节设计 针对教学内容展开讨论,重视理解和掌握基本原理和方法,从数理基础、方 法与应用、前沿专题三个层次培养学生的科学思维方法。 1)课堂讨论 围绕统计概率应用的不同实例展开,使学生不仅了解基础的统计概率知识, 也能初步联系实践。 2)课外阅读 推荐优秀文章,使学生建立良好的数理基础概念
第三章语言模型(N-gram语言模型)本章的主要知识点包括自然语言处理相关语言模型基础理论以及相关平滑处理技术等。·语言模型LanguageModel,N-Gram;链式规则ChainRule·数据稀疏Sparseness,Zipf定律ZipfLaw,平滑技术Smoothing/Good-TuringSmoothing,Katz回退KatzBackoff等;·相似度计算Similarity,TF-IDF,欧式距离EuclideanDistance,余弦距离Cosine,翻译模型Translation-basedSimilarity,查询最大释然函数Query-likelihoodModel,编辑距离EditDistance等;1.教学目标1)了解语言模型基础理论;2)了解相关平滑处理技术;3)了解向量距离度量方法;本章教学支持的课程目标为目标1。2.教学重点语言模型的核心理论细节。3.教学难点掌握自然语言处理的基本思想、概念和常见算法:如TF-IDF,语言模型,链式规则,N-Gram,数据稀疏,Zipf定律,平滑技术等。4.教学环节设计围绕教学重点和教学难点,综合应用课堂讲授与讨论1)讨论本章课堂讨论主要围绕语言模型在真实场景中的应用。第四章序列标注问题(Sequence labellingproblem)本章的主要知识点包括序列标注学习极其相关应用等。具体包括:·离散/连续马尔科夫模型Discrete/ContinuousMarkovModel·中文分词ChineseWordSegmentation·词性标注Part-of-Speech·命名实体识别NameEntityRecognition·短语识别Chunking·滑动窗口模型SlidingWindowModel·标注偏置问题Labelbiasproblem·隐马尔可夫模型HiddenMarkovModel
第三章 语言模型(N-gram 语言模型) 本章的主要知识点包括自然语言处理相关语言模型基础理论以及相关平滑 处理技术等。 语言模型 Language Model,N-Gram;链式规则 Chain Rule 数据稀疏 Sparseness,Zipf 定律 Zipf Law,平滑技术 Smoothing/ Good-Turing Smoothing, Katz 回退 Katz Backoff 等; 相似度计算 Similarity,TF-IDF,欧式距离 Euclidean Distance, 余弦距离 Cosine,翻译模型 Translation-based Similarity,查询 最大释然函数 Query-likelihood Model,编辑距离 Edit Distance 等; 1.教学目标 1)了解语言模型基础理论; 2)了解相关平滑处理技术; 3)了解向量距离度量方法; 本章教学支持的课程目标为目标 1。 2.教学重点 语言模型的核心理论细节。 3.教学难点 掌握自然语言处理的基本思想、概念和常见算法:如 TF-IDF,语言模型,链 式规则,N-Gram,数据稀疏,Zipf 定律,平滑技术等。 4.教学环节设计 围绕教学重点和教学难点,综合应用课堂讲授与讨论 1)讨论 本章课堂讨论主要围绕语言模型在真实场景中的应用。 第四章 序列标注问题 (Sequence labelling problem) 本章的主要知识点包括序列标注学习极其相关应用等。具体包括: 离散/连续马尔科夫模型 Discrete/Continuous Markov Model 中文分词 Chinese Word Segmentation 词性标注 Part-of-Speech 命名实体识别 Name Entity Recognition 短语识别 Chunking 滑动窗口模型 Sliding Window Model 标注偏置问题 Label bias problem 隐马尔可夫模型 Hidden Markov Model
·结构化感知器StructuredPerceptron,评价Evaluation等1.教学目标1)了解序列标注任务特点;2)了解中文分词、命名实体识别等技术;3)了解滑动窗口模型和隐马尔可夫模型:本章教学支持课程目标1和目标2。2.教学重点1)序列预测通过本知识点的教学,让学生深刻理解自然语言中的序列预测模型的基础概念与实践应用。3.教学难点序列标注的理论与方法,以及相关应用,如词性标注、中分分词、命名实体识别等。4.教学环节设计围绕教学重点和教学难点,对应设计第1,2个实验环节。第五章句法分析本章的主要知识点包括自然语言中语法分析等基础理论知识。·上下文无关文法ContextFreeGrammar·自上而下句法分析Top-downParsing·自下而上句法分析Bottom-upParsing·乔姆斯基范式ChomskyNormForm·语义消歧SemanticDisambiguation·概率上下文无关文法ProbabilisticContextFreeGrammar·最大概率句法树Most-likelyDerivation·最大似然训练MaximumLikelihood Training·依存语法DependencyGrammar,依存表示DependencyRepresentation,可投射性Projectivity,图方法Graph-basedParsing,Eisner算法,局部分类方法DeterministicP(ParsingShift-reduce算法)等;1.教学目标1)了解文法的基本概念;2)了解句法分析的基础理论知识:本章教学支持课程目标1和课程目标2。2.教学重点
结构化感知器 Structured Perceptron,评价 Evaluation 等 1.教学目标 1)了解序列标注任务特点; 2)了解中文分词、命名实体识别等技术; 3)了解滑动窗口模型和隐马尔可夫模型; 本章教学支持课程目标 1 和目标 2。 2.教学重点 1)序列预测 通过本知识点的教学,让学生深刻理解自然语言中的序列预测模型的基础概 念与实践应用。 3.教学难点 序列标注的理论与方法,以及相关应用,如词性标注、中分分词、命名实体 识别等。 4.教学环节设计 围绕教学重点和教学难点,对应设计第 1,2 个实验环节。 第五章 句法分析 本章的主要知识点包括自然语言中语法分析等基础理论知识。 上下文无关文法 Context Free Grammar 自上而下句法分析 Top-down Parsing 自下而上句法分析 Bottom-up Parsing 乔姆斯基范式 Chomsky Norm Form 语义消歧 Semantic Disambiguation 概率上下文无关文法 Probabilistic Context Free Grammar 最大概率句法树 Most-likely Derivation 最大似然训练 Maximum Likelihood Training 依 存 语 法 Dependency Grammar , 依 存 表 示 Dependency Representation,可投射性 Projectivity,图方法 Graph-based Parsing,Eisner 算法,局部分类方法 Deterministic P(Parsing Shift-reduce 算法) 等; 1.教学目标 1)了解文法的基本概念; 2)了解句法分析的基础理论知识; 本章教学支持课程目标 1 和课程目标 2。 2.教学重点