自然语言处理的实现方法 口基于知识工程的理性方法(Rationalist approach) 以规则形式表达语言知识。 ■ 基于规则进行符号推理,从而实现语言信息处理。 ■ 强调人对语言知识的理性整理(受Chomsky主张的人具 有先天语言能力观点的影响,主宰1960年-1985年) o 口 基于数据的经验方法(Empiricist approach) ■以大规模语料库为语言知识基础。 利用统计学习和基于神经网络的深度学习模型自动获取隐 含在语料库中的语言知识(模型训练),学习到的知识体 现为一系列模型参数,基于学习到的模型参数和相应的模 型进行语言信息处理。 ■强调数据的作用(90年代开始,2000年以后大行其道)
自然语言处理的实现方法 基于知识工程的理性方法(Rationalist approach) ◼ 以规则形式表达语言知识。 ◼ 基于规则进行符号推理,从而实现语言信息处理。 ◼ 强调人对语言知识的理性整理(受Chomsky主张的人具 有先天语言能力观点的影响,主宰1960年-1985年)。 基于数据的经验方法(Empiricist approach) ◼ 以大规模语料库为语言知识基础。 ◼ 利用统计学习和基于神经网络的深度学习模型自动获取隐 含在语料库中的语言知识(模型训练),学习到的知识体 现为一系列模型参数,基于学习到的模型参数和相应的模 型进行语言信息处理。 ◼ 强调数据的作用(90年代开始,2000年以后大行其道)
口混合方法 ■理性方法的优、缺点 口相应的语言学理论基础好 口语言知识描述精确 口处理效率高(确定性推理) 口知识获取困难(需要专业人员,高级劳动) 口系统鲁棒性差:不完备的规则系统将导致推理的失败 ▣知识扩充困难,并且很难保证规则之间的一致性 ■经验方法的优、缺点 口知识获取容易(数据收集,低级劳动) 口系统鲁棒性好(概率大的作为结果) 口知识扩充容易、一致性容易维护 ▣相应的语言学理论基础差(可解释性差) 口缺乏对语言学知识的深入描述和利用,过于机械 口处理效率低(大数据、高维度计算) ■利用各家之长,相互融合? 口在数据的基础上,充分利用先验知识(领域知识)
混合方法 ◼ 理性方法的优、缺点 相应的语言学理论基础好 语言知识描述精确 处理效率高(确定性推理) 知识获取困难(需要专业人员,高级劳动) 系统鲁棒性差:不完备的规则系统将导致推理的失败 知识扩充困难,并且很难保证规则之间的一致性 ◼ 经验方法的优、缺点 知识获取容易(数据收集,低级劳动) 系统鲁棒性好(概率大的作为结果) 知识扩充容易、一致性容易维护 相应的语言学理论基础差(可解释性差) 缺乏对语言学知识的深入描述和利用,过于机械 处理效率低(大数据、高维度计算) ◼ 利用各家之长,相互融合? 在数据的基础上,充分利用先验知识(领域知识)
自然语言处理的难点 口自然语言充满了大量的歧义(为什么?) ■用有限的词汇和规则来表达和处理复杂、多样的对象! 口语言知识的表示、获取和运用 口成语和惯用型的处理 口对语言的灵活性和动态性的处理 ·灵活性:同一个意图的不同表达,甚至包含错误的语法等 ■动态性:语言在不断的变化,如:新词等 口对常识等与语言无关的知识的利用和处理
自然语言处理的难点 自然语言充满了大量的歧义(为什么?) ◼ 用有限的词汇和规则来表达和处理复杂、多样的对象! 语言知识的表示、获取和运用 成语和惯用型的处理 对语言的灵活性和动态性的处理 ◼ 灵活性:同一个意图的不同表达,甚至包含错误的语法等 ◼ 动态性:语言在不断的变化,如:新词等 对常识等与语言无关的知识的利用和处理
自然语言的分类(基于形态结构) 屈折型语言 ■有词形变化 ■词的语法意义(功能)由词的形态变化来表示 ·如:英语 口分析型语言 ■没有或很少有词形变化 ■没有表示词的语法功能的附加成分,由词序和虚词表示词之间的 语法关系 ■如:汉语 口黏着型语言 ■有词形变化 ■词的语法意义由附加成分表达 ■如:日语
自然语言的分类(基于形态结构) 屈折型语言 ◼ 有词形变化 ◼ 词的语法意义(功能)由词的形态变化来表示 ◼ 如:英语 分析型语言 ◼ 没有或很少有词形变化 ◼ 没有表示词的语法功能的附加成分,由词序和虚词表示词之间的 语法关系 ◼ 如:汉语 黏着型语言 ◼ 有词形变化 ◼ 词的语法意义由附加成分表达 ◼ 如:日语
口另外,语言还可以按“主动宾”在句子中的位置进 行分类: ■SVO型(主-动-宾) ■VSO型(动-主-宾) ■SOV型(主-宾-动)
另外,语言还可以按“主动宾”在句子中的位置进 行分类: ◼ SVO型(主-动-宾) ◼ VSO型(动-主-宾) ◼ SOV型(主-宾-动)