信息抽取的结果 会议时间 1998年3月8日 Time 会议地点 Spot 北京 个人姓名/团体 会议召集者/名称Name 蒋正华 主持人 Convener 机构、职位 Org/Post 主席,农工民主党中央 会议名/标题中国农工民主党第十二届中央常务委员会 Conf-Title第一次会议
信息抽取的结果 会 议 时 间 Time 1998年3月8日 会 议 地 点 Spot 北京 会议召集者/ 主 持 人 Convener 个人姓名/团体 名称 Name 蒋正华 机 构 、 职 位 Org/Post 主席,农工民主党中央 会议名/标题 Conf-Title 中国农工民主党第十二届中央常务委员会 第一次会议
只要处理对象涉及自然语言的都需要NLP!
...... 只要处理对象涉及自然语言的都需要NLP!
自然语言处理的基本任务 口语言分析:分析语言表达的结构和含义 ■词法分析:形态还原、词性标注、命名实体(人名 地名、机构名)识别、分词(汉语、日语等)等 ■句法分析:确定句子的组成形式(组块分析、结构 分析、依存分析) ■语义分析:语言表达的含义或意义,包括词义、句 义(逻辑、格关系、……)、篇章(上下文)(指 代、实体关系、 口语言生成:从某种内部表示生成语言表达 ■词、句子、篇章的生成 口多语言处理(机器翻译、跨语言检索):语言 之间的对应、转换 口不同的应用对上述任务有不同的要求
自然语言处理的基本任务 语言分析:分析语言表达的结构和含义 ◼ 词法分析:形态还原、词性标注、命名实体(人名、 地名、机构名)识别、分词(汉语、日语等)等 ◼ 句法分析:确定句子的组成形式(组块分析、结构 分析、依存分析) ◼ 语义分析:语言表达的含义或意义,包括词义、句 义(逻辑、格关系、......)、篇章(上下文)(指 代、实体关系、......) 语言生成:从某种内部表示生成语言表达 ◼ 词、句子、篇章的生成 多语言处理(机器翻译、跨语言检索):语言 之间的对应、转换 不同的应用对上述任务有不同的要求
自然语言处理的实现方法 口基于知识工程的理性方法( Rationalist approach) ■以规则形式表达语言知识。 ■基于规则进行符号推理,从而实现语言信息处理。 ■强调人对语言知识的理性整理(受 Chomsky主张的人具 有先天语言能力观点的影响,主宰1960-1985)。 口基于语料库的经验方法( Empiricist approach ■以大规模语料库为语言知识基础。 利用统计学习和基于神经网络的深度学习方法自动获取隐 含在语料库中的知识,学习到的知识体现为一系列模型参 数。(训练) 基于学习到的参数和相应的模型进行语言信息处理
自然语言处理的实现方法 基于知识工程的理性方法(Rationalist approach) ◼ 以规则形式表达语言知识。 ◼ 基于规则进行符号推理,从而实现语言信息处理。 ◼ 强调人对语言知识的理性整理(受Chomsky主张的人具 有先天语言能力观点的影响,主宰1960-1985)。 基于语料库的经验方法(Empiricist approach) ◼ 以大规模语料库为语言知识基础。 ◼ 利用统计学习和基于神经网络的深度学习方法自动获取隐 含在语料库中的知识,学习到的知识体现为一系列模型参 数。 (训练) ◼ 基于学习到的参数和相应的模型进行语言信息处理
口混合方法 ■理性方法的优、缺点 口相应的语言学理论基础好 ¤语言知识描述精确 口处理效率高 口知识获取困难(高级劳动) ¤系统鲁棒性差:不完备的规则系统将导致推理的失败 口知识扩充困难,很难保证规则之间的一致性 ■经验方法的优、缺点 口知识获取容易(低级劳动) ¤系统鲁棒性好:概率大的作为结果 ¤知识扩充容易、一致性容易维护 ¤相应的语言学理论基础差(可解释性差) 口缺乏对语言学知识的深入描述和利用,过于机械 口处理效率低 利用各家之长,相互融合?
混合方法 ◼ 理性方法的优、缺点 相应的语言学理论基础好 语言知识描述精确 处理效率高 知识获取困难(高级劳动) 系统鲁棒性差:不完备的规则系统将导致推理的失败 知识扩充困难,很难保证规则之间的一致性 ◼ 经验方法的优、缺点 知识获取容易(低级劳动) 系统鲁棒性好:概率大的作为结果 知识扩充容易、一致性容易维护 相应的语言学理论基础差(可解释性差) 缺乏对语言学知识的深入描述和利用,过于机械 处理效率低 ◼ 利用各家之长,相互融合?