信息抽取的结果 会议时间 1998年3月8日 Time 会议地点 北京 Spot 个人姓名/团体 会议召集者/ 名称Name 蒋正华 主持人 Convener 机构、职位 主席,农工民主党中央 Org/Post 会议名/标题 中国农工民主党第土二届中央常务委员会 Conf-Title 第一次会议
信息抽取的结果 会 议 时 间 Time 1998年3月8日 会 议 地 点 Spot 北京 会议召集者/ 主 持 人 Convener 个人姓名/团体 名称 Name 蒋正华 机 构 、 职 位 Org/Post 主席,农工民主党中央 会议名/标题 Conf-Title 中国农工民主党第十二届中央常务委员会 第一次会议
口文本纠错 口招聘:对简历进行无偏见的筛选,为空缺职位挑选 出最合适的人选 ▣ 只要处理对象涉及自然语言的就需要NLP!
文本纠错 招聘:对简历进行无偏见的筛选,为空缺职位挑选 出最合适的人选 ...... 只要处理对象涉及自然语言的就需要NLP!
自然语言处理的基本任务 口语言分析:分析语言表达的结构和含义 ·词法分析:形态还原、词性标注、命名实体(人名、地 名、机构名)识别、分词(汉语、日语等)等 ■句法分析:确定句子的组成形式(组块分析、结构分析、 依存分析) 语义分析:确定语言表达的含义或意义,包括词义、句 义、篇章(上下文)语义(指代、实体关系、.) 口语言生成:从某种内部表示生成语言表达 ■词、句子、篇章的生成 多语言处理:语言之间的对应、转换(机器翻译、 跨语言检索) 口不同的应用对上述任务有不同的要求
自然语言处理的基本任务 语言分析:分析语言表达的结构和含义 ◼ 词法分析:形态还原、词性标注、命名实体(人名、地 名、机构名)识别、分词(汉语、日语等)等 ◼ 句法分析:确定句子的组成形式(组块分析、结构分析、 依存分析) ◼ 语义分析:确定语言表达的含义或意义,包括词义、句 义、篇章(上下文)语义(指代、实体关系、......) 语言生成:从某种内部表示生成语言表达 ◼ 词、句子、篇章的生成 多语言处理:语言之间的对应、转换(机器翻译、 跨语言检索) 不同的应用对上述任务有不同的要求
自然语言处理的实现方法 口基于知识工程的理性方法(Rationalist approach) 以规则形式表达语言知识。 ■ 基于规则进行符号推理,从而实现语言信息处理。 ■ 强调人对语言知识的理性整理(受Chomsky主张的人具 有先天语言能力观点的影响,主宰1960年-1985年) o 口 基于数据的经验方法(Empiricist approach) ■以大规模语料库为语言知识基础。 利用统计学习和基于神经网络的深度学习模型自动获取隐 含在语料库中的语言知识(模型训练),学习到的知识体 现为一系列模型参数,基于学习到的模型参数和相应的模 型进行语言信息处理。 ■强调数据的作用(90年代开始,2000年以后大行其道)
自然语言处理的实现方法 基于知识工程的理性方法(Rationalist approach) ◼ 以规则形式表达语言知识。 ◼ 基于规则进行符号推理,从而实现语言信息处理。 ◼ 强调人对语言知识的理性整理(受Chomsky主张的人具 有先天语言能力观点的影响,主宰1960年-1985年)。 基于数据的经验方法(Empiricist approach) ◼ 以大规模语料库为语言知识基础。 ◼ 利用统计学习和基于神经网络的深度学习模型自动获取隐 含在语料库中的语言知识(模型训练),学习到的知识体 现为一系列模型参数,基于学习到的模型参数和相应的模 型进行语言信息处理。 ◼ 强调数据的作用(90年代开始,2000年以后大行其道)
口混合方法 ■理性方法的优、缺点 口相应的语言学理论基础好 口语言知识描述精确 口处理效率高(确定性推理) 口知识获取困难(需要专业人员,高级劳动) 口系统鲁棒性差:不完备的规则系统将导致推理的失败 ▣知识扩充困难,并且很难保证规则之间的一致性 ■经验方法的优、缺点 口知识获取容易(数据收集,低级劳动) 口系统鲁棒性好(概率大的作为结果) 口知识扩充容易、一致性容易维护 ▣相应的语言学理论基础差(可解释性差) 口缺乏对语言学知识的深入描述和利用,过于机械 口处理效率低(大数据、高维度计算) ■利用各家之长,相互融合? 口在数据的基础上,充分利用先验知识(领域知识)
混合方法 ◼ 理性方法的优、缺点 相应的语言学理论基础好 语言知识描述精确 处理效率高(确定性推理) 知识获取困难(需要专业人员,高级劳动) 系统鲁棒性差:不完备的规则系统将导致推理的失败 知识扩充困难,并且很难保证规则之间的一致性 ◼ 经验方法的优、缺点 知识获取容易(数据收集,低级劳动) 系统鲁棒性好(概率大的作为结果) 知识扩充容易、一致性容易维护 相应的语言学理论基础差(可解释性差) 缺乏对语言学知识的深入描述和利用,过于机械 处理效率低(大数据、高维度计算) ◼ 利用各家之长,相互融合? 在数据的基础上,充分利用先验知识(领域知识)