汉语处理的难点 口缺乏计算语言学的句法/语义理论,大都借用基于西方语言的 句法/语义理论(是否适合汉语?) 口资源(语料库)缺乏 口词法分析 ■分词(词之间没有分隔符) ■词性标注难(没有词形变化)》 口句法分析 ■主动词识别难(特别对于流水句) ·词法分类与句法功能对应差(例如:他喜欢走) 口语义分析 ■ 句法结构与句义对应差(例如:老头晒太阳) ■时体态确定难(无形态变化)
汉语处理的难点 缺乏计算语言学的句法/语义理论,大都借用基于西方语言的 句法/语义理论(是否适合汉语?) 资源(语料库)缺乏 词法分析 ◼ 分词(词之间没有分隔符) ◼ 词性标注难(没有词形变化) 句法分析 ◼ 主动词识别难(特别对于流水句) ◼ 词法分类与句法功能对应差(例如:他喜欢走) 语义分析 ◼ 句法结构与句义对应差(例如:老头晒太阳) ◼ 时体态确定难 (无形态变化)
自然语言处理所涉及的学科 口语言学:各种语法、语义理论 0 计算机科学(包括人工智能) 口数学:逻辑、概率与统计、信息论等 口哲学(认知学) 口心理学
自然语言处理所涉及的学科 语言学:各种语法、语义理论 计算机科学(包括人工智能) 数学:逻辑、概率与统计、信息论等 哲学(认知学) 心理学
基于规则的自然语言处理方法 (理性方法,传统方法)
基于规则的自然语言处理方法 (理性方法,传统方法)
概述 口以规则形式表达语言知识。 口基于规则进行符号推理,从而实现语言信息处理。 口强调人对语言知识的理性整理(知识工程)。 受计算语言学理论指导。 口语言处理规则作为数据,它与程序分离,程序体现 为规则语言的解释器
概述 以规则形式表达语言知识。 基于规则进行符号推理,从而实现语言信息处理。 强调人对语言知识的理性整理(知识工程)。 受计算语言学理论指导。 语言处理规则作为数据,它与程序分离,程序体现 为规则语言的解释器
词法分析 口形态还原(针对英语、德语、法语等) ■把句子中的词还原成它们的基本词形(原形)。 口词性标注 ■为句子中的词标上预定义类别集合中的类。 口命名实体识别 ■识别出句子中的人名、地名、机构名等。 口分词(针对汉语、日语等) ■识别出句子中的词
词法分析 形态还原(针对英语、德语、法语等) ◼ 把句子中的词还原成它们的基本词形(原形)。 词性标注 ◼ 为句子中的词标上预定义类别集合中的类。 命名实体识别 ◼ 识别出句子中的人名、地名、机构名等。 分词(针对汉语、日语等) ◼ 识别出句子中的词