自然语言处理的难点 口自然语言充满了大量的歧义(为什么?) ■用有限的词汇和规则来表达和处理复杂、多样的对象! 口语言知识的表示、获取和运用 口成语和惯用型的处理 口对语言的灵活性和动态性的处理 ·灵活性:同一个意图的不同表达,甚至包含错误的语法等 ■动态性:语言在不断的变化,如:新词等 口对常识等与语言无关的知识的利用和处理
自然语言处理的难点 自然语言充满了大量的歧义(为什么?) ◼ 用有限的词汇和规则来表达和处理复杂、多样的对象! 语言知识的表示、获取和运用 成语和惯用型的处理 对语言的灵活性和动态性的处理 ◼ 灵活性:同一个意图的不同表达,甚至包含错误的语法等 ◼ 动态性:语言在不断的变化,如:新词等 对常识等与语言无关的知识的利用和处理
自然语言的分类(基于形态结构) 屈折型语言 ■有词形变化 ■词的语法意义(功能)由词的形态变化来表示 ·如:英语 口分析型语言 ■没有或很少有词形变化 ■没有表示词的语法功能的附加成分,由词序和虚词表示词之间的 语法关系 ■如:汉语 口黏着型语言 ■有词形变化 ■词的语法意义由附加成分表达 ■如:日语
自然语言的分类(基于形态结构) 屈折型语言 ◼ 有词形变化 ◼ 词的语法意义(功能)由词的形态变化来表示 ◼ 如:英语 分析型语言 ◼ 没有或很少有词形变化 ◼ 没有表示词的语法功能的附加成分,由词序和虚词表示词之间的 语法关系 ◼ 如:汉语 黏着型语言 ◼ 有词形变化 ◼ 词的语法意义由附加成分表达 ◼ 如:日语
口另外,语言还可以按“主动宾”在句子中的位置进 行分类: ■SVO型(主-动-宾) ■VSO型(动-主-宾) ■SOV型(主-宾-动)
另外,语言还可以按“主动宾”在句子中的位置进 行分类: ◼ SVO型(主-动-宾) ◼ VSO型(动-主-宾) ◼ SOV型(主-宾-动)
汉语处理的难点 口缺乏计算语言学的句法/语义理论,大都借用基于西方语言的 句法/语义理论(是否适合汉语?) 口资源(语料库)缺乏 口词法分析 ■分词(词之间没有分隔符) ■词性标注难(没有词形变化)》 口句法分析 ■主动词识别难(特别对于流水句) ·词法分类与句法功能对应差(例如:他喜欢走) 口语义分析 ■ 句法结构与句义对应差(例如:老头晒太阳) ■时体态确定难(无形态变化)
汉语处理的难点 缺乏计算语言学的句法/语义理论,大都借用基于西方语言的 句法/语义理论(是否适合汉语?) 资源(语料库)缺乏 词法分析 ◼ 分词(词之间没有分隔符) ◼ 词性标注难(没有词形变化) 句法分析 ◼ 主动词识别难(特别对于流水句) ◼ 词法分类与句法功能对应差(例如:他喜欢走) 语义分析 ◼ 句法结构与句义对应差(例如:老头晒太阳) ◼ 时体态确定难 (无形态变化)
自然语言处理所涉及的学科 口语言学:各种语法、语义理论 0 计算机科学(包括人工智能) 口数学:逻辑、概率与统计、信息论等 口哲学(认知学) 口心理学
自然语言处理所涉及的学科 语言学:各种语法、语义理论 计算机科学(包括人工智能) 数学:逻辑、概率与统计、信息论等 哲学(认知学) 心理学