汉语是世界上最难被计算机理解的语言之 ·汉语具有显著的特点 特点 例子 复杂名词短中国北京红十字芦山抢险救援队“五一” 语节期间工作掠影 形式标记和 形态变化机器翻译,翻译人员,翻译小说 流水句 她弯下腰来飞快地割着麦子,一把一把 (成分省路)沉甸甸的,今年收成真是不错,心情不 由得欢快起来
汉语是世界上最难被计算机理解的语言之一 11 特点 例子 复杂名词短 语 中国北京红十字芦山抢险救援队“五一” 节期间工作掠影 形式标记和 形态变化 机器翻译,翻译人员,翻译小说 流水句 (成分省略) 她弯下腰来飞快地割着麦子,一把一把 沉甸甸的,今年收成真是不错,心情不 由得欢快起来。 • 汉语具有显著的特点
需要性能高、覆盖能力强的汉语句子结构预测模型 目前语言计算主流模型可分为两类,但均存在很大局限性 ·互联网中文理解亟需建立能处理大规模开放域文本深层结构 的语言计算模型 模型训练所可用训对互联 语言计算模型语言结构需语料库规模盖能力 练数据网的覆 马尔科夫模型表层 无标注 极大 强 条件随机场模型深层 有标注 较小 弱 深层 无标注&极大 有标注 较小 强
需要性能高、覆盖能力强的汉语句子结构预测模型 语言计算模型 语言结构 模型训练所 需语料库 可用训 练数据 规模 对互联 网的覆 盖能力 马尔科夫模型 表层 无标注 极大 强 条件随机场模型 深层 有标注 较小 弱 ? 深层 无标注& 有标注 极大& 较小 强 12 • 目前语言计算主流模型可分为两类,但均存在很大局限性 • 互联网中文理解亟需建立能处理大规模开放域文本深层结构 的语言计算模型