HIT-SCIR 基于有指导的机器学习方法 语料以及预处理 。 Ontonotes40中选取1000篇文本 分词、命名实体、共指关系、实体关系 使用ltp工具对其进行词性标注 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 。过滤反例 利用共指关系 。如果两个实体存在共指,那么这两个实体不存在实体关系 正例3656个,反例86323个 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(1) ◼ 语料以及预处理 ⚫ Ontonotes4.0中选取1000篇文本 ◼ 分词、命名实体、共指关系、实体关系 ◼ 使用ltp工具对其进行词性标注 ◼ 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 ⚫ 过滤反例 ◼ 利用共指关系 ⚫ 如果两个实体存在共指,那么这两个实体不存在实体关系 ◼ 正例3656个,反例86323个
HIT-SCIR 基于有指导的机器学习方法(2) 语料分析 936%的关系实例存在关系指示词 使用三元组来描述一个关系实例是可行的 其中大部分关系指示词在两个实体中间或者右边 占有关系指示词实例的9594 哈尔滨工业大学RG校长nwo王树国p 梁朝伟P是刘嘉玲PR的老公 <relation word> o 尝试了两种不同的方法 。先识别实体对的方法 。先识别关系指示词的方法 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(2) ◼ 语料分析 ⚫ 93.6%的关系实例存在关系指示词 ◼ 使用三元组来描述一个关系实例是可行的 ◼ 其中大部分关系指示词在两个实体中间或者右边 ⚫ 占有关系指示词实例的95.94% ⚫ 哈尔滨工业大学<ORG>校长<relation_word>王树国<PER>。 ⚫ 梁朝伟<PER>是刘嘉玲<PER>的老公<relation_word>。 ◼ 尝试了两种不同的方法 ⚫ 先识别实体对的方法 ⚫ 先识别关系指示词的方法
(RMT.scin 基于有指导的机器学习方法(3) n先识别实体对的方法 最大熵模型判断实体之间是否有关系 特征 实体类型 PER LOC. ORG. TIME 实体的词序列(特征泛化) feature(哈尔滨工业大学)={哈尔滨,工业,大学} 。实体上下文的词性 。CRF模型识别关系指示词 如果实体对存在关系,使用该模型识别关系指示词 特征 词、词性、是否是实体 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(3) ◼ 先识别实体对的方法 ⚫ 最大熵模型判断实体之间是否有关系 ◼ 特征 ⚫ 实体类型 ◼ PER, LOC, ORG, TIME ⚫ 实体的词序列(特征泛化) ◼ Feature(哈尔滨工业大学) = {哈尔滨,工业,大学} ⚫ 实体上下文的词性 ⚫ CRF模型识别关系指示词 ◼ 如果实体对存在关系,使用该模型识别关系指示词 ◼ 特征 ⚫ 词、词性、是否是实体
( R HIT-SCIR 习近平 习近平 中华人民共和国中央军事委员会 中华人民共和国中央军事委员会 胡锦涛 胡锦涛 特征集合} 特征集 特征集合} 特征抽取 实体对过滤 习近平 中华人民共和国中央军事委员会 习近平当选为中华人民共和国中央率事委员会主席,与胡锦特征集合 实体识别 识别关系指 习近平 习近平当选为中华人民共和国中央军事委员生中华人民共和国中央军事委员会 主席 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 习近平 胡锦涛 {特征集合} 中华人民共和国中央军事委员会 胡锦涛 {特征集合} 实体识别 特征抽取 实体对过滤 识别关系指 示词 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 习近平 中华人民共和国中央军事委员会 {特征集合} 习近平 中华人民共和国中央军事委员会 主席 习近平 中华人民共和国中央军事委员会 {特征集合}
HIT-SCIR 基于有指导的机器学习方法(4) 先识别实体对方法的实验结果 最大熵模型判断实体之间是否有关系 类别准确率(%)召回率(%)F值(%) CR存在关系 21 31 两 不存在关系 98 评测标准准确率(%)召回率(%F值(%) 评测标准准确率(%)召回率(%)F值(%) 标注结果 47.10 15.32 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(4) ◼ 先识别实体对方法的实验结果 ⚫ 最大熵模型判断实体之间是否有关系 ◼ 训练数据不平衡导致正例召回率低 ⚫ CRF模型识别关系指示词 ⚫ 两步级联后的实验结果 类别 准确率(%) 召回率(%) F值(%) 存在关系 62 21 31 不存在关系 96 99 98 评测标准 准确率(%) 召回率(%) F值(%) 标注结果 评测标准 准确率(75.98%) 召回率(72.96%) F值(74.44%) 标注结果 47.10 15.32 23.12