信息抽取(Information Extraction,】 E) 口基于某个主题模板,从非结构化或半结构化的自然 语言文本中提取出与某主题相关的结构化信息。 ■ 主题相关的信息(包括实体、实体关系、事件等)获取。 (信息检索是主题相关的文档获取) ■) 对自动问答、情感分析、数据挖掘(文本挖掘)等提供支 持
信息抽取(Information Extraction,IE) 基于某个主题模板,从非结构化或半结构化的自然 语言文本中提取出与某主题相关的结构化信息。 ◼ 主题相关的信息(包括实体、实体关系、事件等)获取。 (信息检索是主题相关的文档获取) ◼ 对自动问答、情感分析、数据挖掘(文本挖掘)等提供支 持
信息抽取实例:会议报道(人民日报1998-03-09) 新华社北京3月8日电(记者李术峰):中国农工民主党第十二 届中央常务委员会第一次会议今天在北京召开。 会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了 中国农工民主党中央1998年工作要点(草案),并任命了中央副 秘书长。 农工民主党中央主席蒋正华主持了会议,他说,农工民主党有1 0 0多名党员作为代表和委员参加了今年的“两会”,各位党员要认 真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻 “两会”精神,加强农工民主党的自身建设,推动事业进一步发展, 为建设有中国特色社会主义事业作出新的贡献。 会前,农工民主党中央邀请参加“两会”的来自全国各省、自治 区、直辖市的农工民主党党员进行了联谊活动
新华社北京3月8日电(记者李术峰): 中国农工民主党第十二 届中央常务委员会第一次会议今天在北京召开。 会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了 中国农工民主党中央1998年工作要点(草案),并任命了中央副 秘书长。 农工民主党中央主席蒋正华主持了会议,他说,农工民主党有1 00多名党员作为代表和委员参加了今年的“两会”,各位党员要认 真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻 “两会”精神,加强农工民主党的自身建设,推动事业进一步发展, 为建设有中国特色社会主义事业作出新的贡献。 会前,农工民主党中央邀请参加“两会”的来自全国各省、自治 区、直辖市的农工民主党党员进行了联谊活动。 信息抽取实例:会议报道(人民日报1998-03-09)
信息抽取的结果 会议时间 1998年3月8日 Time 会议地点 北京 Spot 个人姓名/团体 会议召集者/ 名称Name 蒋正华 主持人 Convener 机构、职位 主席,农工民主党中央 Org/Post 会议名/标题 中国农工民主党第土二届中央常务委员会 Conf-Title 第一次会议
信息抽取的结果 会 议 时 间 Time 1998年3月8日 会 议 地 点 Spot 北京 会议召集者/ 主 持 人 Convener 个人姓名/团体 名称 Name 蒋正华 机 构 、 职 位 Org/Post 主席,农工民主党中央 会议名/标题 Conf-Title 中国农工民主党第十二届中央常务委员会 第一次会议
口文本纠错 口招聘:对简历进行无偏见的筛选,为空缺职位挑选 出最合适的人选 ▣ 只要处理对象涉及自然语言的就需要NLP!
文本纠错 招聘:对简历进行无偏见的筛选,为空缺职位挑选 出最合适的人选 ...... 只要处理对象涉及自然语言的就需要NLP!
自然语言处理的基本任务 口语言分析:分析语言表达的结构和含义 ·词法分析:形态还原、词性标注、命名实体(人名、地 名、机构名)识别、分词(汉语、日语等)等 ■句法分析:确定句子的组成形式(组块分析、结构分析、 依存分析) 语义分析:确定语言表达的含义或意义,包括词义、句 义、篇章(上下文)语义(指代、实体关系、.) 口语言生成:从某种内部表示生成语言表达 ■词、句子、篇章的生成 多语言处理:语言之间的对应、转换(机器翻译、 跨语言检索) 口不同的应用对上述任务有不同的要求
自然语言处理的基本任务 语言分析:分析语言表达的结构和含义 ◼ 词法分析:形态还原、词性标注、命名实体(人名、地 名、机构名)识别、分词(汉语、日语等)等 ◼ 句法分析:确定句子的组成形式(组块分析、结构分析、 依存分析) ◼ 语义分析:确定语言表达的含义或意义,包括词义、句 义、篇章(上下文)语义(指代、实体关系、......) 语言生成:从某种内部表示生成语言表达 ◼ 词、句子、篇章的生成 多语言处理:语言之间的对应、转换(机器翻译、 跨语言检索) 不同的应用对上述任务有不同的要求