工程科学学报 Chinese Journal of Engineering 基于文本语料的涉恐事件实体属性抽取 曹文斌武卓峰杨涛凡友荣 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin,WU Zhuo-feng.YANG Tao,FAN You-rong 引用本文: 曹文斌,武卓峰,杨涛,凡友荣.基于文本语料的涉恐事件实体属性抽取.工程科学学报,2020,42(4):500-508.di: 10.13374j.issn2095-9389.2019.09.13.003 CAO Wen-bin,WU Zhuo-feng,YANG Tao,FAN You-rong.Entity and attribute extraction of terrorism event based on text corpus[J].Chinese Journal of Engineering,2020,42(4):500-508.doi:10.13374/j.issn2095-9389.2019.09.13.003 在线阅读View online::htps:ldoi.org10.13374.issn2095-9389.2019.09.13.003 您可能感兴趣的其他文章 Articles you may be interested in 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9y:1201 https::/doi.org10.13374.issn2095-9389.2019.09.012 基于领域词典与CRF双层标注的中文电子病历实体识别 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF 工程科学学报.2020.42(4:469 https:1doi.org10.13374.issn2095-9389.2019.09.04.004 基于PCA和MCMC的贝叶斯方法的海下矿山水害源识别分析 Application of PCA and Bayesian MCMC to discriminate between water sources in seabed gold mines 工程科学学报.2019,41(11:1412htps:/doi.org10.13374.issn2095-9389.2019.06.03.004 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020,42(4:476 https:/1doi.org10.13374j.issn2095-9389.2019.09.17.002 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报.2019,41(9外1208 https:1doi.org10.13374.issn2095-9389.2019.09.013
基于文本语料的涉恐事件实体属性抽取 曹文斌 武卓峰 杨涛 凡友荣 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin, WU Zhuo-feng, YANG Tao, FAN You-rong 引用本文: 曹文斌, 武卓峰, 杨涛, 凡友荣. 基于文本语料的涉恐事件实体属性抽取[J]. 工程科学学报, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003 CAO Wen-bin, WU Zhuo-feng, YANG Tao, FAN You-rong. Entity and attribute extraction of terrorism event based on text corpus[J]. Chinese Journal of Engineering, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003 您可能感兴趣的其他文章 Articles you may be interested in 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 基于领域词典与CRF双层标注的中文电子病历实体识别 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF 工程科学学报. 2020, 42(4): 469 https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004 基于PCA和MCMC的贝叶斯方法的海下矿山水害源识别分析 Application of PCA and Bayesian MCMC to discriminate between water sources in seabed gold mines 工程科学学报. 2019, 41(11): 1412 https://doi.org/10.13374/j.issn2095-9389.2019.06.03.004 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报. 2019, 41(9): 1208 https://doi.org/10.13374/j.issn2095-9389.2019.09.013
工程科学学报.第42卷.第4期:500-508.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:500-508,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003;http://cje.ustb.edu.cn 基于文本语料的涉恐事件实体属性抽取 曹文斌)四,武卓峰,杨涛),凡友荣) 1)公安部第三研究所,上海2012042)上海市公安局.上海200042 通信作者.E-mail:490838330@qq.com 摘要基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支 持.首先,基于西北政法大学“反恐怖主义信息网”文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分 类算法识别涉恐事件文本,并采用关键词提取算法TF-lIDF(Term frequency-inverse document frequency,词频-逆文档频率)构建 涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库.然后通过语义角色分析、句法依存分析,提取了主语谓 语宾语关系、定语后置动宾关系、人名地名机构和介宾关系主谓动补4类涉恐三元组结构.最后,利用正则表达式及带词 性的涉恐专有名词分析,在4类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐 怖组织6类实体属性.对采集的4221篇文章数据进行实验分析,6类实体属性抽取的测评结果F1值均超过80%,对网络空 间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义 关键词实体抽取:语义角色分析:三元组:朴素贝叶斯:文本分类 分类号TP301.6 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin,WU Zhuo-feng.YANG Tao,FAN You-rong" 1)Third Research Institute of Ministry of Public Security,Shanghai 201204,China 2)Shanghai Municipal Bureau of Public Security,Shanghai 200042,China Corresponding author,E-mail:490838330@qq.com ABSTRACT Affected by complex international factors in recent years,terrorism events are increasingly rampant in many countries, thereby posing a great threat to the gloal community.In addition,with the widespread use of emerging technologies in military and commercial fields,terrorist organizations have begun to use emerging technologies to engage in destructive activities.As the Internet and information technology develop,terrorism has been rapidly spreading in cyberspace.Terrorist organizations have created terrorism websites,established multinational networks of terrorist organizations,released recruitment information and even conducted training activities through various mainstream websites with a worldwide reach.Compared with traditional terrorist activities,cyber terrorist activities have a greater degree of destructiveness.Cybercrime and cyber terrorism have become the most serious challenges for societies.Terrorist organizations take advantage of the Internet in rapid dissemination of extremism ideas,and develop a large number of terrorists and supporters around the world,especially in developed Western countries.Terrorist organizations even use the Internet and "dark net"networks to conduct terrorist training,and their activities are concealed.As a result,the "lone wolf"terrorist attacks in various countries have emerged in an endless stream,which is difficult to prevent.This study proposed a method of extracting entities and attributes of terrorist events based on semantic role analysis,and provided technical support for monitoring and predicting cyberspace terrorism activities.Firstly,a naive Bayesian text classification algorithm is used to identify terrorism events on the cleaned 收稿日期:2019-09-13 基金项目:国家重点研发计划资助项目(2018YFC0830401.2018YFC0806903):公安部第三研究所2019年基本科研业务费专项资金资助项 目(C19354)
基于文本语料的涉恐事件实体属性抽取 曹文斌1) 苣,武卓峰2),杨 涛1),凡友荣1) 1) 公安部第三研究所,上海 201204 2) 上海市公安局,上海 200042 苣通信作者,E-mail: 490838330@qq.com 摘 要 基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支 持. 首先,基于西北政法大学“反恐怖主义信息网”文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分 类算法识别涉恐事件文本,并采用关键词提取算法 TF-IDF(Term frequency-inverse document frequency,词频-逆文档频率)构建 涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库. 然后通过语义角色分析、句法依存分析,提取了主语谓 语宾语关系、定语后置动宾关系、人名//地名//机构和介宾关系主谓动补 4 类涉恐三元组结构. 最后,利用正则表达式及带词 性的涉恐专有名词分析,在 4 类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐 怖组织 6 类实体属性. 对采集的 4221 篇文章数据进行实验分析,6 类实体属性抽取的测评结果 F1 值均超过 80%,对网络空 间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义. 关键词 实体抽取;语义角色分析;三元组;朴素贝叶斯;文本分类 分类号 TP301.6 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin1) 苣 ,WU Zhuo-feng2) ,YANG Tao1) ,FAN You-rong1) 1) Third Research Institute of Ministry of Public Security, Shanghai 201204, China 2) Shanghai Municipal Bureau of Public Security, Shanghai 200042, China 苣 Corresponding author, E-mail: 490838330@qq.com ABSTRACT Affected by complex international factors in recent years, terrorism events are increasingly rampant in many countries, thereby posing a great threat to the gloal community. In addition, with the widespread use of emerging technologies in military and commercial fields, terrorist organizations have begun to use emerging technologies to engage in destructive activities. As the Internet and information technology develop, terrorism has been rapidly spreading in cyberspace. Terrorist organizations have created terrorism websites, established multinational networks of terrorist organizations, released recruitment information and even conducted training activities through various mainstream websites with a worldwide reach. Compared with traditional terrorist activities, cyber terrorist activities have a greater degree of destructiveness. Cybercrime and cyber terrorism have become the most serious challenges for societies. Terrorist organizations take advantage of the Internet in rapid dissemination of extremism ideas, and develop a large number of terrorists and supporters around the world, especially in developed Western countries. Terrorist organizations even use the Internet and “dark net” networks to conduct terrorist training, and their activities are concealed. As a result, the "lone wolf" terrorist attacks in various countries have emerged in an endless stream, which is difficult to prevent. This study proposed a method of extracting entities and attributes of terrorist events based on semantic role analysis, and provided technical support for monitoring and predicting cyberspace terrorism activities. Firstly, a naive Bayesian text classification algorithm is used to identify terrorism events on the cleaned 收稿日期: 2019−09−13 基金项目: 国家重点研发计划资助项目(2018YFC0830401,2018YFC0806903);公安部第三研究所 2019 年基本科研业务费专项资金资助项 目(C19354) 工程科学学报,第 42 卷,第 4 期:500−508,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 500−508, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003; http://cje.ustb.edu.cn
曹文斌等:基于文本语料的涉恐事件实体属性抽取 501· text corpus collected from the Anti-Terrorism Information Site of the Northwest University of Political Science and Law.The keyword extraction algorithm TF-IDF is adopted for constructing the terrorism vocabularies from the classified text corpus,combining natural language processing technology.Then,semantic role and syntactic dependency analyses are conducted to mine the attributive post- targeting relationship,the name//place name//organization,and the mediator-like relationship.Finally,regular expressions and constructed lexical terrorism-specific vocabularies are used to extract six entities and attributes (occurrence time,occurrence location, casualties,attack methods,weapon types and terrorist organizations)of terrorism event based on the four types of triad short texts.The F1 values of the six types of entity attribute extraction evaluation results exceeded 80%based on the experimental data of 4221 articles collected.Therefore,the method proposed has practical significance for maintaining social public safety because of the positive effect in monitoring and predicting cyberspace terrorism events. KEY WORDS entity extraction;semantic role analysis;triples;naive Bayes;text categorization 近年来,受国际各种复杂因素的影响,我国反 1技术路线 恐斗争进入更加严峻的新阶段,网络空间成为恐 本文的研究语料来源于西北政法大学“反恐 怖分子的重要活动平台.与此同时,每天有大量的 怖主义信息网”,该网站聚焦了全球涉恐新闻报道 涉恐事件新闻报道、涉恐学术文献等文本发布在 及反恐学术传播.网站内容包括:全球五大地区 互联网上,这为涉恐事件的分析及预警提供了丰 (欧美、亚太、中东、中亚南亚、西亚非洲)恐怖活 富语料来源.然而,这些文本语料稀疏分散在浩瀚 动报道、国际反恐行动以及涉恐学术研究动态和 的网络数据中,大多以非结构化的形式存在,这给 成果.本文研究了涉恐主题网站的数据采集程序, 涉恐事件实体属性抽取带来了挑战 在主题网络爬虫技术的基础上),采用最新的 近年来,随着机器学习、深度学习等人工智能 Java的HTML解析器jsoup工具解构网页l,.针对 技术的兴起,事件实体、属性抽取得到了学者们越 “反恐怖主义信息网”结构特点,编写了涉恐主题 来越多的关注.事件实体、属性抽取方法由触发 网站精准数据采集程序,实现了文章标题、文章正 词模式匹配的规则山,发展到条件随机场CRF等 文、文章链接、文章发表日期、文章作者等信息的 机器学习算法I,再到最新的双向LSTM神经网络 精准提取及有效分类,并按照全球五大地区分库 模型).如章顺瑞与骆陈用语义角色分析的方法 存储。 对动态新闻进行事件抽取研究.陈箫箫与刘波 网页采集的数据很杂乱,且网页文本既有涉 在开放域微博文本运用条件随机场模型和LDA 恐文本,也有非涉恐文本.因此,首先对采集下来 主题模型进行了命名实体识别和事件短语抽取 的数据进行数据清洗,去除杂乱数据和非涉恐文 秦兵等阿提出了面向大规模网络中文文本的无监督 本.对于非涉恐文本的清洗,根据“没有伤害就不 开放式实体关系抽取方法.侯伟涛与姬东鸿使 是恐怖事件报道”的涉恐事件文本特征,通过正则 用双向LSTM神经网络解决了传统方法通用性不 表达式区分 强以及无法捕捉前后文隐含信息的问题.李卫疆 清洗后的涉恐文本包含涉恐学术活动报道等 等考虑词汇、语义、句法及位置特征,提出了基 非事件类新闻报道,通过基于机器学习的朴素贝 于多特征自注意力的实体关系抽取方法 叶斯算法,对涉恐文本进行分类,区分出涉恐事件 本文以西北政法大学“反恐怖主义信息网”文 文本和非涉恐事件文本.首先对文本进行中文文 本语料为数据集,使用机器学习算法中的朴素贝 本处理(分词、去停词库),随机生成训练测试验 叶斯分类算法识别涉恐文本9,通过TF-DF算法 证集等数据预处理工作,在分类训练过程中运用 提取涉恐专有关键词,采用命名实体识别、语义 了朴素贝叶斯算法,训练之后进行交叉验证训 角色分析、依存句法分析等自然语言处理技术构 练好的模型即可用于对清洗后的其它数据进行文 建了主语谓语宾语关系、定语后置动宾关系、人 本分类 名地名机构和介宾关系主谓动补的三元组结构四 对包含涉恐事件文本进行结构分解,根据事 结合4类三元组词性结构和涉恐专有词库,提取 件类新闻传播学的理论,事件类新闻报道按事实 了涉恐事件的发生地点、发生时间、恐怖组织、攻 严重性呈现倒金字塔结构,通常最重要、最新鲜 击方式、攻击武器、伤亡情况6类实体属性,为涉 的事实描述放在文章前面,把所有涉恐新闻的标题 恐事件的深度挖掘提供了技术支持 汇集在一起,运用T℉-IDF算法抽取涉恐事件专有关
text corpus collected from the Anti-Terrorism Information Site of the Northwest University of Political Science and Law. The keyword extraction algorithm TF-IDF is adopted for constructing the terrorism vocabularies from the classified text corpus, combining natural language processing technology. Then, semantic role and syntactic dependency analyses are conducted to mine the attributive posttargeting relationship, the name//place name//organization, and the mediator-like relationship. Finally, regular expressions and constructed lexical terrorism-specific vocabularies are used to extract six entities and attributes (occurrence time, occurrence location, casualties, attack methods, weapon types and terrorist organizations) of terrorism event based on the four types of triad short texts. The F1 values of the six types of entity attribute extraction evaluation results exceeded 80% based on the experimental data of 4221 articles collected. Therefore, the method proposed has practical significance for maintaining social public safety because of the positive effect in monitoring and predicting cyberspace terrorism events. KEY WORDS entity extraction;semantic role analysis;triples;naive Bayes;text categorization 近年来,受国际各种复杂因素的影响,我国反 恐斗争进入更加严峻的新阶段,网络空间成为恐 怖分子的重要活动平台. 与此同时,每天有大量的 涉恐事件新闻报道、涉恐学术文献等文本发布在 互联网上,这为涉恐事件的分析及预警提供了丰 富语料来源. 然而,这些文本语料稀疏分散在浩瀚 的网络数据中,大多以非结构化的形式存在,这给 涉恐事件实体属性抽取带来了挑战. 近年来,随着机器学习、深度学习等人工智能 技术的兴起,事件实体、属性抽取得到了学者们越 来越多的关注. 事件实体、属性抽取方法由触发 词模式匹配的规则[1] ,发展到条件随机场 CRF 等 机器学习算法[2] ,再到最新的双向 LSTM 神经网络 模型[3] . 如章顺瑞与骆陈[4] 用语义角色分析的方法 对动态新闻进行事件抽取研究. 陈箫箫与刘波[5] 在开放域微博文本运用条件随机场模型和 LDA 主题模型进行了命名实体识别和事件短语抽取. 秦兵等[6] 提出了面向大规模网络中文文本的无监督 开放式实体关系抽取方法. 侯伟涛与姬东鸿[7] 使 用双向 LSTM 神经网络解决了传统方法通用性不 强以及无法捕捉前后文隐含信息的问题. 李卫疆 等[8] 考虑词汇、语义、句法及位置特征,提出了基 于多特征自注意力的实体关系抽取方法. 本文以西北政法大学“反恐怖主义信息网”文 本语料为数据集,使用机器学习算法中的朴素贝 叶斯分类算法识别涉恐文本[9] ,通过 TF-IDF 算法 提取涉恐专有关键词[10] ,采用命名实体识别、语义 角色分析、依存句法分析等自然语言处理技术构 建了主语谓语宾语关系、定语后置动宾关系、人 名//地名//机构和介宾关系主谓动补的三元组结构[11] . 结合 4 类三元组词性结构和涉恐专有词库,提取 了涉恐事件的发生地点、发生时间、恐怖组织、攻 击方式、攻击武器、伤亡情况 6 类实体属性,为涉 恐事件的深度挖掘提供了技术支持. 1 技术路线 本文的研究语料来源于西北政法大学“反恐 怖主义信息网”,该网站聚焦了全球涉恐新闻报道 及反恐学术传播. 网站内容包括:全球五大地区 (欧美、亚太、中东、中亚南亚、西亚非洲)恐怖活 动报道、国际反恐行动以及涉恐学术研究动态和 成果. 本文研究了涉恐主题网站的数据采集程序, 在主题网络爬虫技术的基础上[12] ,采用最新的 Java 的 HTML 解析器 jsoup 工具解构网页[13] . 针对 “反恐怖主义信息网”结构特点,编写了涉恐主题 网站精准数据采集程序,实现了文章标题、文章正 文、文章链接、文章发表日期、文章作者等信息的 精准提取及有效分类,并按照全球五大地区分库 存储. 网页采集的数据很杂乱,且网页文本既有涉 恐文本,也有非涉恐文本. 因此,首先对采集下来 的数据进行数据清洗,去除杂乱数据和非涉恐文 本. 对于非涉恐文本的清洗,根据“没有伤害就不 是恐怖事件报道”的涉恐事件文本特征,通过正则 表达式区分. 清洗后的涉恐文本包含涉恐学术活动报道等 非事件类新闻报道,通过基于机器学习的朴素贝 叶斯算法,对涉恐文本进行分类,区分出涉恐事件 文本和非涉恐事件文本. 首先对文本进行中文文 本处理(分词、去停词库)[14] ,随机生成训练测试验 证集等数据预处理工作,在分类训练过程中运用 了朴素贝叶斯算法,训练之后进行交叉验证[15] . 训 练好的模型即可用于对清洗后的其它数据进行文 本分类. 对包含涉恐事件文本进行结构分解,根据事 件类新闻传播学的理论,事件类新闻报道按事实 严重性呈现倒金字塔结构[16] ,通常最重要、最新鲜 的事实描述放在文章前面,把所有涉恐新闻的标题 汇集在一起,运用 TF-IDF 算法抽取涉恐事件专有关 曹文斌等: 基于文本语料的涉恐事件实体属性抽取 · 501 ·
502 工程科学学报,第42卷,第4期 键词,文章的发布信息位置处的新闻发布时间是事 P(Y X)=P(XY)P(Y)/P(X)=P(X,Y)/P(X) 件发生的基准时间,因此需要将每篇涉恐事件新 在本文涉恐文本分类中,把X理解成“具有某 闻文本分解成标题、发布信息、新闻主体三部分 特征”,把Y理解成“是否属于涉恐文本类别标 对新闻段落进一步分句,逐句进行正则表达 签”,定义文本类别变量={0,1},=1时表示文本 式解析、命名实体识别抽取和语义角色分析.正 属于涉恐文本;=0时表示文本不属于涉恐文本. 则表达式用于初步提取事件发生时间叨,命名实 对于涉恐文本二分类问题即可转化为判断 体识别技术用于初步提取恐怖组织、事件发生地点 P(Y=)是否大于0.5就够了.朴素贝叶斯方法把 等,语义角色分析技术则用于提取句子中的三元 计算“具有某特征的条件下属于涉恐文本”的概率 组)本文用了4种三元组解析方法,分别是主语谓 转换成需要计算“属于涉恐文本条件下是否具有 语宾语关系解析、定语后置动宾关系解析、人名∥ 某特征”的概率,从而把未知的概率预测问题转化 地名机构解析、介宾关系主谓动补解析(图1). 成了先验统计训练问题 2关键技术及算法 自然语言处理中,句子出现的联合概率分布 为计算分词序列条件概率链,对于以词序列 2.1朴素贝叶斯文本分类算法 Z1,Z2,…,Zn组成的句子出现概率P(Z1,Z2,…,乙n)根 贝叶斯公式20 据链式法则计算, 厂 Pages Text recognition based on naive Data collection bayes and cleaning Paragraphs Title,paragraph separation Key words extraction Text reference time determination Keywords library Classification by part of speech Sentenc Semantic role labeling and named entity recognition Parsing sentences with regular expressions Analysis of the triad relationship based on terrorist thesaurus Part-of-speech terrorism-specific thesaurus Triad The subject-predicate-object short texts relationship extraction Post-attributive extraction The name//place name//organization Events extration- extraction Subject-verb verb complement Terrorist knowledge base relationship extraction ) 图1技术路线 Fig.1 Technical route
键词,文章的发布信息位置处的新闻发布时间是事 件发生的基准时间,因此需要将每篇涉恐事件新 闻文本分解成标题、发布信息、新闻主体三部分. 对新闻段落进一步分句,逐句进行正则表达 式解析、命名实体识别抽取和语义角色分析. 正 则表达式用于初步提取事件发生时间[17] ,命名实 体识别技术用于初步提取恐怖组织、事件发生地点 等[18] ,语义角色分析技术则用于提取句子中的三元 组[19] . 本文用了 4 种三元组解析方法,分别是主语谓 语宾语关系解析、定语后置动宾关系解析、人名// 地名//机构解析、介宾关系主谓动补解析(图 1). 2 关键技术及算法 2.1 朴素贝叶斯文本分类算法 贝叶斯公式[20] P(Y|X) = P(X|Y)P(Y)/P(X) = P(X,Y)/P(X) 在本文涉恐文本分类中,把 X 理解成“具有某 特征” ,把 Y 理解成“是否属于涉恐文本类别标 签”,定义文本类别变量 Y={0, 1},Y=1 时表示文本 属于涉恐文本;Y=0 时表示文本不属于涉恐文本. 对于涉恐文本二分类问题即可转化为判断 P(Y=1|X) 是否大于 0.5 就够了. 朴素贝叶斯方法把 计算“具有某特征的条件下属于涉恐文本”的概率 转换成需要计算“属于涉恐文本条件下是否具有 某特征”的概率,从而把未知的概率预测问题转化 成了先验统计训练问题. Z1,Z2,··· ,Zn P(Z1,Z2,··· ,Zn) 自然语言处理中,句子出现的联合概率分布 为计算分词序列条件概率链 ,对于以词序列 组成的句子出现概率 根 据链式法则计算[21] . Sentences Pages Paragraphs Triad short texts Keywords library Part-of-speech terrorism-specific thesaurus Data collection and cleaning Key words extraction Classification by part of speech Terrorist knowledge base Events extration Text recognition based on naive bayes Title, paragraph separation Text reference time determination Semantic role labeling and named entity recognition Parsing sentences with regular expressions Analysis of the triad relationship based on terrorist thesaurus The subject-predicate-object relationship extraction Post-attributive extraction The name//place name//organization extraction Subject-verb verb complement relationship extraction 图 1 技术路线 Fig.1 Technical route · 502 · 工程科学学报,第 42 卷,第 4 期
曹文斌等:基于文本语料的涉恐事件实体属性抽取 503· P(Z1,Z2,…,Zn)=P(Z1)P(Z2Z1)…P(ZIZ,Z2,…,Zn-1) 4人死亡”为例,经过自然语言处理技术分词(Word 马尔可夫独立假设(Markov assumption)2四认 segmentation,.WS)、词性标注(Part-of-speech tagging, 为,自然语言句子中,当前词出现的概率仅依赖前 POS)、依存句法(Dependency parsing,.DP)和语义 面出现的N个词,N通常小于等于3.这就是N-gram 角色标注(SRL)处理分析后,得到如表1所示的 语言模型,当N=2时,P(Z1,Z2,…,Zn)=P(Z1)PZ2 结果 Z1)P(Z31Z1Z2)…P(Z,Z-2Z-1)…P(Zn1Zn-2Zn-1)以训 依存句法分析通过句子中的“主谓宾”、“定 练样本Z=“阿富汗首都爆炸袭击造成至少4人死 状补”等语法关系描述分词后的词与词之间的关 亡”为例, 联关系4在揭示句子语法结构的同时,分析各分 P(Z=P“阿富汗首都爆炸袭击造成至少4人死亡”) 词成分关系.中文依存句法包含15种关系结构, =P(“阿富汗首都”,“爆炸”,“袭击”,“造成” 如:主谓关系、定中关系、动宾关系等在表1分析 “至少”,“4”,“人”,“死亡” 结果的基础上,画出图2的句法依存弧形关联图. =P“阿富汗首都”)P(“爆炸”1“阿富汗首都)… 在依存句法分析的基础上,进一步分析句子 P“死亡”1“阿富汗首都”,“爆炸”,“袭击”, 的语义角色,以实验句子为例,核心谓词“造成” “造成”,“至少”,“4”,“人”,“死亡”) “阿富汗首都爆炸袭击”是核心谓词的动作的施事 =P(“阿富汗首都”)P(“爆炸”1“阿富汗首都”)… 者A0:(0,3),“至少4人死亡”是受核心谓词的动作 P“袭击”|“阿富汗首都”,“爆炸)… 影响 P人”1“至少”,“4”)P(“死亡”1“4”,“人) 2.2语义角色分析技术 3实验及结果分析 语义角色标注(Semantic role labeling.,SRL)旨 3.1实验数据与评价指标 在标记出句中给定谓词的相关语义角色短语,例 本文基于西北政法大学“反恐怖主义信息网”, 如给定谓词的施事、受事、时间和地点等.语义角 采集了全球五大地区(欧美、亚太、中东、中亚南亚、 色分析技术能够识别出给定句子中的每个谓词, 西亚非洲)的42221篇网页数据(表2).数据以文 并标记出与其相应带语义成分,识别出其在句中 本文件格式按地区分5个文件存储,每一行为一 的相应语义成分.其中,做某件事的人或物则是谓 篇文章,每篇文章先后按文章URL、文章标题、文 词的施事,接受某事物的人、物即为谓词的受事, 章信息、段落用TAB分割. 其他的附加语(如地点、时间、方式)则是谓词的 根据抽取文章速度衡量模型的复杂度;根据 修饰成分 准确率(Precision)、召回率(Recall)、Fl值(F-Measure) 以实验句子“阿富汗首都爆炸袭击造成至少 考核算法的抽取效果 表1语义角色分析实例 Table 1 Semantic role analysis example Techniques 0 1 6 1 8 ws 阿富汗 首都 爆炸 袭击 造成 至少 4 人 死亡 POS ns n d m n DP 2:ATT 4:ATT 4:ATT 5:SBV 0:HED 8:ATT 8:ATT 9:SBV 5:VOB 4A0:0,3)A1(5,8) SRL 8A1:(5,7 -Head WP. VOB A ATT-ATT SBV A -SVB 阿富汗 首者 爆炸 击 造成 至少 ns d WD 图2依存句法分析 Fig.2 Dependency parsing analysis
P(Z1,Z2,··· ,Zn) = P(Z1)P(Z2|Z1)···P(Zn|Z1,Z2,··· ,Zn−1) P(Z1,Z2,··· ,Zn) = P(Z1)P(Z2 |Z1)P(Z3|Z1Z2)···P(Zt |Zt −2Zt −1)···P(Zn|Zn−2Zn−1) 马尔可夫独立假设(Markov assumption) [22] 认 为,自然语言句子中,当前词出现的概率仅依赖前 面出现的 N 个词,N 通常小于等于 3. 这就是 N-gram 语言模型[23] ,当 N=2 时 , 以训 练样本 Z=“阿富汗首都爆炸袭击造成至少 4 人死 亡”为例, P(Z)=P ( “阿富汗首都爆炸袭击造成至少4人死亡”) = P ( “阿富汗首都”,“爆炸”,“袭击”,“造成”, “至少”,“4”,“人”,“死亡”) =P ( “阿富汗首都”) P ( “爆炸”“阿富汗首都” | ) ··· P ( “死亡”|“阿富汗首都”,“爆炸”,“袭击”, “造成”,“至少”,“4”,“人”,“死亡”) =P ( “阿富汗首都”) P ( “爆炸”“阿富汗首都” | ) ··· P ( “袭击”|“阿富汗首都”,“爆炸”) ··· P ( “人”|“至少”,“4” ) P ( “死亡”|“4”,“人”) 2.2 语义角色分析技术 语义角色标注(Semantic role labeling, SRL)旨 在标记出句中给定谓词的相关语义角色短语,例 如给定谓词的施事、受事、时间和地点等. 语义角 色分析技术能够识别出给定句子中的每个谓词, 并标记出与其相应带语义成分,识别出其在句中 的相应语义成分. 其中,做某件事的人或物则是谓 词的施事,接受某事物的人、物即为谓词的受事, 其他的附加语 (如地点、时间、方式) 则是谓词的 修饰成分[4] . 以实验句子“阿富汗首都爆炸袭击造成至少 4 人死亡”为例,经过自然语言处理技术分词(Word segmentation, WS)、词性标注(Part-of-speech tagging, POS)、依存句法(Dependency parsing, DP)和语义 角色标注(SRL)处理分析后,得到如表 1 所示的 结果. 依存句法分析通过句子中的“主谓宾”、“定 状补”等语法关系描述分词后的词与词之间的关 联关系[24] . 在揭示句子语法结构的同时,分析各分 词成分关系. 中文依存句法包含 15 种关系结构, 如:主谓关系、定中关系、动宾关系等. 在表 1 分析 结果的基础上,画出图 2 的句法依存弧形关联图. 在依存句法分析的基础上,进一步分析句子 的语义角色,以实验句子为例,核心谓词“造成”, “阿富汗首都爆炸袭击”是核心谓词的动作的施事 者 A0:(0,3),“至少 4 人死亡”是受核心谓词的动作 影响. 3 实验及结果分析 3.1 实验数据与评价指标 本文基于西北政法大学“反恐怖主义信息网”, 采集了全球五大地区(欧美、亚太、中东、中亚南亚、 西亚非洲)的 42221 篇网页数据(表 2). 数据以文 本文件格式按地区分 5 个文件存储,每一行为一 篇文章,每篇文章先后按文章 URL、文章标题、文 章信息、段落用 TAB 分割. 根据抽取文章速度衡量模型的复杂度;根据 准确率(Precision)、召回率(Recall)、F1 值(F-Measure) 考核算法的抽取效果. 表 1 语义角色分析实例 Table 1 Semantic role analysis example Techniques 0 1 2 3 4 5 6 7 8 WS 阿富汗 首都 爆炸 袭击 造成 至少 4 人 死亡 POS ns n v v v d m n v DP 2:ATT 4:ATT 4:ATT 5:SBV 0:HED 8:ATT 8:ATT 9:SBV 5:VOB SRL 4 A0:(0,3)A1:(5,8) 8 A1:(5,7) 阿富汗 首都 爆炸 袭击 造成 至少 4 人 死亡 。 ns n v v v d m n v wp Root ATT ATT SBV ATT ATT SVB VOB WP ATT Head 图 2 依存句法分析 Fig.2 Dependency parsing analysis 曹文斌等: 基于文本语料的涉恐事件实体属性抽取 · 503 ·