当前位置：和泉文库 > 电气与自动化 > 浏览文档

【自然语言处理与理解】从用户需求语句建立问题可拓模型的研究编辑部

文件格式：PDF，文件大小：517KB，售价：2.73元

文档详细内容（约7页）

第10卷第6期智能系统学报 Vol.10 No.6 2015年12月 CAAI Transactions on Intelligent Systems Dee.2015 D0L:10.11992/is.201507038 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20151111.1633.004.html 从用户需求语句建立问题可拓模型的研究王定桥，李卫华，杨春燕2 (1.广东工业大学计算机学院，广东广州510006；2.广东工业大学可拓学与创新方法研究所，广东广州510006) 摘要：准确地建立待解决问题的可拓模型是可拓策略生成的关键步骤。目前的可拓策略生成系统在建立可拓模型时因自然语言理解的困难，未能充分理解用户需求，所以较雄自动建立问题的可拓模型。提出了解析用户自然语言需求语句、并自动建立可拓模型的方法。该方法的核心包括4步：1)对用户需求语句进行组块分析得到短语序列：2)对短语序列进行分类：3)使用匹配规则抽取分类后的短语，得到便于计算机处理的需求信息：4)结合数据库技术进行可拓模型的建立。以租房问题为案例，实现了该方法。实验结果表明，该方法能较好地理解用户需求信息并成功建立租房问题可拓模型。关键词：可拓学：可拓模型；可拓策略生成：信息抽取：分类中图分类号：TP391文献标志码：A文章编号：1673-4785(2015)06-0865-07 中文引用格式：王定桥，李卫华，杨春燕.从用户需求语句建立问题可拓模型的研究[J].智能系统学报，2015,10(6)：865-871. 英文引用格式：WANG Dingqiao,LI Weihua,YANG Chunyan.Research on building an extension model from user requirements [J].CAAI Transactions on Intelligent Systems,2015,10(6):865-871. Research on building an extension model from user requirements WANG Dingqiao',LI Weihua',YANG Chunyan2 (1.School of Computer,Guangdong University of Technology,Guangzhou 510006,China;2.Research Institute of Extenics and Inno- vation Methods,Guangdong University of Technology,Guangzhou 510006,China) Abstract:Building an effective extension model to solve a problem is a key step in generating an extension strategy.Due to the complexity of natural language processing,the current extension strategy generation system is insufficiently clear with respect to user requirements,so it is hard to automatically build an extension model. In this paper,we propose a method for parsing the user requirement sentence in order to then automatically build the extension model.This method contains four core steps.First,chunk parsing is performed on the sen- tence containing the user requirements to obtain the phrase sequence.Secondly,the phrase sequence is classi- fied with a classifier.Thirdly,based on the matching rule,information is extracted from the classified phrase to obtain the information required for computer processing.Next,database technology is used to build the exten- sion model.Using a tenement building as an example,we implemented and tested our proposed method.Based on our experimental results,we proved that the proposed method is effective for understanding user require- ments in order to build an extension model. Keywords:extenics;extension model;extension strategy generation;information extraction;classification 矛盾问题是指在现有条件下无法实现人们要达到的目标的问题。矛盾问题智能化处理的研究对现代科学的发展具有重要意义山。可拓学研究的矛收稿日期：2015-07-23.网络出版日期：2015-11-11. 基金项目：国家自然科学基金资助项目(61273306). 盾问题主要分为不相容问题和对立问题，本文主要通信作者：王定桥.E-mail:wangdingqiao2012@qg.com. 讨论不相容问题

第１０卷第６期智能系统学报Ｖｏｌ．１０ №．６２０１５年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１５ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０７０３８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５１１１１．１６３３．００４．ｈｔｍｌ从用户需求语句建立问题可拓模型的研究王定桥１，李卫华１，杨春燕２（１．广东工业大学计算机学院，广东广州５１０００６；２．广东工业大学可拓学与创新方法研究所，广东广州５１０００６）摘要：准确地建立待解决问题的可拓模型是可拓策略生成的关键步骤。目前的可拓策略生成系统在建立可拓模型时因自然语言理解的困难，未能充分理解用户需求，所以较难自动建立问题的可拓模型。提出了解析用户自然语言需求语句、并自动建立可拓模型的方法。该方法的核心包括４步：１）对用户需求语句进行组块分析得到短语序列；２）对短语序列进行分类；３）使用匹配规则抽取分类后的短语，得到便于计算机处理的需求信息；４）结合数据库技术进行可拓模型的建立。以租房问题为案例，实现了该方法。实验结果表明，该方法能较好地理解用户需求信息并成功建立租房问题可拓模型。关键词：可拓学；可拓模型；可拓策略生成；信息抽取；分类中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０６⁃０８６５⁃０７中文引用格式：王定桥，李卫华，杨春燕．从用户需求语句建立问题可拓模型的研究［Ｊ］．智能系统学报，２０１５，１０（６）：８６５⁃８７１．英文引用格式：ＷＡＮＧＤｉｎｇｑｉａｏ，ＬＩＷｅｉｈｕａ，ＹＡＮＧＣｈｕｎｙａｎ．Ｒｅｓｅａｒｃｈｏｎｂｕｉｌｄｉｎｇａｎｅｘｔｅｎｓｉｏｎｍｏｄｅｌｆｒｏｍｕｓｅｒｒｅｑｕｉｒｅｍｅｎｔｓ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（６）：８６５⁃８７１．ＲｅｓｅａｒｃｈｏｎｂｕｉｌｄｉｎｇａｎｅｘｔｅｎｓｉｏｎｍｏｄｅｌｆｒｏｍｕｓｅｒｒｅｑｕｉｒｅｍｅｎｔｓＷＡＮＧＤｉｎｇｑｉａｏ１，ＬＩＷｅｉｈｕａ１，ＹＡＮＧＣｈｕｎｙａｎ２（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ；２．ＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＥｘｔｅｎｉｃｓａｎｄＩｎｎｏ⁃ ｖａｔｉｏｎＭｅｔｈｏｄｓ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｂｕｉｌｄｉｎｇａｎｅｆｆｅｃｔｉｖｅｅｘｔｅｎｓｉｏｎｍｏｄｅｌｔｏｓｏｌｖｅａｐｒｏｂｌｅｍｉｓａｋｅｙｓｔｅｐｉｎｇｅｎｅｒａｔｉｎｇａｎｅｘｔｅｎｓｉｏｎｓｔｒａｔｅｇｙ．Ｄｕｅｔｏｔｈｅｃｏｍｐｌｅｘｉｔｙｏｆｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，ｔｈｅｃｕｒｒｅｎｔｅｘｔｅｎｓｉｏｎｓｔｒａｔｅｇｙｇｅｎｅｒａｔｉｏｎｓｙｓｔｅｍｉｓｉｎｓｕｆｆｉｃｉｅｎｔｌｙｃｌｅａｒｗｉｔｈｒｅｓｐｅｃｔｔｏｕｓｅｒｒｅｑｕｉｒｅｍｅｎｔｓ，ｓｏｉｔｉｓｈａｒｄｔｏａｕｔｏｍａｔｉｃａｌｌｙｂｕｉｌｄａｎｅｘｔｅｎｓｉｏｎｍｏｄｅｌ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｍｅｔｈｏｄｆｏｒｐａｒｓｉｎｇｔｈｅｕｓｅｒｒｅｑｕｉｒｅｍｅｎｔｓｅｎｔｅｎｃｅｉｎｏｒｄｅｒｔｏｔｈｅｎａｕｔｏｍａｔｉｃａｌｌｙｂｕｉｌｄｔｈｅｅｘｔｅｎｓｉｏｎｍｏｄｅｌ．Ｔｈｉｓｍｅｔｈｏｄｃｏｎｔａｉｎｓｆｏｕｒｃｏｒｅｓｔｅｐｓ．Ｆｉｒｓｔ，ｃｈｕｎｋｐａｒｓｉｎｇｉｓｐｅｒｆｏｒｍｅｄｏｎｔｈｅｓｅｎ⁃ ｔｅｎｃｅｃｏｎｔａｉｎｉｎｇｔｈｅｕｓｅｒｒｅｑｕｉｒｅｍｅｎｔｓｔｏｏｂｔａｉｎｔｈｅｐｈｒａｓｅｓｅｑｕｅｎｃｅ．Ｓｅｃｏｎｄｌｙ，ｔｈｅｐｈｒａｓｅｓｅｑｕｅｎｃｅｉｓｃｌａｓｓｉ⁃ ｆｉｅｄｗｉｔｈａｃｌａｓｓｉｆｉｅｒ．Ｔｈｉｒｄｌｙ，ｂａｓｅｄｏｎｔｈｅｍａｔｃｈｉｎｇｒｕｌｅ，ｉｎｆｏｒｍａｔｉｏｎｉｓｅｘｔｒａｃｔｅｄｆｒｏｍｔｈｅｃｌａｓｓｉｆｉｅｄｐｈｒａｓｅｔｏｏｂｔａｉｎｔｈｅｉｎｆｏｒｍａｔｉｏｎｒｅｑｕｉｒｅｄｆｏｒｃｏｍｐｕｔｅｒｐｒｏｃｅｓｓｉｎｇ．Ｎｅｘｔ，ｄａｔａｂａｓｅｔｅｃｈｎｏｌｏｇｙｉｓｕｓｅｄｔｏｂｕｉｌｄｔｈｅｅｘｔｅｎ⁃ ｓｉｏｎｍｏｄｅｌ．Ｕｓｉｎｇａｔｅｎｅｍｅｎｔｂｕｉｌｄｉｎｇａｓａｎｅｘａｍｐｌｅ，ｗｅｉｍｐｌｅｍｅｎｔｅｄａｎｄｔｅｓｔｅｄｏｕｒｐｒｏｐｏｓｅｄｍｅｔｈｏｄ．Ｂａｓｅｄｏｎｏｕｒｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ，ｗｅｐｒｏｖｅｄｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｅｆｆｅｃｔｉｖｅｆｏｒｕｎｄｅｒｓｔａｎｄｉｎｇｕｓｅｒｒｅｑｕｉｒｅ⁃ ｍｅｎｔｓｉｎｏｒｄｅｒｔｏｂｕｉｌｄａｎｅｘｔｅｎｓｉｏｎｍｏｄｅｌ．Ｋｅｙｗｏｒｄｓ：ｅｘｔｅｎｉｃｓ；ｅｘｔｅｎｓｉｏｎｍｏｄｅｌ；ｅｘｔｅｎｓｉｏｎｓｔｒａｔｅｇｙｇｅｎｅｒａｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ收稿日期：２０１５⁃０７⁃２３．网络出版日期：２０１５⁃１１⁃１１．基金项目：国家自然科学基金资助项目（６１２７３３０６）．通信作者：王定桥．Ｅ⁃ｍａｉｌ：ｗａｎｇｄｉｎｇｑｉａｏ２０１２＠ｑｑ．ｃｏｍ．矛盾问题是指在现有条件下无法实现人们要达到的目标的问题。矛盾问题智能化处理的研究对现代科学的发展具有重要意义［１］。可拓学研究的矛盾问题主要分为不相容问题和对立问题，本文主要讨论不相容问题

·866. 智能系统学报第10卷解决不相容问题，一般包括6个步骤)，其中参考价值，但仍然不能直接用于建立可拓模型。在第1个步骤就是建立问题的可拓模型。因此，要借实际应用中，用户表达的语句通常会出现不完全合助计算机智能化地处理不相容问题，首要的任务是乎语法、信息省略、包含错别字、简写、歧义等情况，准确地建立问题的可拓模型。为信息抽取增加了难度。因此，结合实际问题需要，目前，建立可拓模型主要通过2种方式：1)在本文将从用户需求语句主要抽取的信息分为4类，人充分理解问题的基础上，利用形式化符号手工建如下：立。这种方式主要由少数专家和研究人员使用，对 1)可量化的量值可拓学专业知识要求较高，不适合广大用户：2)通这类信息是指，用户表达的明确的属性和量值。过可拓策略生成系统的界面输入问题相关的参数，例如：来辅助系统建模。例如早期研究的自助游可拓策略例1一个人想在沙坪坝租房，只租1个月，有生成系统)、租房可拓策略生成系统]、求职问题空调、卫生间，房租大概350元。可拓策略生成系统[)等都是采用这种方式。但使这个语句中用户给出的区域、，租金、租期和配套用这种方式时存在2个问题：1)当参数过多时，输设施都属于可量化的量值。入界面通用设计变得困难：2)如果输入文字稍长， 2)抽象的量值系统难以快速理解用户问题，建模效率低。自然语言表达中通常会不自觉地出现一些抽象描述，当这些描述与可拓策略生成系统期望的量值 1 关键技术及解决思路类型不一致时，仍然需要抽取，以便做出更合理的决 1.1问题可拓模型建立所涉及到的技术策。例如建立不相容问题的可拓模型，实际上是一个收例2我要在大连市内找工作，想租个房子，月集与问题P相关的信息，然后界定问题的目标G和租便宜点、交通方便点的。条件L,形成可拓模型P=GL的过程。其中主要涉这里用户提供的租金描述为便宜的、交通状况及到以下技术：为方便的，都属于抽象量值，而可拓策略生成系统实 1)信息抽取技术际需要的为数量值。信息抽取技术是指从一段文本中抽取指定的事 3)优先级信息件、事实等信息，形成结构化的数据并存入一个数据用户语句中很可能通过“必须”、“一定要”、“最库，供用户查询和使用的过程。从用户需求语句，抽好”等关键字，来表达他的特殊需求，例如：取属性及量值，实际上就是一个信息抽取的过程。例3想在滨州市新北中附近租房。便宜点的， 2)领域本体合租也可以。一定要有暖气。领域本体是用于描述特定领域知识的一种专门用户表达的需求“一定要有暖气”可作为可拓策本体。它给出了领域实体概念、领域属性概念、领域略生成的一个筛选条件。属性值及相互关系，以及该领域所具有的特性和规 4)逻辑关系信息律的一种形式化描述6)。实际上在可拓策略生成逻辑关系，主要包括用户表达的并列、或者、否系统整个过程中，都需要借助领域本体知识。在建定、反义等逻辑关系。例如：立模型时领域本体能够为抽取属性的种类、量值范例4我要在南宁市内租房，一室或者二室都可围、量值单位提供一致的指导。以，500元以内，不要中介的，安全的。 3)数据库技术第1类信息的抽取，是一个命名实体识别的过可拓策略生成系统需要借助数据库技术，存储基程。命名实体识别(named entity recognition,NER) 础数据、知识库、规则库等内容。在建立模型时用户的主要任务是识别出文本中的人名、地名等专有名提供的需求语句可能只提供了目标或条件之中的一称和有意义的时间、日期等数量短语并加以归个，或者提供了不完整的目标和条件，这些情况下需类。实际研究中，命名实体识别的对象根据不同要利用数据库中数据对可拓模型进行补充和完善。应用而有所改变，例如在医学文本中识别生物命名 1.2用户需求语句信息抽取的主要内容实体[1】、中文旅游景点的识别]等。目前命名实当前信息抽取还只是面向特定领域开展，能够体识别主要的方法包括：基于规则和词典的方法、基真正实现大规模应用的信息抽取系统仍然未出于统计的方法、二者混合的方法。文献[12]对比并现)。知网的中文信息语义处理技术[]有一定的指出了各个方法的优点和局限

解决不相容问题，一般包括６个步骤［１］，其中第１个步骤就是建立问题的可拓模型。因此，要借助计算机智能化地处理不相容问题，首要的任务是准确地建立问题的可拓模型。目前，建立可拓模型主要通过２种方式：１）在人充分理解问题的基础上，利用形式化符号手工建立。这种方式主要由少数专家和研究人员使用，对可拓学专业知识要求较高，不适合广大用户；２）通过可拓策略生成系统的界面输入问题相关的参数，来辅助系统建模。例如早期研究的自助游可拓策略生成系统［２］、租房可拓策略生成系统［３］、求职问题可拓策略生成系统［４］等都是采用这种方式。但使用这种方式时存在２个问题：１）当参数过多时，输入界面通用设计变得困难；２）如果输入文字稍长，系统难以快速理解用户问题，建模效率低。１关键技术及解决思路１．１问题可拓模型建立所涉及到的技术建立不相容问题的可拓模型，实际上是一个收集与问题Ｐ相关的信息，然后界定问题的目标Ｇ和条件Ｌ，形成可拓模型Ｐ＝ＧＬ的过程。其中主要涉及到以下技术：１）信息抽取技术信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程［５］。从用户需求语句，抽取属性及量值，实际上就是一个信息抽取的过程。２）领域本体领域本体是用于描述特定领域知识的一种专门本体。它给出了领域实体概念、领域属性概念、领域属性值及相互关系，以及该领域所具有的特性和规律的一种形式化描述［６］。实际上在可拓策略生成系统整个过程中，都需要借助领域本体知识。在建立模型时领域本体能够为抽取属性的种类、量值范围、量值单位提供一致的指导。３）数据库技术可拓策略生成系统需要借助数据库技术，存储基础数据、知识库、规则库等内容。在建立模型时用户提供的需求语句可能只提供了目标或条件之中的一个，或者提供了不完整的目标和条件，这些情况下需要利用数据库中数据对可拓模型进行补充和完善。１．２用户需求语句信息抽取的主要内容当前信息抽取还只是面向特定领域开展，能够真正实现大规模应用的信息抽取系统仍然未出现［７］。知网的中文信息语义处理技术［８］有一定的参考价值，但仍然不能直接用于建立可拓模型。在实际应用中，用户表达的语句通常会出现不完全合乎语法、信息省略、包含错别字、简写、歧义等情况，为信息抽取增加了难度。因此，结合实际问题需要，本文将从用户需求语句主要抽取的信息分为４类，如下：１）可量化的量值这类信息是指，用户表达的明确的属性和量值。例如：例１一个人想在沙坪坝租房，只租１个月，有空调、卫生间，房租大概３５０元。这个语句中用户给出的区域、租金、租期和配套设施都属于可量化的量值。２）抽象的量值自然语言表达中通常会不自觉地出现一些抽象描述，当这些描述与可拓策略生成系统期望的量值类型不一致时，仍然需要抽取，以便做出更合理的决策。例如：例２我要在大连市内找工作，想租个房子，月租便宜点、交通方便点的。这里用户提供的租金描述为便宜的、交通状况为方便的，都属于抽象量值，而可拓策略生成系统实际需要的为数量值。３）优先级信息用户语句中很可能通过“必须”、“一定要”、“最好”等关键字，来表达他的特殊需求，例如：例３想在滨州市新北中附近租房。便宜点的，合租也可以。一定要有暖气。用户表达的需求“一定要有暖气”可作为可拓策略生成的一个筛选条件。４）逻辑关系信息逻辑关系，主要包括用户表达的并列、或者、否定、反义等逻辑关系。例如：例４我要在南宁市内租房，一室或者二室都可以，５００元以内，不要中介的，安全的。第１类信息的抽取，是一个命名实体识别的过程。命名实体识别（ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类［９］。实际研究中，命名实体识别的对象根据不同应用而有所改变，例如在医学文本中识别生物命名实体［１０］、中文旅游景点的识别［１１］等。目前命名实体识别主要的方法包括：基于规则和词典的方法、基于统计的方法、二者混合的方法。文献［１２］对比并指出了各个方法的优点和局限。 ·８６６· 智能系统学报第１０卷

第6期王定桥，等：从用户需求语句建立问题可拓模型的研究 ·867- 上述第2类信息的抽取是一个分类的过程。对 2.1预处理于用户提供的不够具体的量值，首先确定其描述的预处理的主要目的是为了简化后续处理。这一内容属于什么属性，然后可以按2种方式处理。阶段完成工作包括：过滤、替换、数据格式调整、分种是为抽象描述提供预设值，例如为租金构造离散词。过滤主要是过滤客气词（例如“请问”）、语气词函数，根据值域分为便宜、一般、高价3个等级，这样 (例如“急求”)、询问相关词（例如“有没有”）。替用户提供的抽象值也可以量化。另一种是利用抽取换包括错别字替换（例如“500一下”替换为“500以的抽象值，指导后续的人机交互过程。下”)和同义词替换（例如“旁边”、“周围”等替换为上述第3类和第4类信息，主要是在确定了 “附近”)。数据格式调整，包括数值都使用数字表属性和量值后，在这个量值所在的上下文环境示，数值范围调整为统一格式。分词时保留原句中中，通过有限状态机实现。构造一个包含表达优的逗号等分隔符，将长语句分割为短语句，得到多个先级、反义这类信息的关键词的词典，通过有限短语句的分词序列。状态机中状态之间转移来实现。例如量词短语 2.2组块分析 “1000元”所在上下文为“租金超过1000元的组块是一种语法结构，是符合一定语法功能的就不要了”，首先获取的量值1000元，通过输入非递归短语14)。组块分析包括组块的划分和识单词“超过”和“不要”，量值转换为最终的区间别，也就是识别出语句中像动词短语、形容词短语这值[0,1000]。类短语的过程。本文借助Stanford Parser来完成组 1.3问题解决思路块分析。Stanford Parser中文解析器是基于Chinese 在处理具体问题的用户需求语句时，时间、货 Treebank的，具体的组块标记可参考文献[l5]。币、日期等实体占据很大比例，其识别比较简单，在实验的过程中，发现组块切分的粒度，对于抽可以在分类后采用模式匹配方式实现：而其他实取的信息数量有较大影响，尤其是当用户语句中量体类数量比较少，识别比较困难。针对这一情值信息密度较大时。况，本文决定采用混合的方法，即分类和规则匹例52个800块以内的单间。配结合的方法来完成属性和量值的抽取。文献预处理后形成的语义树，如图2所示。在此片 [13]中采用混合的方法提高了命名实体识别的段中，需要抽取包括房间数量（两间），租金(800块准确率和召回率。受到此方法的启示，本文从用以内)以及房子样式（单间）在内的3个属性和量户需求语句中提取信息时，先对用户语句进行组值。如果仅切分为一个NP短语，那么后续阶段处块分析获取短语序列：然后对短语序列进行分理时可能漏掉属性；而切分为QP、DNP和NP,借助类，通过对分类后的短语使用规则匹配获取属性上下文信息，则能很好地捕获3个属性信息。和量值：最后，使用这些属性和量值并结合数据 ROOT 库技术建立问题的可拓模型。 P 2建立可拓模型的步骤 VP NP 建立可拓模型的处理流程如图1所示。 OP DNP NP 用户问句 CD CLP LCP NN 预处理词序列两 M QP LC 单间组块分析个 CD CLP 以内短语序列分类 800 M 分类后的短语序列块量值提取图2例5对应的语法树属性字典 Fig.2 The parse tree of the fifth example 模型填充可拓模型 Chinese Treebank提供了17个短语标记，其中图1建立可拓模型的流程图 CP,P和UCP粒度过大，需要处理其内部节点： Fig.1 Steps to build extension model PRN、LST和DP一般不出现在用户需求语句中，不予处理：CLP类型需要处理其上级QP短语，VP

上述第２类信息的抽取是一个分类的过程。对于用户提供的不够具体的量值，首先确定其描述的内容属于什么属性，然后可以按２种方式处理。一种是为抽象描述提供预设值，例如为租金构造离散函数，根据值域分为便宜、一般、高价３个等级，这样用户提供的抽象值也可以量化。另一种是利用抽取的抽象值，指导后续的人机交互过程。上述第３类和第４类信息，主要是在确定了属性和量值后，在这个量值所在的上下文环境中，通过有限状态机实现。构造一个包含表达优先级、反义这类信息的关键词的词典，通过有限状态机中状态之间转移来实现。例如量词短语 “ １０００元” 所在上下文为“ 租金超过１０００元的就不要了” ，首先获取的量值１０００元，通过输入单词“超过” 和“ 不要” ，量值转换为最终的区间值［０，１０００］。１．３问题解决思路在处理具体问题的用户需求语句时，时间、货币、日期等实体占据很大比例，其识别比较简单，可以在分类后采用模式匹配方式实现；而其他实体类数量比较少，识别比较困难。针对这一情况，本文决定采用混合的方法，即分类和规则匹配结合的方法来完成属性和量值的抽取。文献［１３］中采用混合的方法提高了命名实体识别的准确率和召回率。受到此方法的启示，本文从用户需求语句中提取信息时，先对用户语句进行组块分析获取短语序列；然后对短语序列进行分类，通过对分类后的短语使用规则匹配获取属性和量值；最后，使用这些属性和量值并结合数据库技术建立问题的可拓模型。２建立可拓模型的步骤建立可拓模型的处理流程如图１所示。图１建立可拓模型的流程图Ｆｉｇ．１Ｓｔｅｐｓｔｏｂｕｉｌｄｅｘｔｅｎｓｉｏｎｍｏｄｅｌ２．１预处理预处理的主要目的是为了简化后续处理。这一阶段完成工作包括：过滤、替换、数据格式调整、分词。过滤主要是过滤客气词（例如“请问”）、语气词（例如“急求”）、询问相关词（例如“有没有”）。替换包括错别字替换（例如“５００一下”替换为“５００以下”）和同义词替换（例如“旁边”、“周围”等替换为 “附近”）。数据格式调整，包括数值都使用数字表示，数值范围调整为统一格式。分词时保留原句中的逗号等分隔符，将长语句分割为短语句，得到多个短语句的分词序列。２．２组块分析组块是一种语法结构，是符合一定语法功能的非递归短语［１４］。组块分析包括组块的划分和识别，也就是识别出语句中像动词短语、形容词短语这类短语的过程。本文借助ＳｔａｎｆｏｒｄＰａｒｓｅｒ来完成组块分析。ＳｔａｎｆｏｒｄＰａｒｓｅｒ中文解析器是基于ＣｈｉｎｅｓｅＴｒｅｅｂａｎｋ的，具体的组块标记可参考文献［１５］。在实验的过程中，发现组块切分的粒度，对于抽取的信息数量有较大影响，尤其是当用户语句中量值信息密度较大时。例５２个８００块以内的单间。预处理后形成的语义树，如图２所示。在此片段中，需要抽取包括房间数量（两间），租金（８００块以内）以及房子样式（单间）在内的３个属性和量值。如果仅切分为一个ＮＰ短语，那么后续阶段处理时可能漏掉属性；而切分为ＱＰ、ＤＮＰ和ＮＰ，借助上下文信息，则能很好地捕获３个属性信息。图２例５对应的语法树Ｆｉｇ．２ＴｈｅｐａｒｓｅｔｒｅｅｏｆｔｈｅｆｉｆｔｈｅｘａｍｐｌｅＣｈｉｎｅｓｅＴｒｅｅｂａｎｋ提供了１７个短语标记，其中ＣＰ、ＩＰ和ＵＣＰ粒度过大，需要处理其内部节点；ＰＲＮ、ＬＳＴ和ＤＰ一般不出现在用户需求语句中，不予处理；ＣＬＰ类型需要处理其上级ＱＰ短语，ＶＰ、第６期王定桥，等：从用户需求语句建立问题可拓模型的研究 ·８６７·

·868· 智能系统学报第10卷 DNP、DVP需要处理其内部节点：FRAG是不能构建完整结构的片段元素，也需要处理其内部节点；主要 if(tNode!=null)）处理的类型包括PP、QP、NP、LCP、ADJP、ADVP6 leaves.remove(tNode.getLeaves()); 种短语。 else leaves.remove(curLeave); 6种主要短语中，最复杂的是NP。NP分为简单其中pruneTree完成语法树的剪枝工作，移除名词短语和复合名词短语。简单名词短语由单个普 SP、PN、PU等标记的节点，移除一些常见动词（例如通名词NN、专有NR,时间名词NT构成；复和名词 “想”)，副词AD和形容词Ⅱ仅保留词典中存在的短语的情况主要包括5种情况，QP-NN复合（例如词：ancestor为从当前节点向上获取父节点，参数为 “一个月”)、NN-NN复合（例如“个人房源”）、NN- 向上查找层数。handelDefault处理的是默认情况， CC-NN复合（例如“空调和洗衣机”）、多个时间名词默认情况下仅处理包括动词VV,形容词VA,名词复合（例如“3月29日”），以及NR与若干个NN复 NN这些单词。对于这类词，不使用包含它们的父合（例如“北京海淀区附近”）。节点类型标记它们，而是直接使用它的词性作为标根据上述分析，采用自底向上的搜索方法来获记，将他们作为其他短语的上下文环境保留起来，以取短语序列，实现伪代码如下所示：便于后续的分类工作。handleQP、handleNP、han getPhraseList(Tree root,List<String>phList) dleLCP3个函数分别处理QP、NP、LCP短语。给定 root =pruneTree(root);leaves root.leaves; 例句： while(！leaves..isEmpty()）{ 例6一个人想在郑州中央商务区附近租个 curLeave,tNode leaves[0],null 350块左右单间。 P2=curLeave.ancestor(2,root); 得到短语序列：[QP:一个/CD,NN:人/NN,PP: switch(p2.label) 在/P郑州/NR中央/NN商务区/NN,VV:租/VV, case "QP" QP:个/M,LCP:350/CD块/M左右/LC,NN:单间/ tNode=handleQP(root,p2 phList);break; NN]。 case NP": 2.3分类 tNode=handleNP(root,p2,phList);break; 使用分类算法的关键是找到有效的特征向量。 case "LCP": 本文选取的特征包括：短语类型，包含测试特征，以 tNode=handleLCP(root,P2,phList);break; 及词或者词性特征。包含测试特征是对短语是否包 case ADJP",PP",ADVP": 含某类词，进行测试而得到的整型值。不同短语测 phList.add(chToStr(p2.label,P2); 试后的特征个数也不统一，因此把包含测试特征附 tNode=p2 break; 加到短语类型上，作为一个特征。共选取了6个特 default: 征用于分类，如表1所示。 handleDefault();break; 表1用于分类的特征向量 Table 1 Features used in classification 短语或词包含测试特征词或词性特征 QP 连词，序数词量词，左边名词，左边动词，右边名词，右边动词 PP 地址，时间，数词，连词量词，首词，末尾词或其词性，左边动词或名词，右边动词或形容词 LCP 地址，时间，数词，连词量词，末尾词，最后一个名词，左边动词或名词，右边动词 NP 地址，时间连词名词1，名词2，左边动词，右边名词，右边动词 ADJP 无形容词刀，左边动词，右边名词，其余置为空 ADVP 无副词AD,左边名词，右边动词或形容词，其余置为空 VA 无形容词VA,左边名词，右边名词，其余置为空 NN 无名词NN,左边动词，右边动词或形容词，其余置为空 V 无动词VV,左边动词，右边动词，其余置为空

ＤＮＰ、ＤＶＰ需要处理其内部节点；ＦＲＡＧ是不能构建完整结构的片段元素，也需要处理其内部节点；主要处理的类型包括ＰＰ、ＱＰ、ＮＰ、ＬＣＰ、ＡＤＪＰ、ＡＤＶＰ６种短语。６种主要短语中，最复杂的是ＮＰ。ＮＰ分为简单名词短语和复合名词短语。简单名词短语由单个普通名词ＮＮ、专有ＮＲ、时间名词ＮＴ构成；复和名词短语的情况主要包括５种情况，ＱＰ⁃ＮＮ复合（例如 “一个月”）、ＮＮ⁃ＮＮ复合（例如“个人房源”）、ＮＮ⁃ ＣＣ⁃ＮＮ复合（例如“空调和洗衣机”）、多个时间名词复合（例如“３月２９日”），以及ＮＲ与若干个ＮＮ复合（例如“北京海淀区附近”）。根据上述分析，采用自底向上的搜索方法来获取短语序列，实现伪代码如下所示：ｇｅｔＰｈｒａｓｅＬｉｓｔ（Ｔｒｅｅｒｏｏｔ，Ｌｉｓｔ＜Ｓｔｒｉｎｇ＞ｐｈＬｉｓｔ）｛ｒｏｏｔ＝ｐｒｕｎｅＴｒｅｅ（ｒｏｏｔ）；ｌｅａｖｅｓ＝ｒｏｏｔ．ｌｅａｖｅｓ；ｗｈｉｌｅ（！ｌｅａｖｅｓ．ｉｓＥｍｐｔｙ（））｛ｃｕｒＬｅａｖｅ，ｔＮｏｄｅ＝ｌｅａｖｅｓ［０］，ｎｕｌｌｐ２＝ｃｕｒＬｅａｖｅ．ａｎｃｅｓｔｏｒ（２，ｒｏｏｔ）；ｓｗｉｔｃｈ（ｐ２．ｌａｂｅｌ）｛ｃａｓｅ＂ＱＰ＂：ｔＮｏｄｅ＝ｈａｎｄｌｅＱＰ（ｒｏｏｔ，ｐ２，ｐｈＬｉｓｔ）；ｂｒｅａｋ；ｃａｓｅ＂ＮＰ＂：ｔＮｏｄｅ＝ｈａｎｄｌｅＮＰ（ｒｏｏｔ，ｐ２，ｐｈＬｉｓｔ）；ｂｒｅａｋ；ｃａｓｅ＂ＬＣＰ＂：ｔＮｏｄｅ＝ｈａｎｄｌｅＬＣＰ（ｒｏｏｔ，ｐ２，ｐｈＬｉｓｔ）；ｂｒｅａｋ；ｃａｓｅ＂ＡＤＪＰ＂，＂ＰＰ＂，＂ＡＤＶＰ＂：ｐｈＬｉｓｔ．ａｄｄ（ｃｈＴｏＳｔｒ（ｐ２．ｌａｂｅｌ，ｐ２）；ｔＮｏｄｅ＝ｐ２；ｂｒｅａｋ；ｄｅｆａｕｌｔ：ｈａｎｄｌｅＤｅｆａｕｌｔ（）；ｂｒｅａｋ；｝ｉｆ（ｔＮｏｄｅ！＝ｎｕｌｌ）ｌｅａｖｅｓ．ｒｅｍｏｖｅ（ｔＮｏｄｅ．ｇｅｔＬｅａｖｅｓ（））；ｅｌｓｅｌｅａｖｅｓ．ｒｅｍｏｖｅ（ｃｕｒＬｅａｖｅ）；其中ｐｒｕｎｅＴｒｅｅ完成语法树的剪枝工作，移除ＳＰ、ＰＮ、ＰＵ等标记的节点，移除一些常见动词（例如 “想”），副词ＡＤ和形容词ＪＪ仅保留词典中存在的词；ａｎｃｅｓｔｏｒ为从当前节点向上获取父节点，参数为向上查找层数。ｈａｎｄｅｌＤｅｆａｕｌｔ处理的是默认情况，默认情况下仅处理包括动词ＶＶ，形容词ＶＡ，名词ＮＮ这些单词。对于这类词，不使用包含它们的父节点类型标记它们，而是直接使用它的词性作为标记，将他们作为其他短语的上下文环境保留起来，以便于后续的分类工作。ｈａｎｄｌｅＱＰ、ｈａｎｄｌｅＮＰ、ｈａｎ⁃ ｄｌｅＬＣＰ３个函数分别处理ＱＰ、ＮＰ、ＬＣＰ短语。给定例句：例６一个人想在郑州中央商务区附近租个３５０块左右单间。得到短语序列：［ＱＰ：一个／ＣＤ，ＮＮ：人／ＮＮ，ＰＰ：在／Ｐ郑州／ＮＲ中央／ＮＮ商务区／ＮＮ，ＶＶ：租／ＶＶ，ＱＰ：个／Ｍ，ＬＣＰ：３５０／ＣＤ块／Ｍ左右／ＬＣ，ＮＮ：单间／ＮＮ］。２．３分类使用分类算法的关键是找到有效的特征向量。本文选取的特征包括：短语类型，包含测试特征，以及词或者词性特征。包含测试特征是对短语是否包含某类词，进行测试而得到的整型值。不同短语测试后的特征个数也不统一，因此把包含测试特征附加到短语类型上，作为一个特征。共选取了６个特征用于分类，如表１所示。表１用于分类的特征向量Ｔａｂｌｅ１Ｆｅａｔｕｒｅｓｕｓｅｄｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎ短语或词包含测试特征词或词性特征ＱＰ连词，序数词量词，左边名词，左边动词，右边名词，右边动词ＰＰ地址，时间，数词，连词量词，首词，末尾词或其词性，左边动词或名词，右边动词或形容词ＬＣＰ地址，时间，数词，连词量词，末尾词，最后一个名词，左边动词或名词，右边动词ＮＰ地址，时间，连词名词１，名词２，左边动词，右边名词，右边动词ＡＤＪＰ无形容词ＪＪ，左边动词，右边名词，其余置为空ＡＤＶＰ无副词ＡＤ，左边名词，右边动词或形容词，其余置为空ＶＡ无形容词ＶＡ，左边名词，右边名词，其余置为空ＮＮ无名词ＮＮ，左边动词，右边动词或形容词，其余置为空ＶＶ无动词ＶＶ，左边动词，右边动词，其余置为空 ·８６８· 智能系统学报第１０卷

第6期王定桥，等：从用户需求语句建立问题可拓模型的研究 ·869- 包含测试特征中，连词是指标记为CC的单词，用中这种情形出现的概率很小。序数词是标记为OD的单词，时间是指标记为NT的 2)同类合并和歧义消解单词，数词是指CD或者OD的单词。包含地址测试对于集合类型的量值，需要对量值进行归并：对需要借助分词系统完成，使用单词的词性测试其是于单一类型的量值，需要根据量值特点，进行歧义消解。例如用户首先提供了一个范围比较大的地址，否属于地址类词性。接着又补充了一个小范围地址，可以使用大地址后需要注意，某些单个NN(例如“单间”)、VA(例如加上小地址的方式，准确定位地址。 “便宜”)、VV(例如“合租”)本身就能表达一个量值， 3)量值标准化用户很可能单独使用它们来表达需求，因此，需要将同一属性的不同量值需要转换为单位统一的量这类词记录在词典中。在遇到这类词时，将其添加到值，以便于处理。例如租房问题中用户提供租期属分类任务中，这类单词的特征列在表1的末尾3行。性的量值，可能是“半个月”，“半年”，“一个星期”等 PP短语中，如果末尾词是普通名词则使用单词可以统一调整到以月为单位的数量值。经过这一阶段的处理，得到了最终的属性字典。本身，否则使用其词性。包含单个NN的NP,将以例6最终得到属性字典如下： NN标记独立处理。对于其他NP,如果包含地址或 {区域：郑州中央商务区，租金：[0,350]，样式：日期，名词1和名词2置为空。对于不包含地址或单间，住户人数：1，租房数量：1} 日期的复合名词短语，需要特别处理。2.2节中提到2.5模型填充的NN-NN和NN-CC-NN类短语，将其2个NN作为这一阶段，使用上一阶段获取的属性字典，并结名词1和名词2填充：NR与若千NN复合的情形，合数据库技术，建立可拓模型。首先将属性字典中将NR与NN连成一个词，作为名词1填充，名词2 各个属性和量值填充到目标或者条件基元中去。对置为空。于目标或者条件基元中缺少的部分，则需要根据领域本体，借助数据库或者人机交互来补充。在有监督的分类器训练的过程中，根据问题和经过上述流程的5个阶段，最终从用户语句建关注的属性，使用不同的标签。与问题无关的短语立了可拓模型。或词，统一标记为无关类，在后期过滤掉这些内容。使用训练后得到的分类器，对短语序列分类，并合并 3实现案例相邻的同类标签，得到最终分类后的短语序列。 3.1案例介绍 2.4量值提取文献[3]给出了一个租房问题，下面以此问题为对分类后的短语，针对每一类别，建立一系列匹背景来展开实验。实际语料中用户表达的属性通常都有多个，本文一共关注了16个属性，表2给出了配规则来抽取量值。匹配时间和数字类表达式的规部分属性的示例。则比较通用：对于名词、动词、形容词等可以根据分表2租房问题中用户表达的属性示例类结果，借助词典来更准确地确定边界。 Table 2 User expressed attributes in tenement question 例如租房问题中，匹配区域的规则，用正则表达属性量值类型量值单位量值示例式书写并按照优先级列出如下：区域字符串无番禺大学城 ule1:(在？)(.*)（附近）租金整数公 800块 ule2:(在I靠近)？(.*)（租）面积整数平方米 80平米 ule3:(离I靠1距)(.*)（近）样式字符串厅，室两室一厅 ule4:(在？)(.*)（环） mle5:(在？)（地铁I公交）(.*)（线I路）楼层整数楼，层 10楼 ule6:拼接词性表示地点的单词房源字符串无个人除了匹配外，还需进行3项工作：一般地，上述多个属性，可以根据实际应用情 1)理解优先级、逻辑关系况，为每个属性分配不同的权重用于指导可拓策略在短语对应的原文中获取表达这类信息的关键的生成和评价过程。词，通过有限状态机，即可获取用户真正要表达的量在实验过程中使用的资源包括：值。这种方法仅在用户将关键词混在多个量值之 1)语料资源，在百度和好搜两大网络平台，使用间，并且不加任何分隔符的情形下失效。在实际应爬虫程序抓取到与租房问题相关的语句：

包含测试特征中，连词是指标记为ＣＣ的单词，序数词是标记为ＯＤ的单词，时间是指标记为ＮＴ的单词，数词是指ＣＤ或者ＯＤ的单词。包含地址测试需要借助分词系统完成，使用单词的词性测试其是否属于地址类词性。需要注意，某些单个ＮＮ（例如“单间”）、ＶＡ（例如 “便宜”）、ＶＶ（例如“合租”）本身就能表达一个量值，用户很可能单独使用它们来表达需求，因此，需要将这类词记录在词典中。在遇到这类词时，将其添加到分类任务中，这类单词的特征列在表１的末尾３行。ＰＰ短语中，如果末尾词是普通名词则使用单词本身，否则使用其词性。包含单个ＮＮ的ＮＰ，将以ＮＮ标记独立处理。对于其他ＮＰ，如果包含地址或日期，名词１和名词２置为空。对于不包含地址或日期的复合名词短语，需要特别处理。２．２节中提到的ＮＮ⁃ＮＮ和ＮＮ⁃ＣＣ⁃ＮＮ类短语，将其２个ＮＮ作为名词１和名词２填充；ＮＲ与若干ＮＮ复合的情形，将ＮＲ与ＮＮ连成一个词，作为名词１填充，名词２置为空。在有监督的分类器训练的过程中，根据问题和关注的属性，使用不同的标签。与问题无关的短语或词，统一标记为无关类，在后期过滤掉这些内容。使用训练后得到的分类器，对短语序列分类，并合并相邻的同类标签，得到最终分类后的短语序列。２．４量值提取对分类后的短语，针对每一类别，建立一系列匹配规则来抽取量值。匹配时间和数字类表达式的规则比较通用；对于名词、动词、形容词等可以根据分类结果，借助词典来更准确地确定边界。例如租房问题中，匹配区域的规则，用正则表达式书写并按照优先级列出如下：ｒｕｌｅ１：（在？）（．∗）（附近）ｒｕｌｅ２：（在｜靠近）？（．∗）（租）ｒｕｌｅ３：（离｜靠｜距）（．∗）（近）ｒｕｌｅ４：（在？）（．∗）（环）ｒｕｌｅ５：（在？）（地铁｜公交）（．∗）（线｜路）ｒｕｌｅ６：拼接词性表示地点的单词除了匹配外，还需进行３项工作：１）理解优先级、逻辑关系在短语对应的原文中获取表达这类信息的关键词，通过有限状态机，即可获取用户真正要表达的量值。这种方法仅在用户将关键词混在多个量值之间，并且不加任何分隔符的情形下失效。在实际应用中这种情形出现的概率很小。２）同类合并和歧义消解对于集合类型的量值，需要对量值进行归并；对于单一类型的量值，需要根据量值特点，进行歧义消解。例如用户首先提供了一个范围比较大的地址，接着又补充了一个小范围地址，可以使用大地址后加上小地址的方式，准确定位地址。３）量值标准化同一属性的不同量值需要转换为单位统一的量值，以便于处理。例如租房问题中用户提供租期属性的量值，可能是“半个月”，“半年”，“一个星期”等可以统一调整到以月为单位的数量值。经过这一阶段的处理，得到了最终的属性字典。例６最终得到属性字典如下：｛区域：郑州中央商务区，租金：［０，３５０］，样式：单间，住户人数：１，租房数量：１｝２．５模型填充这一阶段，使用上一阶段获取的属性字典，并结合数据库技术，建立可拓模型。首先将属性字典中各个属性和量值填充到目标或者条件基元中去。对于目标或者条件基元中缺少的部分，则需要根据领域本体，借助数据库或者人机交互来补充。经过上述流程的５个阶段，最终从用户语句建立了可拓模型。３实现案例３．１案例介绍文献［３］给出了一个租房问题，下面以此问题为背景来展开实验。实际语料中用户表达的属性通常都有多个，本文一共关注了１６个属性，表２给出了部分属性的示例。表２租房问题中用户表达的属性示例Ｔａｂｌｅ２Ｕｓｅｒｅｘｐｒｅｓｓｅｄａｔｔｒｉｂｕｔｅｓｉｎｔｅｎｅｍｅｎｔｑｕｅｓｔｉｏｎ属性量值类型量值单位量值示例区域字符串无番禺大学城租金整数元８００块面积整数平方米８０平米样式字符串厅，室两室一厅楼层整数楼，层１０楼房源字符串无个人一般地，上述多个属性，可以根据实际应用情况，为每个属性分配不同的权重用于指导可拓策略的生成和评价过程。在实验过程中使用的资源包括：１）语料资源，在百度和好搜两大网络平台，使用爬虫程序抓取到与租房问题相关的语句；第６期王定桥，等：从用户需求语句建立问题可拓模型的研究 ·８６９·

点击进入文档下载页（PDF格式）

共7页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录