第12卷第2期 管理科学学报 Vol 12 No. 2 009年4月 JOURNAL OF MANAGEMENT SCIENCES IN CHINA Apr.2009 中文网络客户评论的产品特征挖掘方法研究 李实,叶强2,李一军, Rob law (1.哈尔滨工业大学管理学院,哈尔滨15001;2.香港理工大学,中国香港10005) 摘要:随着互联网的广泛应用,在Blog、BS、Wiki等网络站点中出现了大量的针对商品或服 务的客户评论,这些客户评论中所包含的丰富信息,对企业管理具有重要的价值.通过数据挖 掘算法对客户针对某一产品的大量评论进行分析,可以挖掘出这些产品的主要特征,并有望进 步发现客户对这些特征的意见和态度.在英文世界中已经有学者开始对这一研究进行探索, 然而由于语言结构等方面的差异,英文的研究成果尚无法直接应用于中文客户评论的挖掘中 本研究针对中文的特点,提出了面向中文的客户评论挖掘方法.该方法基于改进关联规则算法 实现了针对中文产品评论的产品特征信息挖掘.本研究采用通过互联网获得的针对手机、数码 相杋、书籍等5种产品的评论语料,对该方法进行了数据实验,实验结果初步验诬了该方法有 关键词:用户评论;产品特征;关联规则;数据挖掘 中图分类号:TP311文献标识码:A文章编号:1007-9807(2009)02-0142-11 0引言 户评论信息为目标的非结构化数据分析技术 “评论挖掘”吸引∫很多学者关注,评论挖掘作 过去十几年中, Internet技术与应用的快速发为非结构化信息挖掘的一个新兴领域,主要涉及 展不仅给企业的业务流程带来了巨大的变革,也网络评论情感倾向的分析,评论中产品特征的提 对消费者的行为模式产生了深刻的影响一方面取以及评论中产品比较信息挖掘等等3,消 改变了消费者表达对于产品观点和看法的方费者可以借助于评论挖掘工具了解产品的性能和 式—他们可以在销售网站网络论坛讨论小其他用户对该产品的态度;同时网络客户评论作 组以及博客(Bog)中撰写产品评论;另一方面这为反馈机制,可以为销售商和生产商提供哪些产 些产品的“口碑”也反过来影响其他消费者做出品特征是客户所关注的以及客户对于产品的情感 购买决策12. Doubleclick inc.进行了针对美国 倾向分布等信息,从而可以帮助企业改进产品、改 服装业、计算机硬件设备业、运动健身产品行业及 旅游业网络客户的研究,发现这些行业中,近善服务获得竞争优势面向网络用户评论的产品 半以上的互联网用户做出购买决定前会在互特征提取研究作为评论挖掘的研究方向之一,旨 联网上搜索有关产品介绍及商品评论等信息. 在从客户评论中挖掘出备受关注的产品特征信 但是随着网络评论数量的飞速增长,庞杂的息,并且总结基于这些产品特征的观点依靠情感 信息使得人工方法难以获得全部客户评论中的有分类( sentiment classification技术自动得出用户 用信息因此,迫切需要借助一定的技术手段来使对各个属性的态度倾向,从而可以为用户提供更 这一过程变得更为便捷近来,以有效获取网络用为具体和有价值的信息”在英文世界的评论挖 ①收稿H期:2007-11-23;修订日期:200804-25 基金项H:国家自然科学基金资助项日(70771032,70501009);香港理工大学研究基金资助项目(G-YX93) 作者简介:李实(1976-),女,黑龙江哈尔滨人,博生Emil:shishili@gmail.com 万方数据
第12卷第2期 管理科学学报 V01.12 No.2 2009年4月 JOURNAL 0F MANAGEMENT SCIENCES IN CHINA ApL 2009 中文网络客户评论的产品特征挖掘方法研究① 李 实1,叶 强1’2,李一军1,Rob Law2 (1.哈尔滨工业大学管理学院,哈尔滨150001;2.香港理工大学,中国香港lO0085) 摘要:随着互联网的广泛应用,在Blog、BBS、wiki等网络站点中出现了大量的针对商品或服 务的客户评论,这些客户评论中所包含的丰富信息,对企业管理具有重要的价值.通过数据挖 掘算法对客户针对某一产品的大量评论进行分析,可以挖掘出这些产品的主要特征,并有望进 一步发现客户对这些特征的意见和态度.在英文世界中已经有学者开始对这一研究进行探索, 然而由于语言结构等方面的差异,英文的研究成果尚无法直接应用于中文客户评论的挖掘中. 本研究针对中文的特,最,提出了面向中文的客户评论挖掘方法.该方法基于改进关联规则算法 实现了针对中文产品评论的产品特征信息挖掘.本研究采用通过互联网获得的针对手机、数码 相机、书籍等5种产品的评论语料,对该方法进行了数据实验,实验结果初步验证了该方法有 效性. 关键词:用户评论;产品特征;关联规则;数据挖掘 中图分类号:TP3ll 文献标识码:A 文章编号:1007—9807(2009)02—0142—1l O 引 言 过去十几年中,Intemet技术与应用的快速发 展不仅给企业的业务流程带来了巨大的变革,也 对消费者的行为模式产生了深刻的影响.一方面 改变了消费者表达对于产品观点和看法的方 式——他们可以在销售网站,网络论坛,讨论小 组,以及博客(B109)中撰写产品评论;另一方面这 些产品的“口碑”也反过来影响其他消费者做出 购买决策‘L川.DoubleClick Inc.进行了针对美国 服装业、计算机硬件设备业、运动健身产品行业及 旅游业网络客户的研究"J,发现这些行业中,近 一半以上的互联网用户做出购买决定前,会在互 联网上搜索有关产品介绍及商品评论等信息. 但是,随着网络评论数量的飞速增长,庞杂的 信息使得人工方法难以获得全部客户评论中的有 用信息.因此,迫切需要借助一定的技术手段来使 这一过程变得更为便捷.近来,以有效获取网络用 户评论信息为目标的非结构化数据分析技术—— “评论挖掘”吸引.r很多学者关注HJ.评论挖掘作 为非结构化信息挖掘的一个新兴领域,主要涉及 网络评论情感倾向的分析,评论中产品特征的提 取,以及评论中产品比较信息挖掘等等一qj.消 费者可以借助于评论挖掘工具了解产品的性能和 其他用户对该产品的态度;同时,网络客户评论作 为反馈机制,可以为销售商和生产商提供哪些产 品特征是客户所关注的以及客户对于产品的情感 倾向分布等信息,从而可以帮助企业改进产品、改 善服务,获得竞争优势.面向网络用户评论的产品 特征提取研究,作为评论挖掘的研究方向之一,旨 在从客户评论中挖掘出备受关注的产品特征信 息,并且总结基于这些产品特征的观点,依靠情感 分类(sentiment classification)技术自动得出用户 对各个属性的态度倾向,从而可以为用户提供更 为具体和有价值的信息旧J.在英文世界的评论挖 ①收稿R期:20cr7一ll一23;修订日期:2008—04q5. 基金项目:国家自然科学基金资助项日(70771032,70501009);香港理丁大学研究基金资助项目(G—Yx93) 作者简介:李实(1976一),女,黑龙江哈尔滨人。博f:生.E舢lil:sIIi8llili@印lail.com 万方数据
李实等:中文网络客户评论的产品特征挖掘方法研究 据领域研究者已经初步取得一些成果,而针对中1)挖掘重要产品特征;2)挖掘用户对于产品特征 文网络用户评论的研究还处于起步阶段随着我的主观观点;3)判断评论观点的情感导向4)根 国网络用户群的不断壮大,中国电子商务的发展据观点的重要性进行排名相关研究包括评论的 也逐渐为世界所瞩目.截至2007年12月,中国网情感分析6,评论的主客观分析“以及评论中商 民人数已经达到21亿预计208年将超过美国品特征挖掘9等 成为世界第一.不断增长的中文评论已经成为11网络客户评论情感分析 互联网上一个重要的组成部分,为了给企业和个 情感分析以客户在互联网上发布的产品评论 人提供更为方便的工具,自动化和智能化地挖掘为研究对象挖掘客户的情感倾向,从而自动判断 中文评论中的有价值信息是非常必要的但是由该评论的极性( the polarity of the review),即正面 于中英文语言存在着较大的差异,目前针对英文评论或负面评论通过对大量客户评论的情感 评论的研究成果很多无法直接应用于中文评论.分类可以综合得出这些客户对该种产品或服务 这些差异主要根源在如下一些问题上 的普遍看法 (1)文化差异导致语言表达方式不同.正如 目前情感分析技术,主要包括机器学习方法 rosenzweig"曾指出的,文化差异将导致管理研及语义方法( ( semantic orientation两类·一些学 究的不等价性;而网络评论这一文本的风格毋庸者已经开始应用这两种方法对英文客户评论的情 置疑和商品评论的撰写者—客户的文化背景深感分类进行了一定的研究最初Pag6在研究中 刻相关2 提出来用机器学习的方法进行情感倾向的挖掘工 (2)语言结构的差异例如英语中的单词是作,准确率达到875%,之后的一些学者在此研 自然分开的而中文评论的分析首先要进行分词充基础上扩展和延伸,取得了很好的研究结果 处理 (3)中英文词汇语法的差别与英文评论相进行了研究提取了投资者对其所关注股票的态 比较,中文词性标注算法更为复杂,词性标注工具 度. Beineke等用机器学习和人的注释评论相 本身的研究还在不断完善中 结合提高了英文文本情感分析的准确度Feil 本文正是在中英文语言差异存在的条件下,等利用机器学习方法,针对yaho网站的英文体 探索中文网络客户评论的产品特征信息提取技育评论研究情感分析 术.通过对基于关联规则的产品特征挖掘方法进 基于机器学习的情感分类方法在针对每一种 行原理创新和技术拓展把目前主要面向英文的产品使用前都需要用大量的训练样本对分类模 评论挖掘方法拓展到中文世界从而解决中文环型进行训练而训练样本集的建立则需要采用人 工方法对大量的评论文章逐一阅读甄别,并进行 境下,如何对客户评论中所蕴含的产品特征信息 手工标识这与利用自动情感分类降低人的阅读 进行自动挖掘的问题该方法的应用,将有望帮助负担这一初衷还有着一定的差距因此近来许多 对相应产品或者服务的反馈信息 研究者将情感分析研究的重点集中在对训练样本 的需求量较低的语义方法上 Tumey最早提出 了基于PMR算法的语义情感分类思想,该方 1相关研究背景 将点互信息(PMI)与信息汲取方法(IR)相结合 借助搜索引擎的后台数据库获得语义倾向信息, 近年来在客户关系管理的研究中有学者强调从而做出情感判断,得到汽车评论的准确率是 客户感知利失在影响顾客满意、品牌忠诚和CRM84%,电影评论的准确率是66%.其可靠性已经 效果中的作用必将逐渐增大.而目前网络经济在英文客户情感分类的研究中得到了初步的验 时代中从网络评论中挖掘客户的感知利失信息证.2003年,Dave利用该方法对亚马逊 是新兴起的研究领域对于网络评论的挖掘问题,( Amazon)和C-Net等网上商店的客户评论进行 学者 Popescu明确将其分为以下几个子任务:了情感分析,再次验证了该方法的性能zhou23 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一143一 掘领域,研究者已经初步取得一些成果,而针对中 文网络用户评论的研究还处于起步阶段.随着我 国网络用户群的不断壮大,中国电子商务的发展 也逐渐为世界所瞩目.截至2007年12月,中国网 民人数已经达到2.1亿,预计2008年将超过美国 成为世界第一【l 0|.不断增长的中文评论已经成为 互联网上一个重要的组成部分,为了给企业和个 人提供更为方便的工具,自动化和智能化地挖掘 中文评论中的有价值信息是非常必要的.但是由 于中英文语言存在着较大的差异,目前针对英文 评论的研究成果很多无法直接应用于中文评论. 这些差异主要根源在如下一些问题上: (1)文化差异导致语言表达方式不同.正如 Ro舱n删eig[…曾指出的,文化差异将导致管理研 究的不等价性;而网络评论这一文本的风格毋庸 置疑和商品评论的撰写者——客户的文化背景深 刻相关¨…. (2)语言结构的差异.例如,英语中的单词是 自然分开的,而中文评论的分析首先要进行分词 处理; (3)中英文词汇语法的差别.与英文评论相 比较,中文词性标注算法更为复杂,词性标注工具 本身的研究还在不断完善中. 本文正是在中英文语言差异存在的条件下, 探索中文网络客户评论的产品特征信息提取技 术.通过对基于关联规则的产品特征挖掘方法进 行原理创新和技术拓展,把目前主要面向英文的 评论挖掘方法拓展到中文世界,从而解决中文环 境下,如何对客户评论中所蕴含的产品特征信息 进行自动挖掘的问题.该方法的应用,将有望帮助 企业和客户在商务过程中更便捷地获取其他客户 对相应产品或者服务的反馈信息. 1相关研究背景 近年来在客户关系管理的研究中有学者强调 客户感知利失在影响顾客满意、品牌忠诚和cRM 效果中的作用必将逐渐增大¨3|.而目前网络经济 时代中,从网络评论中挖掘客户的感知利失信息 是新兴起的研究领域.对于网络评论的挖掘问题, 学者Popescu[41明确将其分为以下几个子任务: 1)挖掘重要产品特征;2)挖掘用户对于产品特征 的主观观点;3)判断评论观点的情感导向;4)根 据观点的重要性进行排名.相关研究包括评论的 情感分析‘6|,评论的主客观分析¨41以及评论中商 品特征挖掘Hj'91等. 1.1 网络客户评论情感分析 情感分析以客户在互联网上发布的产品评论 为研究对象,挖掘客户的情感倾向,从而自动判断 该评论的极性(the polarity of the review),即正面 评论或负面评论拍].通过对大量客户评论的情感 分类,可以综合得出这些客户对该种产品或服务 的普遍看法. 目前情感分析技术,主要包括机器学习方法 及语义方法(semantic orientation)两类¨引.一些学 者已经开始应用这两种方法对英文客户评论的情 感分类进行了一定的研究.最初Pang【l钊在研究中 提出来用机器学习的方法进行情感倾向的挖掘工 作,准确率达到87.5%,之后的一些学者在此研 究基础上扩展和延伸,取得了很好的研究结果. Sanjiv m1等针对yahoo网站股票留言板中的评论 进行了研究,提取了投资者对其所关注股票的态 度.Beineke【l引等用机器学习和人的注释评论相 结合,提高了英文文本情感分析的准确度.Fei¨引 等利用机器学习方法,针对yahoo网站的英文体 育评论研究情感分析. 基于机器学习的情感分类方法在针对每一种 产品使用前,都需要用大量的训练样本对分类模 型进行训练,而训练样本集的建立则需要采用人 工方法对大量的评论文章逐一阅读甄别,并进行 手工标识,这与利用自动情感分类降低人的阅读 负担这一初衷还有着一定的差距.因此,近来许多 研究者将情感分析研究的重点集中在对训练样本 的需求量较低的语义方法上.Tumey旧1最早提出 了基于PMI-IR算法的语义情感分类思想,该方法 将点互信息(PMI)与信息汲取方法(IR)相结合, 借助搜索引擎的后台数据库获得语义倾向信息, 从而做出情感判断,得到汽车评论的准确率是 84%,电影评论的准确率是66%.其可靠性已经 在英文客户情感分类的研究中得到了初步的验 证.2003年,Davel揶。利用该方法对亚马逊 (Amazon)和c-Net等网上商店的客户评论进行 了情感分析,再次验证了该方法的性能.Zhou[15] 万方数据
144 管理科学学报 2009年4月 利用电影评论数据对基于语义倾向的情感分类方率为319%)和客观句,再从这些句子中得到更 法和基于机器学习的情感分类方法进行了对比分多主观性词语搭配,再用准确性很高词语搭配更 析,发现语义方法的结果与机器学习方法具有相新原始的主观特征通过重复上述过程进一步提 似性.上述研究均证实了该语义倾向的客户情感高主观分类器和客观分类器的准确率,最终主观 分析方法的有效性除此之外还有一些学者采用分类器的查准率和查全率分别达到90.2%和 由普林斯顿大学开发的英文词网( wordnet)进40.1%.Yu和 Hatzivassiloglou利用相似性方 行英文语义方法的情感分析,也取得了较好的分法朴素贝叶斯分类和多重朴素贝叶斯分类3种 析结果2.Lu3等在对于产品特征挖掘后,针对统计方法进行主客观句的识别研究其中,朴素贝 某一特征的情感导向分析正是利用了英文词网中叶斯分类器在原有研究的基础上采用词、2-gam、 对于词的语义关系定义 3-gram和词类、具有情感倾向的词序列、主语和其 而由于语言结构的差别现有的面向英文客直接修饰成分等作为特征项,对主观句识别的查 户评论情感分类的语义方法,无法直接用于中文准率和查全率达到80%-90%,而客观句的查准 客户评论的情感分类叶强,李一军等探索了中文率和查全率大约在50%左右叶强等探索了中文 环境下的情感分析理论与方法,在PMR方法基主观性的自动识别方法,提出了基于连续双词词 础上,初步建立了中文语义倾向情感分析方法,并类组合模式(2POS)的主观程度自动判别算法 分别将中文搜索引擎www.Google,com和www.为中文客户评论挖掘提供了一种可能的方法 Baidu.com提供的AP集成于实验平台中,对手选择 机、图书、电影的中文客户评论进行了情感分析,1.3网络客户评论中的产品特征挖掘 获得了接近英文同类研究的分析结果,显示出了 刚络客户评论中的产品特征挖掘是指通过机 该方法在中文情感分析上的应用前景2.另器从大量的网络客户产品评论中自动地获取所关 外,Ya2等在研究中提出了使用电子汉英翻译注的产品特征,这项技术是分析用户对于产品 词典结合英文词网的方法,也是对中文评论情感具体特征所持情感倾向的前提,其准确性和全面 分析的一个有益尝试 性是非常重要的对于英文评论中的产品特征挖 1.2网络客户评论的主客观分析 掘研究已经取得了一些成果Hu3和Li等2首 用户的情感倾向主要是通过主观句来表达先提出应用关联规则分类方法提取英文评论中的 的,所以在现有的评论挖掘技术中,主观性模式的产品特征,利用该方法对于包括手机,数码相机等 自动识别与判断是非常重要的基础性技术.产品评论进行挖掘,平均查全率达到80%,平均 Wiebe等针对英文主观情感识别进行了研究,查准率达到72%,而且他们在此基础上进行了后 选择某些词类(代词、形容词、序数词、情态动词续的研究,判断用户对这些特征的观点以及情感 和副词)标点和句子位置作为特征,实现对主观导向也有一些研究人员采用了其他方法实现这 句识别的平均准确率72.17%,Rilo等利用功能比如 Kobayashi1.用了半自动化的循 boot-strapping算法学习得到了1052个主观性名环方法提取产品特征和用户观点,但是需要大量 词单独使用主观性名词为特征,采用朴素贝叶斯的人工参与; Popescu等“利用了Eiom研发的 分类器对主观句识别的查准率为77%,查全率为 konwitall.系统,计算点互信息值(PM),然后进行 64%;如果加上先前确定的主观线索(来自词典贝叶斯分类,从而提取产品特征,虽然提高Hu的 和已有的研究结论)和句子的背景信息,那么分准确率(平均提高了22%),但是查准率却有所 类器对主观句判断的查准率和查全率分别能达到下降(平均下降了3%)另外,Liu3重点研究存 81%和77%.Rilo和Wibe进一步提出了从在多种产品互相比较内容的评论,这与Liu等挖 未经过人工标注的文本中自动提取主观句的方掘同一产品的重要特征在研究内容上有些差别; 法他们依靠先前研究中确定的主观特征,分别建而且与 Popescu所提出的技术类似,其中对于产 立了主观分类器和客观分类器,自动从未标注的品特征的提取采用有导师学习方法( supervised 文本中获得大量主观句(查准率为91.5%,查全 training),需要建立一个产品特征集合,以及产品 万方数据
一144一 管理科学学报 2009年4月 利用电影评论数据对基于语义倾向的情感分类方 法和基于机器学习的情感分类方法进行了对比分 析,发现语义方法的结果与机器学习方法具有相 似性.上述研究均证实了该语义倾向的客户情感 分析方法的有效性.除此之外,还有一些学者采用 由普林斯顿大学开发的英文词网(wordnet)旧¨进 行英文语义方法的情感分析,也取得了较好的分 析结果口21.Liu r51等在对于产品特征挖掘后,针对 某一特征的情感导向分析正是利用了英文词网中 对于词的语义关系定义. 而由于语言结构的差别,现有的面向英文客 户评论情感分类的语义方法,无法直接用于中文 客户评论的情感分类.叶强,李一军等探索了中文 环境下的情感分析理论与方法,在PMI-IR方法基 础上,初步建立了中文语义倾向情感分析方法,并 分别将中文搜索引擎一.Goode.com和~. Baidu.com提供的API集成于实验平台中,对手 机、图书、电影的中文客户评论进行了情感分析, 获得了接近英文同类研究的分析结果,显示出了 该方法在中文情感分析上的应用前景心n 26J.另 外,YaoB¨等在研究中提出了使用电子汉英翻译 词典结合英文词网的方法,也是对中文评论情感 分析的一个有益尝试. 1.2 网络客户评论的主客观分析 用户的情感倾向主要是通过主观句来表达 的,所以在现有的评论挖掘技术中,主观性模式的 自动识别与判断是非常重要的基础性技术. wiebe等¨41针对英文主观情感识别进行了研究, 选择某些词类(代词、形容词、序数词、情态动词 和副词)、标点和句子位置作为特征,实现对主观 句识别的平均准确率72.17%.Rilof!f等∞o利用 boot.stmpping算法学习得到了1052个主观性名 词,单独使用主观性名词为特征,采用朴素贝叶斯 分类器对主观句识别的查准率为77%,查全率为 64%;如果加上先前确定的主观线索(来自词典 和已有的研究结论)和句子的背景信息,那么分 类器对主观句判断的杏准率和查全率分别能达到 81%和77%.Ril雒和Wiebe闻1进一步提出了从 未经过人工标注的文本中自动提取主观句的方 法.他们依靠先前研究中确定的主观特征,分别建 立了主观分类器和客观分类器,自动从未标注的 文本中获得大量主观句(查准率为91.5%,查全 率为31.9%)和客观句,再从这些句子中得到更 多主观性词语搭配,再用准确性很高词语搭配更 新原始的主观特征.通过重复上述过程进一步提 高主观分类器和客观分类器的准确率,最终主观 分类器的查准率和查全率分别达到90.2%和 40.1%.Yu和Hatziv鼬silo翊ou㈣1利用相似性方 法、朴素贝叶斯分类和多莺朴素贝叶斯分类3种 统计方法进行主客观句的识别研究.其中,朴素贝 叶斯分类器在原有研究的基础上采用词、2.舯m、 3一gram和词类、具有情感倾向的词序列、主语和其 直接修饰成分等作为特征项,对主观句识别的查 准率和杏全率达到80%一90%,而客观句的查准 率和杏全率大约在50%左右.叶强等探索了中文 主观性的自动识别方法,提出了基于连续双词词 类组合模式(2.POs)的主观程度自动判别算法, 为中文客户评论挖掘提供了一种可能的方法 选择…. 1.3网络客户评论中的产品特征挖掘 网络客户评论中的产品特征挖掘是指通过机 器从大量的网络客户产品评论中自动地获取所关 注的产品特征【5j,这项技术是分析用户对于产品 具体特征所持情感倾向的前提,其准确性和全面 性是非常重要的.对于英文评论中的产品特征挖 掘研究已经取得了一些成果.Hu旧。和IJiu等旧21首 先提出应用关联规则分类方法提取英文评论中的 产品特征,利用该方法对于包括手机,数码相机等 产品评论进行挖掘,平均查全率达到80%,平均 查准率达到72%,而且他们在此基础上进行了后 续的研究,判断用户对这些特征的观点以及情感 导向.也有一些研究人员采用了其他方法实现这 一功能,比如Kobayas“331采用了半自动化的循 环方法提取产品特征和用户观点,但是需要大量 的人工参与;P叩escu等H1利用了Etzioni研发的 konwitall系统,计算点互信息值(PMI),然后进行 贝叶斯分类,从而提取产品特征,虽然提高Hu的 准确率(平均提高了22%),但是查准率却有所 下降(平均下降了3%).另外,Liu捧1重点研究存 在多种产品互相比较内容的评论,这与ku等挖 掘同一产品的重要特征在研究内容上有些差别; 而且与Popescu所提出的技术类似,其中对于产 品特征的提取采用有导师学习方法(supenrised trajning),需要建立一个产品特征集合,以及产品 万方数据
第2期 李实等:中文网络客户评论的产品特征挖据方法研究 145 相关领域的训练样本集,而训练样本集的建立则短语 需要人为对这些大量的评论文章进行逐一阅读, (4)中英文语言表达中,名词短语的构成不 这与自动评论挖掘的目的有些矛盾 同例如英文中过去分词+名词可以表示名词性 目前,对于英文评论的产品特征挖掘中,短语,中文中没有这种形式但是具有其他形式 Hu(和L9等提出的基于关联规则的方法主要 (5)中文中有字的概念而英文没有中文名 步骤为 词可以由一个或者一个以上的字构成,这样对于 第1步,标注词性 表达产品特征的名词可能具有其特殊的规律 第2步,将名词和名词短语组成事务文件 本文将参考Hu等学者基于关联规则分类的 ( transaction file 产品特征挖掘算法,针对中文评论的语言特点和 第3步,基于关联规则分类方法提取频繁规风格特征解决上面的技术困难探索面向中文网 则项产生候选特征项集合 络客户评论中的产品特征挖掘方法和理论,并且 第4步,对于特征项进行邻近规则剪枝邻近通过实验验证这一方法的有效性 的定义为:假设∫是频繁规则项,而且f包含n个单 词假设一个句子包含f而且在f中的词出现在2中文网络客户评论产品特征挖掘 s中的顺序为:1,w2,…,wn假设s中任何两个相 连的单词(1和)的距离不超过3个单词,则 方法 可以说f在s中是邻近的如果∫出现在评论数据 库中的m个句子中而且至少在2个句子中是邻2.1方法具体内容 近的,就可以称∫是一个邻近的特征短语非临近 本文所提出的中文网络客户评论的产品特征 的特征短语将不是需要的产品特征; 挖掘技术,由以下8个步骤构成 第5步,对于特征项进行独立支持度剪枝,形 步骤1对评论语料进行分词 成频繁特征项所构成的产品特征集合独立支持 本文采用中国科学院计算机所软件室编写的 度的定义为:特征/的独立支持度( p-support)是中文分词工具 ICTCLAS( institute of computing 包含、而且句子中不包的父集作为特征的句 technology, Chinese lexical analysis system) 子的数量在H的研究中采用最小的独立出现(htp:/ ntgroup. Ict ac cn/),对评论文本语料进 支持度为3,也就是说如果一个特征的独立支持行分词 度小于3,那么就从候选特征集合里面去掉 步骤2对分词后的评论语料进行词性 第6步,补充评论中非频繁特征项的产品标注 特征 同样采用 ICTCLAS工具.词性标注方法可以 目前尚缺乏对于中文网络客户评论的产品特根据需要进行一级或者二级标注其差别在于: 征挖掘研究虽然英文中相关研究已经得到了有级只标注名词动词等;二级可以标注出更为具体 效的验证,但是无法直接应用于中文,其根本原因的情况包括具有名词功能的形容词或者动词,专 是引言中所提到的中文和英文语言特点及文化背有名词,词素等等为了提高挖据查准率采用二 景不同,具体有下面几个技术困难: 级标注 1)中文在进行语言处理中首先需要进行中 中文客户评论中所讨论的商品特征可能由名 文分词; 词短语构成,但是值得注意的是,中文评论的词性 (2)中文词性标注也和英文有差别特别是标注过程中并没有直接标注出名词短语(除了专 中文语言比较复杂,有些单词的词性随着语言环有名词短语以外,例如地名、单位名称)所以需 境的变化可能会发生转化,而形式上却没有变化;要对于基本名词短语进行人为界定.在中文语料 (3)在英文方法中标注词性的过程中就可以学研究中,基本名词短语的定义有一些不同,本文 标出名词短语,而对于中文名词短语的定义则非根据周雅倩等“的定义:基本名词短语为非嵌套 常复杂,词性标注工具只能标注一些专有名词的名词短语,它包括单个名词没有任何修饰成分 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一145一 相关领域的训练样本集,而训练样本集的建立则 需要人为对这些大量的评论文章进行逐一阅读, 这与自动评论挖掘的目的有些矛盾. 目前,对于英文评论的产品特征挖掘中, Hu[5 3和“u[9 o等提出的基于关联规则的方法主要 步骤为: 第1步,标注词性; 第2步,将名词和名词短语组成事务文件 (t砌saction lile); 第3步,基于关联规则分类方法提取频繁规 则项产生候选特征项集合; 第4步,对于特征项进行邻近规则剪枝.邻近 的定义为:假设厂是频繁规则项,而且/包含n个单 词,假设一个句子s包含厂,而且在,中的词出现在 s中的顺序为:埘,,埘:,…,埘。.假设s中任何两个相 连的单词(加i和埘川)的距离不超过3个单词,则 可以说/在s中是邻近的.如果厂出现在评论数据 库中的m个句子中,而且至少在2个句子中是邻 近的,就可以称厂是一个邻近的特征短语.非临近 的特征短语将不是需要的产品特征; 第5步,对于特征项进行独立支持度剪枝,形 成频繁特征项所构成的产品特征集合.独立支持 度的定义为:特征归的独立支持度(p—support)是 包含∥r、而且句子中不包∥r的父集作为特征的句 子的数量.在Hu的研究中采用最小的独立出现 支持度为3,也就是说如果一个特征的独立支持 度小于3,那么就从候选特征集合里面去掉; 第6步,补充评论中非频繁特征项的产品 特征. 目前尚缺乏对于中文网络客户评论的产品特 征挖掘研究.虽然英文中相关研究已经得到了有 效的验证,但是无法直接应用于中文,其根本原因 是引言中所提到的中文和英文语言特点及文化背 景不同,具体有下面几个技术困难: (1)中文在进行语言处理中首先需要进行中 文分词; (2)中文词性标注也和英文有差别,特别是 中文语言比较复杂,有些单词的词性随着语言环 境的变化可能会发生转化,而形式上却没有变化; (3)在英文方法中标注词性的过程中就可以 标出名词短语,而对于中文名词短语的定义则非 常复杂,词性标注工具只能标注一些专有名词 短语; (4)中英文语言表达中,名词短语的构成不 同.例如英文中过去分词+名词可以表示名词性 短语,中文中没有这种形式,但是具有其他形式; (5)中文中有字的概念,而英文没有.中文名 词可以由一个或者一个以上的字构成,这样对于 表达产品特征的名词可能具有其特殊的规律. 本文将参考Hu等学者基于关联规则分类的 产品特征挖掘算法,针对中文评论的语言特点和 风格特征,解决上面的技术困难,探索面向中文网 络客户评论中的产品特征挖掘方法和理论,并且 通过实验验证这一方法的有效性. 2 中文网络客户评论产品特征挖掘 方法 2.1 方法具体内容 本文所提出的中文网络客户评论的产品特征 挖掘技术,由以下8个步骤构成. 步骤l 对评论语料进行分词. 本文采用中国科学院计算机所软件室编写的 中文分词工具ICTCLAS(institute of computing technology, Chinese lexical analysis system) (http://mtgroup.ict.ac.cn/),对评论文本语料进 行分词. 步骤2 对分词后的评论语料进行词性 标注. 同样采用ICTCLAS工具.词性标注方法可以 根据需要进行一级或者二级标注,其差别在于:一 级只标注名词,动词等;二级可以标注出更为具体 的情况,包括具有名词功能的形容词或者动词,专 有名词,词素等等.为了提高挖掘查准率,采用二 级标注. 中文客户评论中所讨论的商品特征可能由名 词短语构成,但是值得注意的是,中文评论的词性 标注过程中并没有直接标注出名词短语(除了专 有名词短语以外,例如地名、单位名称),所以需 要对于基本名词短语进行人为界定.在中文语料 学研究中,基本名词短语的定义有一些不同,本文 根据周雅倩等Ⅲ1的定义:基本名词短语为非嵌套 的名词短语,它包括单个名词、没有任何修饰成分 万方数据
2009年4月 的名词短语、难以确定修饰关系的一串名词、并列最小支持度的频繁规则项,作为商品的候选特 名词性成分、专有名词时间地点等这种基本名点,利用 Apriori算法从上一步所生成事务文 词短语占语料中所有基本短语的60.8%(用件中找到频繁项集作为候选的商品特征集合b Chinese treebank做统计)很显然,专有名词和时用的最小支持度为1%(参考英文评论处理方 间地点名词一般情况下不是普通产品特征(对法);3项以上的频繁项可以很明显的看出不是产 于一些特殊商品的特点挖掘可能需要,比如旅游品特征,这一特点在英文评论的商品特点挖掘中 目的地),所以在本文中,名词短语将按照以下两也是一样的,采用同类研究的解决办法,不考虑3 种情况界定 项以上的频繁项 (1)由两个或三个相邻的名词所连接成的短 步骤5将候选产品特征集l按照邻近规则 语(不包含专有名词和时间、地点名词,但包含具剪枝成为候选特征集l1 有名词功能的形容词或者动词); 参考英文邻近规则定义,可以定义中文评论 (2)两个名词之间仅用结构助词“的”连接中的邻近规则 成的短语. 定义1在中文评论中,假设∫是频繁规则 本文根据这两种情况提出了中文网络评论中项,而且∫包含n个名词(或名词短语),假设一个 基本名词短语的提取模式如表1所示,其中名词句子s包含∫,而且在∫中的词(或名词短语)出现 不包含专有名词和时间地点名词但是包含二级在s中的顺序为:1,2,…,灬假设s中任何两 分词标注出来具有名词功能的形容词或者动词.个相连的名词(或名词短语);和如+的距离不 在应用标注工具进行词性标注后,再按照这几种超过3个词(根据中文分词结果),则可以说f在5 模式提取出基本名词短语 中是邻近的 表1中文基本名词短语提取模式 例如下面三句话 Table 1 Extracting pattems of Chinese basic noun phrase “这款于机功能非常强大.” 序号第1个词「第2个词「第3个词 “摄像功能已经成为重要的手机功能之一,” 作为一款女士手机,外观是非常重要的,而 些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最 步骤3利用词性标注后的评论语料创建关后一句话中不满足.但已经在两句话中邻近,可以 联规则事务文件( transaction file) 说“手机功能”是一个邻近的特征名词短语 本文所提出的方法基于关联规则分类算法 在这一步骤中,遍历每一个名词短语2-项 需要对于文本评论进行形式化预处理所以首先和3-项频繁项∫,如果∫出现在评论数据库中的m 需要建立事务数据库,这里事务数据库以文本文个句子中,而且至少在2个句子中是邻近的,就可 件的形式存储在这一步骤中以句子为事务单位,以称∫是一个邻近的特征名词短语,加入到候选 提取评论中的所有名词或者基本名词短语作为项项集合l中 (item)构成一个事务文件,为下面提取频繁项集 步骤6将候选产品特征集l按照独立支持 ( frequent itemset)做好数据准备 度规则进行修正,形成候选特征集l 步骤4基于关联规则 Apriori算法找到频繁 参考英文独立支持度的定义,可以定义中文 项集作为候选产品特征集合l 评论中的独立支持度 一般来讲关联规则的挖掘分为两步:一是找 定义2在中文评论中名词或者基本名词短 出所有的频繁项集,这些项集出现的频繁性至少语/r的独立支持度(p- support)是包含fr的而且 和预定义的最小支持计数( min support count)一句子中不包fr的父集作为频繁特征项的句子 样;二是由频繁项集产生强关联规则对于评论中数量 产品特征的挖掘研究只用到第一步,挖掘出满足 例如“屏幕”作为频繁项,出现的句子为10 万方数据
一146一 管理科学学报 2009年4月 的名词短语、难以确定修饰关系的一串名词、并列 名词性成分、专有名词、时间、地点等,这种基本名 词短语占语料中所有基本短语的60.8%(用 Chinese treebank做统计).很显然,专有名词和时 间、地点名词一般情况下不是普通产品特征(对 于一些特殊商品的特点挖掘可能需要,比如旅游 目的地),所以在本文中,名词短语将按照以下两 种情况界定: (1)由两个或三个相邻的名词所连接成的短 语(不包含专有名词和时间、地点名词,但包含具 有名词功能的形容词或者动词); (2)两个名词之间仅用结构助词“的”连接 成的短语. 本文根据这两种情况提出了中文网络评论中 基本名词短语的提取模式,如表1所示,其中名词 不包含专有名词和时间、地点名词,但是包含二级 分词标注出来具有名词功能的形容词或者动词. 在应用标注T具进行词性标注后,再按照这几种 模式提取出基本名词短语. 表l 中文基本名词短语提取模式 Table l Ex”acting pattems of Chinese b鹅ic noun phmse 序号 第1个词 第2个词 第3个词 1 名词 名词 不是名词 2 名词 名词 名词 3 名渊 助词“的” 名词 步骤3 利用词性标注后的评论语料创建关 联规则事务文件(transaction file). 本文所提出的方法基于关联规则分类算法, 需要对于文本评论进行形式化预处理.所以首先 需要建立事务数据库,这里事务数据库以文本文 件的形式存储.在这一步骤中以句子为事务单位, 提取评论中的所有名词或者基本名词短语作为项 (item)构成一个事务文件,为下面提取频繁项集 (frequent itemset)做好数据准备. 步骤4 基于关联规则Apri嘶算法找到频繁 项集作为候选产品特征集合,0. 一般来讲关联规则的挖掘分为两步:一是找 出所有的频繁项集,这些项集出现的频繁性至少 和顶定义的最小支持计数(min support count)一 样;二是由频繁项集产生强关联规则.对于评论中 产品特征的挖掘研究只用到第一步,挖掘出满足 最小支持度的频繁规则项,作为商品的候选特 点[3 5|.利用Apriori算法从上一步所生成事务文 件中找到频繁项集作为候选的商品特征集合厶, 采用的最小支持度为1%(参考英文评论处理方 法);3项以上的频繁项可以很明屁的看出不是产 品特征,这一特点在英文评论的商品特点挖掘中 也是一样的,采用同类研究的解决办法,不考虑3 项以上的频繁项口1. 步骤5 将候选产品特征集,0按照邻近规则 剪枝,成为候选特征集,卜 参考英文邻近规则定义,可以定义中文评论 中的邻近规则. 定义l 在中文评论中,假设/是频繁规则 项,而且,包含n个名词(或名词短语),假设一个 句子s包含厂,而且在厂中的词(或名词短语)出现 在s中的顺序为:埘,,埘:,…,埘。.假设s中任何两 个相连的名词(或名词短语)埘i和加…的距离不 超过3个词(根据中文分词结果),则可以说,在s 中是邻近的. 例如下面三句话: “这款手机功能非常强大.” “摄像功能已经成为重要的手机功能之一.” “作为一款女士手机。外观是非常重要的,而 一些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最 后一句话中不满足.但已经在两句话中邻近,可以 说“手机功能”是一个邻近的特征名词短语. 在这一步骤中,遍历每一个名词短语、2一项 和3一项频繁项厂,如尉出现在评论数据库中的m 个句子中,而且至少在2个句子中是邻近的,就可 以称/是一个邻近的特征名词短语,加入到候选 项集合,1中. 步骤6 将候选产品特征集,。按照独立支持 度规则进行修正,形成候选特征集,2. 参考英文独立支持度的定义,可以定义中文 评论中的独立支持度: 定义2 在中文评论中名词或者基本名词短 勘r的独立支持度(p—support)是包含力r的而且 句子中不包以r的父集作为频繁特征项的句子 数量. 例如“屏幕”作为频繁项,出现的句子为10 万方数据