第17卷第1期 Volume 17 Number 2020年1月 铁道科学与工程学报 Journal of Railway Science and Engineering January 2020 doi:10.19713/.cni.43-1423/u.20190248 回回 基于大数据的铁路工程投标企业 异常行为预警研究 乔柱,刘伊生,茹建青2 (1.北京交通大学经济管理学院,北京100044 2.国家铁路局工程质量监督中心,北京100891) 摘要:基于铁路工程电子招投标积累的海量数据,识别预警具有异常行为的铁路工程投标企业。运用社团结构检测分析识 别具有抱团行为的投标企业;再通过函数拟合预测投标企业中标次数,根据实际值与预测值的标准残差所落置信区间范围 分析识别中标次数异常的投标企业;最后综合分析2种方法的结果,构建铁路工程投标企业异常行为分级预警模型,识别具 有串围标嫌疑的企业并分级预警。研究结果表明基于铁路工程电子招投标大数据,综合社团结构检测和函数拟合分析两和 方法,可以有效识别预警铁路工程投标企业的异常行为。 关键词:大数据;投标企业;异常行为;预警 中图分类号:C931文献标志码:A文章编号:1672-7029(20)01-0250-08 Research on early warning of abnormal behavior of railway engineering bidding enterprises based on big data QIAO Zhu', LIU Yisheng', RU Jianqing (1. School of Economics and Management, Beijing Jiaotong University. Beijing 100044. China Abstract: Based on the accumulated data of railway engineering electronic bidding, the railway engineering bidding enterprises with abnormal behavior was identified and early warned. Firstly, this paper used the community structure detection to analyze and identify the bidding enterprises with group behavior. Secondly, by redicting the successful bid number of bidding enterprises by function fitting, and calculating the location of the standard residuals of actual value and predicted value for the confidence interval range, the bidding enterprise with the abnormal number of successful bids was analyzed and identified. Finally, considering the results of the two methods, a g an early classification warning model for the abnormal behavior of railway engineering bidding enterprises, e nder suspicion of together-conspired bidding and contacting bid was identified and early classification warned. The research shows that the railway project electronic bidding big data can effectively identify and early warn the railway engineering bidding enterprises with abnormal behavior, comprehensively using the two methods which includes community structure detection and function fitting analysis. Key words: big data; bidding enterprise; abnormal behavior; early warning 收稿日期:2019-04-01 基金项目:国家自然科学基金资助项目(784102 通信作者:乔柱(1991-),男,河南南阳人,博士研究生,从铁路工程招投标研究:E-mai:151063687212.cm
乔柱,等:基于大数据的铁路工程投标企业异常行为预警研究 路工程招投标违法违规行为具有复杂性和共同参加招标作为投标企业的连接关系,运用社团 隐蔽性,传统监管手段难以及时高效甄别投标人不发现算法分析挖掘投标企业在招投标市场中形成 正当竟争行为。随着电子招投标和大数据技术的推的社团结构,可以客观、较准确的找出暗藏抱团行 广应用,招投标从传统纸质形式逐步进入电子化、为的投标企业,也就是具有串围标嫌疑的企业 数据化时代,这为创新铁路工程招投标监管提供了 社团结构检测可以运用凝聚子群分析方法,建 新途径、新方法。近年来,国内外在招投标大数据立在互惠性基础上的凝聚子群主要是派系,派系是 监管方面开展了一系列研究,大致可分为3阶段: 最基本的凝聚子群,根据关系是否存在方向,可以 第1阶段,从理论层面论述大数据技术可以创新招分为无向关系网络中的派系、有向关系网络中的派 投标监管模式,提高监管效率,并构建基于大数据系:根据取值情况,可以分为二值关系网中的派系、 的招投标监管体系,探讨运用大数据分析反映招投多值关系网络中的派系,铁路工程招投标网络可 标主体违法违规行为的指标。第2阶段,运用 以用无向多值关系网络展示,招投标过程中,共同 大数据技术对某次具体招投标数据分析,如借助计 算机技术的硬件代码、IP地址、计价软件代码等提 参与一个招标项目的投标人,每对投标人的关系值 记为1,当其共同参与招标的项目为v时,这对投 取技术,以及对投标文件、投标报价、工程量清单标人的关系值记为v。 等进行雷同性分析,识别判定投标人串围标等不正 随着投标次数增加,大部分铁路工程投标企业 当行为,这些技术方法主要用于招投标的事中事后 会在某次投标中相遇,尤其成员数量不多的铁路工 监管。第3阶段,结合招投标长期数据,分析 招投标主体行为,研判招标人招标、评标人评标是 程施工企业,体现在投标企业关系网络上,大部分 否存在倾向性,投标人是否存在串围标嫌疑-3w值均会大于等于1,且w值会越来越大。由于大 铁路工程建设周期长、工程量大、投资额高,招投部分投标企业都有发生联系,派系分析时会得到 标过程中投标人不正当竞争行为尤为突出。投标人个包含大部分投标企业的社团结构,这样的分析结 通过违规手段谋取中标的行为在投标过程和投标果显然没有意义,也无法反映投标企业的抱团行 结果上均会呈现异常,投标过程中的异常表现为抱为。为避免派系分析无效,可设定凝聚子群强度, 团行为,投标结果上的异常表现为某投标企业的中当2个投标企业共同投标次数大于某临界值c时, 标次数过高或过少。抱团行为在投标人构成的社会才认为两者之间存在网络联系,这种分析方法得到 网络中呈现出社团结构,因此可用社团结构检测方的派系叫做“c层派系”“c层派系”是指一个整体 法分析;中标次数异常通过构造拟合函数预测,以网中的子图,该子图中任何一对点之间的关系强度 预测值与实际值的残差大小为分析依据。目前,投都不小于c,并且在子图外的任何一点到该子图中 标人异常行为研究从中标次数方面的分析不多,主的所有点的关系强度都小于c。在研究无向多值关 要集中在投标人社团结构检测上,且研究样本数量系网络的凝聚子群时,首先要确定该子群的凝聚强 较少,所用社团结构检测方法大多未考虑投标人间度,也就是要首先给出一个临界值c,该临界值越 共同投标次数,实际应用中可能出现社团结构检测大(小),所发现的子群的凝聚力就越强(弱)。 无效的情况。因此,本文以铁路工程投标企业为研1.2拟合函数分析 究对象,基于铁路建设工程招投标长期积累的数 串围标等异常行为的最终目的是为获得中标 据,从抱团行为和中标次数2方面考虑,选用新的或不法利润,使原本最具竞争优势的承包商失去中 社团结构检测方法识别社团结构,同时构造拟合函标机会,从而左右中标结果,导致投标企业的中标 数分析中标次数,从而研判投标企业异常行为,并次数过高或过少,因此通过分析中标次数也能发现 构建分级预警体系为有关监管部门提供预警 具有不正当竞争嫌疑的投标企业 在正常的招投标市场环境中,企业投标次数越 1投标企业异常行为分析方法 多,中标次数也应较多,中标次数是投标次数的单 调递增函数,基于招投标数据做中标次数与投标次 1.1社团结构检测 数的函数拟合分析,通过拟合出的回归函数对投标 串围标企业在长期投标中会呈现抱团现象,以企业的中标次数进行预测,当某投标企业的中标次
铁道科学与工程 2020年1月 数实际值与预测值残差过大时,该企业具有串围标构中共包含31个节点,表明这些企业在铁路工程 长期投标过程中,呈现一种稳定的社团结构,也就 是“抱团”行为,因此这些投标企业有很大的串围 2投标企业社团结构发现 标嫌疑。尤其是10号投标企业在社团发现结果中 的40个社团都存在,表明10号投标企业的社团结 21投标企业网络关系建模 构性非常强,串围标的嫌疑更大,应作为重点监督 把铁路工程投标企业作为网络节点,参加过同检査对象。 个招标项目的多家企业节点之间用边相连,多次 共同参加相同招标项目可以看作节点的连接边的 表1铁路工程施工项目投标企业社团结构成员组成表 Table 1 bidd 权重。假设参与招投标项目的企业总数为n,则投 orise community structure members composition of the railway engineering construction project 标企业的邻接矩阵A=(an)n可规定如下 企业;与j共同参加过w次招标 56910112324252629333536435364 1o企业与床共同参加过同一招标()21691012324252629313354864 l69101123242526313536436465 对铁路工程投标企业进行c层派系分析时,凝4 169101123242526353643536465 聚强度的临界值c取平均每个投标企业参与投标的 15691011232425263536536064 6 1456910112324252629333536 次数,且为整数,即: 7156910112324252629333543445364 8 16910112324252629313335434464 qu 曰=11 169101123242526354344536465 169101123242526313543446465 569111232425263544536064 式中:m为投标企业数量;n为铁路工程招标的项 1456910112324252629333544 目(标段数量;q为投标企业是否参与j项目的投 146910111523242529 15691011182324252964 标 投标企业i参与项目j招标 0投标企业i未参与项目j招标 l45910112324252933343536 145910112324252933343544 22投标企业的社团结构 156910111724252629333536435364 本文数据来源于某工程建设交易信息网的铁 1456910l11724252629333536 路工程施工项目招投标的相关数据。首先对收集到 19156910111724252629333543445364 1456910111724252629333544 的数据进行整理,剔除不具代表性和缺乏信息的数 56910l171824252964 据,将每个标段的招标也看作一个招标项目,共有 1469101l1517242529 107家企业参与171个项目的投标,即m=107,n= 16910111724252629313335434464 171。整理107家企业参与招投标的情况,得到107 16910111724252629313335364364 156910l1172425263536536064 阶邻接矩阵,并计算总的投标次数,即 4567 15691011172425263544536064 45910111724252933343536 145910ll1724252933343544 2336,进而可求得c=22。 l101125263342 运用 UCINET软件进行分析。第1步:二值化 l510112325264462 处理,点击“ Dichotomize”功能键,将107阶邻接 1510111725264462 矩阵导入,在“Cut- Off Operator”选项上点击 15691011232629333649 156910l1232629334449 GE-Greater Than or equal”,在“Cut- Off Value 15691011172629334449 选项上键入22,点击“OK”获得转换后的数据 5691011172629333649 第2步:派系分析,点击“ Cliques”功能键,将转 61011266482 换后的数据导入,投标人最小规模为3,因此 “ Minimum size”选项值为3,点击“OK”获得如 234567390 101725333654 101725334454 102325333654 下40个派系,见表1。表1识别出的40个社团结 102325334454
乔柱,等:基于大数据的铁路工程投标企业异常行为预警研究 RS8s=387354,即RSS线>RSS指>RS。简 3投标企业中标次数与投标次数拟单来说,一个函数的拟合优度R2值越大,残差平方 合分析 和RSS值越小,其拟合程度越好。从拟合优度R 的值来看,R最大,但R与R相差较小,仅为 31拟合函数构建 0.0290;从残差平方和RSS的值来看,RSS最小, 统计铁路工程中每个投标企业的投标次数和因此可选择多项式函数作为中标次数与投标次数 中标次数,将投标企业的中标次数作为因变量,投的拟合函数。从现实意义的角度而言,受招投标市 标次数作为自标量,运用软件 Origin90,分别进行场环境和企业自身状况的影响,投标企业的中标次 线性函数、多项式函数、指数函数拟合,拟合后的数与投标次数并不会是简单的线性关系,中标次数 结果如图1所示。 也难以随投标次数呈指数型增长,多项式拟合函数 由图1可知,拟合优度R我=0.58914,R=更能反映投标企业中标次数与投标次数的关系,因 05899,y=0.59289,即R<R<R;残差此选择多项式函数作为铁路建设工程投标企业中 平方和RSS=34863971,RSS=33797814 标次数与投标次数的拟合回归函数 月”x2+·x3+Rx24 alre Stardard 058999 中标次数 J-y.d,(, 中标次数 Residal sm af Ad *-Squre 0.59289 中标次数2-1033 0818097345 投标次数 图1投标企业中标次数回归函数 Fig. 1 Regression function of the bidding enterprise winning number 3.2投标企业中标次数异常识别 会扩大异常行为的预警范围,增加监管部门排査异 回归分析中实际值与预测值的标准化残差服常行为的工作量。国家在《LED应用产品可靠性试 从标准正态分布,因此铁路工程投标企业中标次数验的点估计和区间估计(指数分布)》(GBT36362- 与投标次数的拟合函数的标准残差δ服从标准正态2018)指出,置信度通常用百分数概率表示,一般取 分布。投标企业标准残差是否异常的判定涉及到60%,因此本文置信度取值60%,即标准残差落在 置信度的选取问题,置信度是评估某要素可靠性的[-0.84,0.84区间外的点均为需要预警的异常点。经 指标,置信度对应置信区间,当标准残差落在置信计算,22家投标企业中标次数的标准残差落在置信 区间外时,有理由认为该标准残差处于异常范围。区间[0.84.0.841外,这些节点的标准残差见表2 置信度取值太高,会直接排除一些具有异常行为的 结合图1进一步分析,1,2,3,4,5,12, 投标企业,预警效果会大大折扣;置信度取值太低,15,17,20,31,33和67投标企业的中标次数在
254 铁道科学与工程学报 2020年1月 拟合曲线之上,且距拟合曲线的纵向距离较远,即构中每个节点的重叠概率进行分级预警,社团结构 中标次数远高于拟合曲线的预测值,这些企业存在中每个节点的重叠概率见表3。 为中标而拉拢其他投标企业进行串围标的嫌疑。9 36,43,62,64,65和82投标 表3社团结构中每个节点的重叠概率 企业的中标次数在拟合曲线之下,且距拟合曲线的 Table 3 Overlapping probability of each node in the 纵向距离较远,即中标次数远低于拟合曲线的预测 communitv structure 值,中标次数过少甚至一直不中标,在优胜劣汰的 节点 重叠概率% 点重叠概率 机制下会被淘汰出铁路招投标市场,若其长期维持 87.50 较低的中标次数且活跃于当地招投标市场,则其可 60.00 60.00 能是串围标参与者(非发起者)或专业陪标人。 80.00 表2落在置信水平60%对应的置信区间外的节点标准残差 30.00 Table 2 Standard residual of the node outside the confideng 10 10000 43 interval corresponding to 60% of the confidence level 投标企业标准残差投标企业标准残差 42.50 25.00 3.25 1.63 0 l.1 70.0 251 70.0 10.00 1500 假定节点重叠概率在(0,20%为Ⅰ级预警,在 (20%40%为Ⅱ级预警,在(40%,60%为∏级预警 20 2.42 0.96 在(60%80%为Ⅳ级预警,在(80%,100%小为V级预 4投标企业异常行为分级预警 警,社团结构视角下不同预警级别对应的节点见 表 投标企业异常行为分级预警,可用于已招标项 表4社团结构视角下不同预警级别对应的节点 目监督抽査的范围筛选,选取具有异常行为的的投 标企业参与的项目检查:以及招投标过程中重点监 levels from the perspective of community structure 管对象识别,着重审查具有异常行为的投标企业,预警级别 节点 从而提高监管效能。本文根据投标企业异常行为反 I15,18,31,34,42,49,54,60,62,65,82 映出的串围标或陪标嫌疑程度,构建铁路工程投标 企业异常行为分级预警体系,预警分五级,用绿(I Ⅳv 5,17,23,29,33,35,44,64 级,无警)、蓝(Ⅱ级,轻警)、黄(Ⅲ级,中警)、橙(Ⅳ 6,9,24,26 级,重警)、红(V级,巨警)5色代表从低到高5种 1,25 嫌疑程度。 41社团结构视角下的分级预警 2拟合函数视角下的分级预警 从社团结构发现的视角,可以通过统计社团结 从函数拟合分析的视角,可以通过实际值与函