基于决策树的居民出行方式影响因素分析 牛凯,张福明,陈宽民1 (1.长安大学公路学院,陕西西安710064) 擴要:作为城市交通规划、建设的依据,居民出行调查显得尤为重要。对于调查数据的挖 掘分析可以为交通结构的改善及交通政策的制定提供一定参考。本文基于西安市2015年居 民出行调查数据,对居民出行的影响因素进行分析。借助于CART算法,分别构建了长距 离出行条件与短距离出行条件下的决策树模型。该模型结果表明:短距离出行条件下,出行 目的为出行方式选择的主要影响因素,在此基础上,职业、年龄、是否开通公共自行车、出 行时间对出行方式的选择进一步产生影响;在长距离出行条件下,年龄为出行方式的主要影 响因素,性别、职业、有无公交卡、有无购车意愿、出行目的对出行方式的选择也会产生一 定的影响。 关镳词:决策树;CART:出行方式;影响因素 中图分类号:U491 Analysis of Influencing Factors of Residents Travel Mode Based on decision Niukai, Zhang Fu-ming, ChenKuan-min' (1 School of Highway, Chang'an University, Xi'an, Shaanxi, 710064) Abstract: As a basis for urban transportation planning and construction, residents travel surveys are particularly important. The mining analysis of survey data can provide some reference for the improvement of traffic structure and the formulation of traffic policy. Based on the survey data of residents travel in Xi'an in 2015, this paper analyzes the influencing factors of residents travel With the help of CART algorithm, the decision tree model under long-distance travel and short-distance travel conditions is constructed. The research results show short-distance travel conditions, the purpose of travel is the main influencing factors of travel mode selection. On this basis, occupation, age, public bicycles, travel time have further influence on the choice of travel modes: long-distance travel conditions Under the age the main influencing factors of travel mode, gender, occupation, whether there is a bus card, the willingness to buy a car the purpose of travel will also have a certain impact on the choice of travel mode Key words: decision tree; CART; travel mode; influencing factors 讯作者:牛凯,E-mail:751158994@qcom (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
基于决策树的居民出行方式影响因素分析 牛凯 1 ,张福明1 ,陈宽民 1 (1. 长安大学 公路学院,陕西 西安 710064) 摘要: 作为城市交通规划、建设的依据,居民出行调查显得尤为重要。对于调查数据的挖 掘分析可以为交通结构的改善及交通政策的制定提供一定参考。本文基于西安市 2015 年居 民出行调查数据,对居民出行的影响因素进行分析。借助于 CART 算法,分别构建了长距 离出行条件与短距离出行条件下的决策树模型。该模型结果表明:短距离出行条件下,出行 目的为出行方式选择的主要影响因素,在此基础上,职业、年龄、是否开通公共自行车、出 行时间对出行方式的选择进一步产生影响;在长距离出行条件下,年龄为出行方式的主要影 响因素,性别、职业、有无公交卡、有无购车意愿、出行目的对出行方式的选择也会产生一 定的影响。 关键词:决策树;CART;出行方式;影响因素 中图分类号:U491 Analysis of Influencing Factors of Residents' Travel Mode Based on Decision Tree Niukai1 , Zhang Fu-ming1 ,ChenKuan-min1 (1 School of Highway, Chang’an University, Xi’an, Shaanxi, 710064) Abstract:As a basis for urban transportation planning and construction, residents' travel surveys are particularly important. The mining analysis of survey data can provide some reference for the improvement of traffic structure and the formulation of traffic policy. Based on the survey data of residents' travel in Xi'an in 2015, this paper analyzes the influencing factors of residents' travel. With the help of CART algorithm, the decision tree model under long-distance travel conditions and short-distance travel conditions is constructed. The research results show that under short-distance travel conditions, the purpose of travel is the main influencing factors of travel mode selection. On this basis, occupation, age, public bicycles, travel time have further influence on the choice of travel modes; long-distance travel conditions Under the age, the main influencing factors of travel mode, gender, occupation, whether there is a bus card, the willingness to buy a car, the purpose of travel will also have a certain impact on the choice of travel mode. Key words:decision tree; CART; travel mode; influencing factors 通讯作者:牛凯,E-mail:751158994@qq.com
、引言 居民出行调査是获取人流、车流及货流日常出行特征和规律的基础调査之一,是掌握交 通供给和需求之间关系的基本手段之一。出行方式的选择为出行调查中的重要一环,不同出 行方式对于满足居民的日常出行需求及交通结构的合理性改变起着举足轻重的作用。因此, 对于出行方式的研究已成为交通领域的重点问题之一。 目前,各大城市均开展了居民出行调查项目,对调查数据进行了一定的分析研究工作① 最为基本的研究是对城市居民出行特征的阐述及对其交通发展策略的建议。对于出行方 式的研究多基于集计模型或非集计模型的方法。刘霞基于非集计理论,以个人为单位, 通过研究居民的出行行为特征,应用效用最大化原理,建立不同影响因素与出行方式选择之 间的函数关系。耿纪超基于个体、群体两个对象,从主观、客观两个视角梳理了居民出行 方式选择行为的主要影响因素,并深入阐明了各影响因素的概念、相互联系及作用机制 刘宇峰选取个人属性、交通供给属性和城市规模为外因变量,同时选取出行目的、出行时间、 出行偏好、出行距离和出行方式选择为内因变量,采用结构方程模型(SEM)建立各影响因素 与城市居民出行方式选择的关系结构。决策树作为数据挖掘领域的一种方法,为出行方式 的分析提供了一种新思路。王凤英对居民出行数据进行了分类规则挖掘。李庭洋在基本决 策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型∽。本文以最新的2015 年居民出行调査数据为基础,采用数据挖掘中的决策树技术,探讨居民出行方式的影响因素 及其作用规律,得出了西安市居民的个人属性、家庭因素与出行方式选择的相关性,以期对 交通政策的制定起到一定的指导作用。 二、决策树及GART算法概述 决策树( Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态) 都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干, 故称决策树 CART算法是构建决策树的一种方法,该算法构建的决策树为一棵二叉树。CART算法 构建出来的决策树既能是分类树,又能是回归树。当CART是分类树时,采用GINI值作为 节点分裂的依据,其作用是通过一个对象的特征来预测该对象所属的类别:当CART是回 归树时,采用样本的最小方差作为节点分裂的依据,其目的是根据一个对象的信息预测该对 象的属性,并以数值表示。本文所建的决策树为分类树。 CART通过不断二分裂使数据变得更纯,使决策树输出的结果更接近真实值。该算法采 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
一、引言 居民出行调查是获取人流、车流及货流日常出行特征和规律的基础调查之一,是掌握交 通供给和需求之间关系的基本手段之一。出行方式的选择为出行调查中的重要一环,不同出 行方式对于满足居民的日常出行需求及交通结构的合理性改变起着举足轻重的作用。因此, 对于出行方式的研究已成为交通领域的重点问题之一。 目前,各大城市均开展了居民出行调查项目,对调查数据进行了一定的分析研究工作[1] 。 最为基本的研究是对城市居民出行特征的阐述[2]及对其交通发展策略的建议[3]。对于出行方 式的研究多基于集计模型[4]或非集计模型[5]的方法。刘霞基于非集计理论,以个人为单位, 通过研究居民的出行行为特征,应用效用最大化原理,建立不同影响因素与出行方式选择之 间的函数关系[6]。耿纪超基于个体、群体两个对象,从主观、客观两个视角梳理了居民出行 方式选择行为的主要影响因素,并深入阐明了各影响因素的概念、相互联系及作用机制[7] 。 刘宇峰选取个人属性、交通供给属性和城市规模为外因变量,同时选取出行目的、出行时间、 出行偏好、出行距离和出行方式选择为内因变量,采用结构方程模型(SEM)建立各影响因素 与城市居民出行方式选择的关系结构[8]。决策树作为数据挖掘领域的一种方法,为出行方式 的分析提供了一种新思路。王凤英对居民出行数据进行了分类规则挖掘[9]。李庭洋在基本决 策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型[10] 。本文以最新的 2015 年居民出行调查数据为基础,采用数据挖掘中的决策树技术,探讨居民出行方式的影响因素 及其作用规律,得出了西安市居民的个人属性、家庭因素与出行方式选择的相关性,以期对 交通政策的制定起到一定的指导作用。 二、决策树及 CART 算法概述 决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态) 都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干, 故称决策树。 CART 算法是构建决策树的一种方法,该算法构建的决策树为一棵二叉树。CART 算法 构建出来的决策树既能是分类树,又能是回归树。当 CART 是分类树时,采用 GINI 值作为 节点分裂的依据,其作用是通过一个对象的特征来预测该对象所属的类别;当 CART 是回 归树时,采用样本的最小方差作为节点分裂的依据,其目的是根据一个对象的信息预测该对 象的属性,并以数值表示。本文所建的决策树为分类树。 CART 通过不断二分裂使数据变得更纯,使决策树输出的结果更接近真实值。该算法采
用GINI值衡量节点纯度。之所以采用Gin指数,是因为较于熵而言其计算速度更快一些 对决策树的节点n,Gini指数计算公式如下 Gini(n)=1-EkIp(ckIn)]2(1) Gini指数即为1与类别ck的概率平方之和的差值,反映了样本集合的不确定性程度 Gini指数越大,样本集合的不确定性程度越高。分类学习过程的本质是样本不确定性程度的 减少(即熵减过程),故应选择最小Gni指数的特征分裂。父节点对应的样本集合为F,CART 选择特征A分裂为两个子节点,对应集合为F与FR;分裂后的Gin指数定义如下: G(E, A)=FL Gini(Fd)+ FRl Gini(Fr)(2) 其中,||表示样本集合的记录数量。 构建决策树的算法很多,选择CART算法的优点如下: (1)出行方式选择的影响众多,全部分析较为复杂。该算法可自动忽略对目标变量没 有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考 (2)现有的居民出行调查数据难免存在数据缺失的问题,该算法在面对诸如存在缺失 值、变量数多等问题时CART显得非常稳健 (3)CART算法估计模型通常不用花费很长的训练时间 (4)推理过程完全依据属性变量的取值特点(与C50不同,CART的输出字段既可以 是数值型,也可以是分类型) 5)比其他模型更易于理解一一从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成IF…THEN的形式 (6)该算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自 动的成本复杂性剪枝来得到归纳性更强的树 三、数据来源 本文数据基于2015年西安居民出行调查的数据,调查内容为西安主城区及外围辐射区 影响范围内的常、暂住人口及流动人口的出行情况。常、暂住人口按户进行抽样,主城区抽 样率为3%;外围区域抽样率为2%。流动人口按照2%的抽样率。调查方式为上门入户调查, 调查内容主要涉及个人信息、家庭信息及出行信息三方面的内容。经过数据分类整理,最终 可利用的数据量为129183条。涉及的交通方式大致分为步行、非机动车、私人小汽车及公 共交通。 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
用 GINI 值衡量节点纯度。之所以采用 Gini 指数,是因为较于熵而言其计算速度更快一些。 对决策树的节点 n,Gini 指数计算公式如下: Giniሺnሻ ൌ 1 െ ∑ ሾሺܿ|݊ሻሿଶ (1) Gini 指数即为 1 与类别ܿ的概率平方之和的差值,反映了样本集合的不确定性程度。 Gini 指数越大,样本集合的不确定性程度越高。分类学习过程的本质是样本不确定性程度的 减少(即熵减过程),故应选择最小 Gini 指数的特征分裂。父节点对应的样本集合为 F,CART 选择特征 A 分裂为两个子节点,对应集合为ܨ与ܨோ;分裂后的 Gini 指数定义如下: Gሺܨ ,ܣሻ ൌ |ிಽ| |ி| ܩ݅݊݅ሺܨሻ |ிೃ| ி ܩ݅݊݅ሺܨோሻ(2) 其中,||表示样本集合的记录数量。 构建决策树的算法很多,选择 CART 算法的优点如下: (1)出行方式选择的影响众多,全部分析较为复杂。该算法可自动忽略对目标变量没 有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考; (2)现有的居民出行调查数据难免存在数据缺失的问题,该算法在面对诸如存在缺失 值、变量数多等问题时 CART 显得非常稳健; (3)CART 算法估计模型通常不用花费很长的训练时间; (4)推理过程完全依据属性变量的取值特点(与 C5.0 不同,CART 的输出字段既可以 是数值型,也可以是分类型) (5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成 IF…THEN 的形式 (6)该算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自 动的成本复杂性剪枝来得到归纳性更强的树。 三、数据来源 本文数据基于 2015 年西安居民出行调查的数据,调查内容为西安主城区及外围辐射区 影响范围内的常、暂住人口及流动人口的出行情况。常、暂住人口按户进行抽样,主城区抽 样率为 3%;外围区域抽样率为 2%。流动人口按照 2%的抽样率。调查方式为上门入户调查, 调查内容主要涉及个人信息、家庭信息及出行信息三方面的内容。经过数据分类整理,最终 可利用的数据量为 129183 条。涉及的交通方式大致分为步行、非机动车、私人小汽车及公 共交通
四、模型建立与分析 (一)数据背景与分析 大客车 小汽车 电动车 自行车层之 出租车 面值p 地铁b 步行≥ 024681012 2008年因2015年 图1各交通方式平均出行距离 从2008年及2015年的居民出行调查数据中可以看出,步行、自行车的平均出行距离均不 足3公里,主要满足居民的短距离出行;道路公交平均出行出行距离由2008年的461公里增 加到2015年的719公里,增加了近一倍。而小汽车的平均出行距离则高达906公里。因此公 共交通及私人小汽车主要满足居民的长距离出行。由于影响出行方式选择的因素众多,以 棵决策树来反映不同影响因素下对于出行方式的选择不够清晰,构建的决策树过于庞大且预 测精度不高。为保证预测结果的精确性,本文将步行及非机动车两种方式作为一组来反映短 距离出行下出行方式的影响因素:将公共交通及私人小汽车两种出行方式作为一组来反映长 距离出行下出行方式的影响因素,并分别构建了短距离出行及长距离出行条件下的决策树模 (二)变量的选取 该决策树模型以对不同交通方式的选择为因变量,由于影响交通方式的选择因素很多, 本文主要考虑出行者的个人属性及家庭属性信息,选取出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性别、职业、是否有公交卡、是否用公共自行车、家庭规 模、儿童数、是否有购车意愿作为自变量。部分变量编码如表1所示 表1部分输入变量定义 变量类别 变量含义 变量编码 非机动车 出行方式 公共交通(公共汽车/地铁) 私人小汽车 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
四、模型建立与分析 (一)数据背景与分析 图 1 各交通方式平均出行距离 从2008年及2015年的居民出行调查数据中可以看出,步行、自行车的平均出行距离均不 足3公里,主要满足居民的短距离出行;道路公交平均出行出行距离由2008年的4.61公里增 加到2015年的7.19公里,增加了近一倍。而小汽车的平均出行距离则高达9.06公里。因此公 共交通及私人小汽车主要满足居民的长距离出行。由于影响出行方式选择的因素众多,以一 棵决策树来反映不同影响因素下对于出行方式的选择不够清晰,构建的决策树过于庞大且预 测精度不高。为保证预测结果的精确性,本文将步行及非机动车两种方式作为一组来反映短 距离出行下出行方式的影响因素;将公共交通及私人小汽车两种出行方式作为一组来反映长 距离出行下出行方式的影响因素,并分别构建了短距离出行及长距离出行条件下的决策树模 型。 (二)变量的选取 该决策树模型以对不同交通方式的选择为因变量,由于影响交通方式的选择因素很多, 本文主要考虑出行者的个人属性及家庭属性信息,选取出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性别、职业、是否有公交卡、是否用公共自行车、家庭规 模、儿童数、是否有购车意愿作为自变量。部分变量编码如表1所示。 表 1 部分输入变量定义 变量类别 变量含义 变量编码 出行方式 步行 1 非机动车 2 公共交通(公共汽车/地铁) 3 私人小汽车 4 [值] [值] [值] [值] [值] [值] [值] [值] [值] [值] [值] [值]0 [值] [值] [值] [值] 0 2 4 6 8 10 12 步行 道路… 地铁 出租车 自行车 电动车 小汽车 大客车 2008年 2015年
早高峰 出行时间 晚高峰 2 周内 星期 周末 ≤18 19~29 年龄 ~4 是否有购车意愿 有无公交卡 有无开通公共自行车 有无有无有无男 性别 接送孩子上下学 单位业务、商务 23456 出行目的 旅游休闲 探亲访友 回程(不以家为目的地) 890 回家(以家为目的地) 11 企业员 机关事业单位人员 中小学生 大学生 职业 商业服务业人员 退休人员 农业人员 45678 其他 (三)模型结果与分析 1短距离出行下的决策树模型 表2棋型设置表 生长法 CART (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
出行时间 早高峰 1 晚高峰 2 平峰 3 星期 周内 1 周末 2 年龄 ≤18 1 19~29 2 30~49 3 ≥50 4 是否有购车意愿 有 1 无 2 有无公交卡 有 1 无 2 有无开通公共自行车 有 1 无 2 性别 男 1 女 2 出行目的 上班 1 上学 2 接送孩子上下学 3 单位业务、商务 4 生活购物 5 旅游休闲 6 探亲访友 7 就医 8 回程(不以家为目的地) 9 回家(以家为目的地) 10 其他 11 职业 企业员工 1 机关事业单位人员 2 中小学生 3 大学生 4 商业服务业人员 5 退休人员 6 农业人员 7 其他 8 (三) 模型结果与分析 1.短距离出行下的决策树模型 表 2 模型设置表 指定 生长法 CART