第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201612005 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180409.1137.004.html 城市轨道交通线网数据中心与评估决策平台 张铭 (中国铁道科学研究院电子计算技术研究所,北京100081) 摘要:在分析网络化运营条件下大规模数据特征的基础上,根据业务系统的数据融合需求,提出城市轨道交通数据 中心平台的分层框架和功能定位。探讨了线网管理的数据结构体系、数据仓库的递阶逻辑建模、面向运营业务决策 的应用集市等构建方法,并以线网客流特征识别的业务应用为对象,提出了数据集市的关联规则挖掘原理、预测立方 体在贯通多类运营评估应用的计算方法。结合某城市轨道交通数据中心建设案例,描述了基于数据仓库的搭建过程 及相关业务的调用逻辑,表明了线网数据管理对跨业务系统融合数据的意义,有效地提高了运营管理效率。 关键词:城市轨道交通:数据中心:网铬化运营:数据仓库:运营评估:数据挖掘:决策:指标 中图分类号:TP319文献标志码:A文章编号:1673-4785(2018)03-0458-11 中文引用格式:张铭.城市轨道交通线网数据中心与评估决策平台.智能系统学报,2018,13(3):458-468. 英文引用格式:ZHANG Ming.A platform for a data center and decision making in urban rail transit Jl.CAAI transactions on in- telligent systems,2018,13(3):458-468. A platform for a data center and decision making in urban rail transit ZHANG Ming (China Institute of Computing Technologies,China Academy of Railway Sciences,Beijing 100081,China) Abstract:Based on large datasets for network operations in urban rail transit(URT),an approach on the multilayered framework and functions of an urban rail transit data center is presented.Critical network data management technolo- gies are also discussed,including united data structures,hierarchical logical modeling of data warehouses,decision mak- ing,and passenger behavior recognition.Then,an algorithm is proposed based on data association rules and mining principles of forecast cube for evaluation purposes.Using a URT data center as an example,it describes data warehous- ing and related operations and points to the value of network data management in business-systems integration and in operational efficiency. Keywords:urban rail transit;data center;network operation;data warehouse;operational evaluation;data mining;de- cision making:index 随着近年各特大城市轨道交通快速形成网络,网数据中心平台,通过采集各线路的运营信息,进 其他城市规划建设也正在向网络化迈进。从运营管 行统一存储、处理、规划、共享,供日常运营监控、应 理角度,对日益庞大的线网进行全面的信息掌握与 急管理和运营组织优化等业务应用。此外,不同于 综合监察,作为辅助运营决策的手段,是必不可少 积累多年的单线运营管理方式,线网条件下的运营 的基础保障。由于传统的关系型数据库等存储和管 指标核算、服务水平评估、线路间及枢纽的换乘接 理手段,已无法承受几何级数增长的数据量和适应 驳、网络客流的动态分析等频繁衍生出的新问题, 快速获取分析结果的需求,对大存储、高效检索、即 在大数据应用的时代,提出了新的诉求。 时分析、数据挖掘提出了更高要求。因此,搭建线 数据中心及数据挖掘方面近年在各行业已有前 收稿日期:2016-12-05.网络出版日期:2017-03-17, 瞻性探索),王德文等提出了基于云计算的新一 基金项目:国家自然科学基金项目(U1334210):北京市重点科技支 撑计划项目(Z151100001315002). 代电力数据中心的基础架构,为智能电网的业务系 通信作者:张铭.E-mail:zm_zhangming@hotmail.com. 统、数据挖掘与辅助决策等提供海量数据的存储
DOI: 10.11992/tis.201612005 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180409.1137.004.html 城市轨道交通线网数据中心与评估决策平台 张铭 (中国铁道科学研究院 电子计算技术研究所,北京 100081) 摘 要:在分析网络化运营条件下大规模数据特征的基础上,根据业务系统的数据融合需求,提出城市轨道交通数据 中心平台的分层框架和功能定位。探讨了线网管理的数据结构体系、数据仓库的递阶逻辑建模、面向运营业务决策 的应用集市等构建方法,并以线网客流特征识别的业务应用为对象,提出了数据集市的关联规则挖掘原理、预测立方 体在贯通多类运营评估应用的计算方法。结合某城市轨道交通数据中心建设案例,描述了基于数据仓库的搭建过程 及相关业务的调用逻辑,表明了线网数据管理对跨业务系统融合数据的意义,有效地提高了运营管理效率。 关键词:城市轨道交通;数据中心;网络化运营;数据仓库;运营评估;数据挖掘;决策;指标 中图分类号:TP319 文献标志码:A 文章编号:1673−4785(2018)03−0458−11 中文引用格式:张铭. 城市轨道交通线网数据中心与评估决策平台[J]. 智能系统学报, 2018, 13(3): 458–468. 英文引用格式:ZHANG Ming. A platform for a data center and decision making in urban rail transit[J]. CAAI transactions on intelligent systems, 2018, 13(3): 458–468. A platform for a data center and decision making in urban rail transit ZHANG Ming (China Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China) Abstract: Based on large datasets for network operations in urban rail transit (URT), an approach on the multilayered framework and functions of an urban rail transit data center is presented. Critical network data management technologies are also discussed, including united data structures, hierarchical logical modeling of data warehouses, decision making, and passenger behavior recognition. Then, an algorithm is proposed based on data association rules and mining principles of forecast cube for evaluation purposes. Using a URT data center as an example, it describes data warehousing and related operations and points to the value of network data management in business-systems integration and in operational efficiency. Keywords: urban rail transit; data center; network operation; data warehouse; operational evaluation; data mining; decision making; index 随着近年各特大城市轨道交通快速形成网络, 其他城市规划建设也正在向网络化迈进。从运营管 理角度,对日益庞大的线网进行全面的信息掌握与 综合监察,作为辅助运营决策的手段,是必不可少 的基础保障。由于传统的关系型数据库等存储和管 理手段,已无法承受几何级数增长的数据量和适应 快速获取分析结果的需求,对大存储、高效检索、即 时分析、数据挖掘提出了更高要求。因此,搭建线 网数据中心平台,通过采集各线路的运营信息,进 行统一存储、处理、规划、共享,供日常运营监控、应 急管理和运营组织优化等业务应用。此外,不同于 积累多年的单线运营管理方式,线网条件下的运营 指标核算、服务水平评估、线路间及枢纽的换乘接 驳、网络客流的动态分析等频繁衍生出的新问题, 在大数据应用的时代,提出了新的诉求。 数据中心及数据挖掘方面近年在各行业已有前 瞻性探索[1-3] ,王德文等[4]提出了基于云计算的新一 代电力数据中心的基础架构,为智能电网的业务系 统、数据挖掘与辅助决策等提供海量数据的存储、 收稿日期:2016−12−05. 网络出版日期:2017−03−17. 基金项目:国家自然科学基金项目 (U1334210);北京市重点科技支 撑计划项目 (Z151100001315002). 通信作者:张铭. E-mail:zm_zhangming@hotmail.com. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018
第3期 张铭:城市轨道交通线网数据中心与评估决策平台 ·459· 管理与计算环境:汪祖云等提出了交通行业的数 计算方法和评估指标体系等有待论证和检验,这就 据中心局域网和共享交换平台的架构设计理念;罗 需要历史数据资源的收集和对比校验。 亮等从能耗业务角度提出了面向云计算数据中心 4)线网数据资源的挖潜 的设计;张彧锋等从城市轨道交通运营安全保障 数据中心平台,对累积的数据进行特征分析 角度提出了基于数据中心的应用管理系统:梁艳平 建模和高效运算,通过仿真、数据挖掘等方法,为制 等分析了轨道交通部分基础数据库元数据的内容, 订有效的节能方案、运营组织优化方案、指导新线 基于各类设备故障数据进行诊断和挖掘分析9.1o。 规划和设备选型等提供决策依据。 本文从城市轨道交通网络化运营角度,面向数据资 源整合和挖潜,提出线网数据中心的构建方案和线 2网络化运营数据中心框架 网运行监控状态、故障报警、近线和离线业务数据 根据网络化运营管理和决策分析的需求,搭建 的数据中心资源池的机制,以及为运营评估及业务 面向多用户的信息集中共享、资源高效利用、运行 提供决策平台。 可靠的轨道交通线网数据服务和综合业务的数据中 1网络化运营对数据融合的需求 心平台,实现信息的统一采集、长期存储、统计分 析、业务调用的功能。根据数据源的信息特点和支 1)快速增长的数据规模 撑业务分支的目标导向,将线网数据中心系统 城市轨道交通各类系统覆盖机电专业监控系 划分为“四个业务板块”,即数据采集、数据管理、统 统、业务系统和办公系统等,根据收集的数据,列车 计分析、评估决策,同时与轨道交通企业的各类信 运行和设备监控系统产生的报警数据日达5GB:客 息系统接口,形成稳定、长期的数据资源融合与挖 流量因线网规模差异,北京、上海地铁工作日均客 掘运用。 运量1000万人次以上,广州地铁日均客运量700万 城市轨道交通的数据中心平台具有其特殊性: 人次以上,深圳地铁日均客运量300万人次以上, 首先,数据源来自于各分立系统,覆盖车辆、行车、 南京、武汉、成都、西安等城市地铁日均客运量 机电设备、客流、运营管理等多个专业,数据内容具 100万人次以上,进出站、断面、换乘客流及统计等 有专业的分散性;其次,围绕运营决策与评估考核 各类数据量十分庞大。非结构化数据,如一条线路 业务,须对应于业务主题找到各专业数据之间的关 (按30站计)产生的视频监控数据量(按15日循环 联性,并聚合于具有高度自组织性的主题域;再次, 周期)达500GB。按5条线路规模计算,线网级系 数据类型和内容众多,具有近线、离线等数据采集 统的累计结构化数据量可达3TB/年,非结构化数 时效的多样性,以及随时空变化特性、业务视角差 据因业务量差异数据量更大。随着线路开通里程的 异性和多维分析预测的复杂性。因此,数据中心的 增长,存储数据量很快达到1PB及以上。数据结 框架、数据融合的深度及专业化的数据模型,对于 构、格式、类型混杂,缺乏与业务的关联性,存在基 轨道交通线网级别的运营管理和决策支持具有重要 础数据不全而无效数据大量存储的现象,为了提高 意义,也是搭建城轨数据中心平台面临的主要问题。 数据质量,有必要通过容纳大数据量级的数据仓库 2.1数据资源整合平台 和标准化建模,使数据资源效益得以发挥。 1)监控数据融合与共享 2)多源异构的数据共享 采集各线路控制中心及亚务系统的信息,包括 各类数据资源包括来自互联网的现场报送信 行车、供电、设备、防灾报警、客流、视频监控等,可 息、来自办公网的信息、来自生产内网的专业监控 归纳为13类运营监控系统信息,7种数据结构类 和行车信号信息。针对跨网、复杂业务数据的接 型1。建立数据共享平台,汇总各类数据,如图1 口,需要保障信息安全的同时,采用高频数据采集、 所示。 多通道队列、通信服务协议等多种通信方式实现采 在数据采集的基础上,通过统一处理对多专业 集,不同类型数据的获取方式与业务系统特点及数 的信息集成与实时监察,可掌握线网行车、线网电 据内容融合紧密相关。 力运行状态,包括多线路共享主变电所能耗监控与 3)网络化运营统计分析与评估需求 联动控制;采集线网客流的出、入站客流数据4 线网条件下,对行车类、客流类、能耗类、服务 线路断面客流、换乘客流信息,从实时客流监察预 类等考核运营效果的各项指标计算,不是简单地由 警和历史客流预测角度划分数据结构。划分实时数 各条分线路指标的叠加,而是对网络化运营效益的 据、近线数据和离线数据,实时信息用于线网运行 综合考量,需要对线网实际运行的数据深入分析。 状态的监察,根据故障报警信息及时启动应急处
管理与计算环境;汪祖云等[5]提出了交通行业的数 据中心局域网和共享交换平台的架构设计理念;罗 亮等[6]从能耗业务角度提出了面向云计算数据中心 的设计;张彧锋等[7]从城市轨道交通运营安全保障 角度提出了基于数据中心的应用管理系统;梁艳平 等 [8]分析了轨道交通部分基础数据库元数据的内容, 基于各类设备故障数据进行诊断和挖掘分析[9-10]。 本文从城市轨道交通网络化运营角度,面向数据资 源整合和挖潜,提出线网数据中心的构建方案和线 网运行监控状态、故障报警、近线和离线业务数据 的数据中心资源池的机制,以及为运营评估及业务 提供决策平台。 1 网络化运营对数据融合的需求 1) 快速增长的数据规模 城市轨道交通各类系统覆盖机电专业监控系 统、业务系统和办公系统等,根据收集的数据,列车 运行和设备监控系统产生的报警数据日达 5 GB;客 流量因线网规模差异,北京、上海地铁工作日均客 运量 1 000 万人次以上,广州地铁日均客运量 700 万 人次以上,深圳地铁日均客运量 300 万人次以上, 南京、武汉、成都、西安等城市地铁日均客运量 100 万人次以上,进出站、断面、换乘客流及统计等 各类数据量十分庞大。非结构化数据,如一条线路 (按 30 站计) 产生的视频监控数据量 (按 15 日循环 周期) 达 500 GB。按 5 条线路规模计算,线网级系 统的累计结构化数据量可达 3 TB/年,非结构化数 据因业务量差异数据量更大。随着线路开通里程的 增长,存储数据量很快达到 1 PB 及以上。数据结 构、格式、类型混杂,缺乏与业务的关联性,存在基 础数据不全而无效数据大量存储的现象,为了提高 数据质量,有必要通过容纳大数据量级的数据仓库 和标准化建模,使数据资源效益得以发挥。 2) 多源异构的数据共享 各类数据资源包括来自互联网的现场报送信 息、来自办公网的信息、来自生产内网的专业监控 和行车信号信息。针对跨网、复杂业务数据的接 口,需要保障信息安全的同时,采用高频数据采集、 多通道队列、通信服务协议等多种通信方式实现采 集,不同类型数据的获取方式与业务系统特点及数 据内容融合紧密相关。 3) 网络化运营统计分析与评估需求 线网条件下,对行车类、客流类、能耗类、服务 类等考核运营效果的各项指标计算,不是简单地由 各条分线路指标的叠加,而是对网络化运营效益的 综合考量,需要对线网实际运行的数据深入分析。 计算方法和评估指标体系等有待论证和检验,这就 需要历史数据资源的收集和对比校验。 4) 线网数据资源的挖潜 数据中心平台,对累积的数据进行特征分析、 建模和高效运算,通过仿真、数据挖掘等方法,为制 订有效的节能方案、运营组织优化方案、指导新线 规划和设备选型等提供决策依据。 2 网络化运营数据中心框架 根据网络化运营管理和决策分析的需求,搭建 面向多用户的信息集中共享、资源高效利用、运行 可靠的轨道交通线网数据服务和综合业务的数据中 心平台,实现信息的统一采集、长期存储、统计分 析、业务调用的功能。根据数据源的信息特点和支 撑业务分支的目标导向[11-12] ,将线网数据中心系统 划分为“四个业务板块”,即数据采集、数据管理、统 计分析、评估决策,同时与轨道交通企业的各类信 息系统接口,形成稳定、长期的数据资源融合与挖 掘运用。 城市轨道交通的数据中心平台具有其特殊性: 首先,数据源来自于各分立系统,覆盖车辆、行车、 机电设备、客流、运营管理等多个专业,数据内容具 有专业的分散性;其次,围绕运营决策与评估考核 业务,须对应于业务主题找到各专业数据之间的关 联性,并聚合于具有高度自组织性的主题域;再次, 数据类型和内容众多,具有近线、离线等数据采集 时效的多样性,以及随时空变化特性、业务视角差 异性和多维分析预测的复杂性。因此,数据中心的 框架、数据融合的深度及专业化的数据模型,对于 轨道交通线网级别的运营管理和决策支持具有重要 意义,也是搭建城轨数据中心平台面临的主要问题。 2.1 数据资源整合平台 1) 监控数据融合与共享 采集各线路控制中心及业务系统的信息,包括 行车、供电、设备、防灾报警、客流、视频监控等,可 归纳为 13 类运营监控系统信息,7 种数据结构类 型 [13]。建立数据共享平台,汇总各类数据,如图 1 所示。 在数据采集的基础上,通过统一处理对多专业 的信息集成与实时监察,可掌握线网行车、线网电 力运行状态,包括多线路共享主变电所能耗监控与 联动控制;采集线网客流的出、入站客流数据[14-15] , 线路断面客流、换乘客流信息,从实时客流监察预 警和历史客流预测角度划分数据结构。划分实时数 据、近线数据和离线数据,实时信息用于线网运行 状态的监察,根据故障报警信息及时启动应急处 第 3 期 张铭:城市轨道交通线网数据中心与评估决策平台 ·459·
·460· 智能系统学报 第13卷 置;近线数据和离线数据分别载入历史库,用于各 存储、分析、挖掘,建立完整的元数据管理体系,包 种维度的统计和评估核算。 括元数据的定义、收集、管理和发布的流程。 3)基于大数据与多媒体的集成应用 ACC AFC/CLC 客流 轨道交通企业对外发布的客流信息、运营信 内存数 据库 息、突发事件应急信息等,利用实时库的快速处理 ISCS 设备 特性和应用集市的逻辑生成机制,通过内网、移动 实时数据库 客户端、数据接口等方式,实现集通信工具、呼叫中 SIG 行车 OLTP 数据访问 心等方式一体化的信息发布。通过知识库及预测结 主变电所 供电 果调用综合,将分析和反馈信息进一步收集,实现 数据仓库平台 信息的收纳和共享。 CCTV 视頫 数据仓库 数据 4)网络化运营统计分析与评估决策 江总层 针对运营考核和监管需求,构建网络化运营业 PIS PCC 圆 集市 务数据的统计、查询和运营评估的应用集市,形成 数据 其他 其他 缓冲层 集市 业务调用的关联关系的统一视图,并进一步结合远 期规划,建立评估决策模型,为多维、分段的历史数 图1数据采集逻辑原理 据分析挖掘和预测提供基础。 Fig.1 Principle of data collection 2.2数据中心的分层框架 2)基于数据仓库的一体化数据管理 根据不同的业务对象,建立分层架构,即数据 根据业务分析需求建模导入数据仓库,将行 接口层、数据模型层、应用集市层、业务访问层,上 车、设备、调度指挥、突发事件、客流等数据分类 层面向用户访问,应用框架如图2所示。 访问层 登录 浏览 搜索 管理 下载 分析 加工 控制 批量 数据管理平台应用B/S 应用C/S 元数据 数据标准 数据质量 流程管理 初级映射 SDM 应用层 业务单元 关联度分析 指标一致性 运维监控 数据分析 应用平台 工作模板 数据仓库 Mart 模型层 ETL DQ DS ETL PDM DBC Metadata Stage 数据获取层 DDL SQL XML SourceData OLAP Perl 图2数据中心平台的分层框架 Fig.2 Schematic of the data center platform 1)数据接口层 模,根据业务规则建立统一视图后,为数据结构标 主要承担数据的采集,作为系统接口通道,根 准化做准备67。按照不同分类形式划分为: 据接口数据的实效性、数据量、数据内容等不同条 ①按业务类型,划分为客流数据、列车运行数 件,设置接口通信协议转换实现数据的获取,即可 据、设备运营数据、票务数据、清算数据、应用系统 设计接口模型,将接口类型标准化、规则化。获取 的融合数据、统计数据等。 的数据通过抽取、清理、转换、加载过程转入数据建 ②按数据类型,划分为结构化数据和非结构化
置;近线数据和离线数据分别载入历史库,用于各 种维度的统计和评估核算。 2) 基于数据仓库的一体化数据管理 根据业务分析需求建模导入数据仓库,将行 车、设备、调度指挥、突发事件、客流等数据分类、 存储、分析、挖掘,建立完整的元数据管理体系,包 括元数据的定义、收集、管理和发布的流程。 3) 基于大数据与多媒体的集成应用 轨道交通企业对外发布的客流信息、运营信 息、突发事件应急信息等,利用实时库的快速处理 特性和应用集市的逻辑生成机制,通过内网、移动 客户端、数据接口等方式,实现集通信工具、呼叫中 心等方式一体化的信息发布。通过知识库及预测结 果调用综合,将分析和反馈信息进一步收集,实现 信息的收纳和共享。 4) 网络化运营统计分析与评估决策 针对运营考核和监管需求,构建网络化运营业 务数据的统计、查询和运营评估的应用集市,形成 业务调用的关联关系的统一视图,并进一步结合远 期规划,建立评估决策模型,为多维、分段的历史数 据分析挖掘和预测提供基础。 2.2 数据中心的分层框架 根据不同的业务对象,建立分层架构,即数据 接口层、数据模型层、应用集市层、业务访问层,上 层面向用户访问,应用框架如图 2 所示。 1) 数据接口层 主要承担数据的采集,作为系统接口通道,根 据接口数据的实效性、数据量、数据内容等不同条 件,设置接口通信协议转换实现数据的获取,即可 设计接口模型,将接口类型标准化、规则化。获取 的数据通过抽取、清理、转换、加载过程转入数据建 模,根据业务规则建立统一视图后,为数据结构标 准化做准备[16-17]。按照不同分类形式划分为: ①按业务类型,划分为客流数据、列车运行数 据、设备运营数据、票务数据、清算数据、应用系统 的融合数据、统计数据等。 ②按数据类型,划分为结构化数据和非结构化 ISCS SIG 主变电所 CCTV PIS 其他 客流 设备 行车 供电 视频 PCC 其他 OLTP 实时数据库 数据访问 缓冲层 整合层 汇总层 数据仓库 数据仓库平台 数据 集市 数据 集市 数据 集市 ACC AFC/CLC 内存数 据库 F T P 图 1 数据采集逻辑原理 Fig. 1 Principle of data collection DDL SQL XML SourceData OLAP Perl Metadata ETL DQ DS ETL DBC Mart Stage PDM ᢚ㣣ंᅮ Ὅಷᅮ ᢚϿᎿ Ꮐ⩔ज ͆ٯࢁߍ ڟ㖀Ꮢܲ ᠳᴳ̬㜠ᕓ ٯᢚ ᢚᴳ۲ ᢚ䉔䛻 ≭⼷ネ⤲ ݉㏓ᭌᄰ SDM 䓼㐠⯽ᣓ ᢚܲ ҈ὍᲫ Ꮐ⩔ᅮ 䃫䬚ᅮ ⮧ᒁ ≻㻴 ᥈㉎ ネ⤲ ̷䒩 ܲ ߌ ᣓݢ ឥ䛻 ᢚネ⤲जᏀ⩔B/S Ꮐ⩔C/S 图 2 数据中心平台的分层框架 Fig. 2 Schematic of the data center platform ·460· 智 能 系 统 学 报 第 13 卷
第3期 张铭:城市轨道交通线网数据中心与评估决策平台 ·461· 数据。结构化数据包括可建立数据表统一存储在数 将逻辑建模作为重要环节,使其直观映射业务 据库中的数据,如基础设施、业务类数据:非结构化 部门的需求,如设定对外预警与预防准备和运营组 数据主要包括站点监视视频信息和规范与图纸,以 织调整方案的逻辑关联模型等。依据业务规则转译 及预案、数据接口等文件类信息。 为模型内的关系,清晰地反映业务操作模式。设计 ③按时效性可划分为实时数据、非实时数据。 的逻辑模型满足第三范式(3NF),减少数据冗余,提 实时数据:在数据变化时立即由控制端控制器 高访问效率。建模的过程中,对各种原始数据 传给采集端,即发送端、接收端同步,包括行车运行 衍生数据和元数据进行标准化处理,形成有序的标 信息、设备运行信息和故障报警信息等。非实时数 准数据并进行统一管理和维护,保证存储数据的安 据:这类数据在数据变化时经一定间隔时间后传给 全,具备保护机制。 采集端,包括各线路的运营数据、阶段统计数据等。 3)语义应用层 不同分类间互有交叉,例如:列车运行类数据 面向轨道交通日常业务进行应用集市的设计, 包括列车运行的具体位置、时间等实时信息,及列 包括统计分析集市、运营评估集市、决策分析集市 车运行图等非实时信息,因此可对数据多级划分: 客流查询集市。采取在数据仓库中划分空间,建立 ①阶段性信息:按照设定的采集周期自动接收 逻辑集市,单独划定逻辑区域用于存放前端应用访 各线路上传的运营数据,如车站一段时间内的温湿 问的实体表或视图,不放置处理的中间数据,并严 度统计、线路的用电量统计、各站的客流数据统计 格遵循命名规则,同时多个应用集市之间数据重复 等,为运营人员分析整体情况进行决策积累数据。 利用。以客流管理的应用集市为例,逻辑分区设置 ②实时采集:用于满足数据中心实时、非实时 为“乘客分群、客流特征分析、路网不均衡性分析、 业务需求,通过特定通信协议,监控源系统实时上 客流预测、重大活动与节假日分析、车站限流分析、 传所需数据,上传时间可通过参数化设置。 突发事件应急响应、换乘枢纽接驳、客流预测”。 ③定时采集:用于满足数据中心离线业务需 因为应用集市依赖于业务需求和数据仓库的整 体建设规划,所以对数据仓库的总体设计的高度稳 求,系统通过特定通信协议,在预定的时段内(通常 定性提出极高要求。为各数据集市分配独立的数据 为非运营时段)向生产系统采集所需数据。各生产 库区域,空间大小可根据实际使用大小灵活调整。 系统在预定的时段前,须以预定的格式存档。 通过负载管理来分配资源,实现提升数据集市的服 此外,数据仓库形成统一的数据资源池,为上 务能力。根据“不同的业务策略”在“不同时段”为 层业务的调用封装出接口供访问数据。 “不同类型的对象”提供“不同的资源权限”,从而为 2)数据模型层 不同类型用户提供差异化服务,资源权限的切换由 根据大规模数据和线网综合业务的处理需求, 数据仓库平台自动完成,资源权限由系统自动分配 采用数据仓库作为线网数据中心平台的基础数据 或执行变更。 库。由于数据源系统很多1,从分散而异构的源数 4)安全管理体系 据到最终的层次分明的展示数据,需要设置多层级 由于生产运营调度系统通常位于企业生产内 过滤,对数据仓库进行分层设计。 网,属于信息安全等级保护三级,而日常业务系统 业务建模划分为5个层面:调度管理、客运管 位于办公网,其中部分系统对外发布信息,如时刻 理、车辆管理、设备管理、安全监察。 表、乘客查询信息等,则与互联网相连。因此,对应 ①调度管理模型:行车、设备、消防环控调度、 不同级别网络,建立信息安全管理体系,各系统数 指挥与运营调度、突发事件应急处置、事故处理及 据进入数据仓库融合。将线网数据中心平台的系统 调查、夜间施工管理。 划分多个区,包括应用区、数据区、接口区等,设置 ②客运管理模型:运输计划及运行图、运营与 安全管理中心,通过配置硬件安全设备,如网闸、防 应急协调、质量分析与控制考核、质量管理、客运组 火墙、堡垒机、入侵检测、入侵防御、审计系统等,配 织与服务、站务与乘务。 置防病毒软件、用户认证、数据安全等安全过滤和 ③车辆管理模型:检修计划、故障分析、采购、 控制,保障信息安全。 车辆调度运力优化、技术改造、机务管理。 3基于数据仓库的建模 ④设备管理模型:维修计划、固定资产管理、故 障排查、新线及试运行管理、多专业协同检修。 3.1线网数据结构预定义 ⑤安全监察模型:安全巡查、应急预案管理、事 线网数据中心需建立统一的数据结构体系,在 故统计、安全考核评估、案例知识库。 构建数据仓库前首先执行ETL(extract-transform-
数据。结构化数据包括可建立数据表统一存储在数 据库中的数据,如基础设施、业务类数据;非结构化 数据主要包括站点监视视频信息和规范与图纸,以 及预案、数据接口等文件类信息。 ③按时效性可划分为实时数据、非实时数据。 实时数据:在数据变化时立即由控制端控制器 传给采集端,即发送端、接收端同步,包括行车运行 信息、设备运行信息和故障报警信息等。非实时数 据:这类数据在数据变化时经一定间隔时间后传给 采集端,包括各线路的运营数据、阶段统计数据等。 不同分类间互有交叉,例如:列车运行类数据 包括列车运行的具体位置、时间等实时信息,及列 车运行图等非实时信息,因此可对数据多级划分: ①阶段性信息:按照设定的采集周期自动接收 各线路上传的运营数据,如车站一段时间内的温湿 度统计、线路的用电量统计、各站的客流数据统计 等,为运营人员分析整体情况进行决策积累数据。 ②实时采集:用于满足数据中心实时、非实时 业务需求,通过特定通信协议,监控源系统实时上 传所需数据,上传时间可通过参数化设置。 ③定时采集:用于满足数据中心离线业务需 求,系统通过特定通信协议,在预定的时段内 (通常 为非运营时段) 向生产系统采集所需数据。各生产 系统在预定的时段前,须以预定的格式存档。 此外,数据仓库形成统一的数据资源池,为上 层业务的调用封装出接口供访问数据。 2) 数据模型层 根据大规模数据和线网综合业务的处理需求, 采用数据仓库作为线网数据中心平台的基础数据 库。由于数据源系统很多[18] ,从分散而异构的源数 据到最终的层次分明的展示数据,需要设置多层级 过滤,对数据仓库进行分层设计。 业务建模划分为 5 个层面:调度管理、客运管 理、车辆管理、设备管理、安全监察。 ①调度管理模型:行车、设备、消防环控调度、 指挥与运营调度、突发事件应急处置、事故处理及 调查、夜间施工管理。 ②客运管理模型:运输计划及运行图、运营与 应急协调、质量分析与控制考核、质量管理、客运组 织与服务、站务与乘务。 ③车辆管理模型:检修计划、故障分析、采购、 车辆调度运力优化、技术改造、机务管理。 ④设备管理模型:维修计划、固定资产管理、故 障排查、新线及试运行管理、多专业协同检修。 ⑤安全监察模型:安全巡查、应急预案管理、事 故统计、安全考核评估、案例知识库。 将逻辑建模作为重要环节,使其直观映射业务 部门的需求,如设定对外预警与预防准备和运营组 织调整方案的逻辑关联模型等。依据业务规则转译 为模型内的关系,清晰地反映业务操作模式。设计 的逻辑模型满足第三范式 (3NF),减少数据冗余,提 高访问效率[19]。建模的过程中,对各种原始数据、 衍生数据和元数据进行标准化处理,形成有序的标 准数据并进行统一管理和维护,保证存储数据的安 全,具备保护机制。 3) 语义应用层 面向轨道交通日常业务进行应用集市的设计, 包括统计分析集市、运营评估集市、决策分析集市、 客流查询集市。采取在数据仓库中划分空间,建立 逻辑集市,单独划定逻辑区域用于存放前端应用访 问的实体表或视图,不放置处理的中间数据,并严 格遵循命名规则,同时多个应用集市之间数据重复 利用。以客流管理的应用集市为例,逻辑分区设置 为“乘客分群、客流特征分析、路网不均衡性分析、 客流预测、重大活动与节假日分析、车站限流分析、 突发事件应急响应、换乘枢纽接驳、客流预测”。 因为应用集市依赖于业务需求和数据仓库的整 体建设规划,所以对数据仓库的总体设计的高度稳 定性提出极高要求。为各数据集市分配独立的数据 库区域,空间大小可根据实际使用大小灵活调整。 通过负载管理来分配资源,实现提升数据集市的服 务能力。根据“不同的业务策略”在“不同时段”为 “不同类型的对象”提供“不同的资源权限”,从而为 不同类型用户提供差异化服务,资源权限的切换由 数据仓库平台自动完成,资源权限由系统自动分配 或执行变更。 4) 安全管理体系 由于生产运营调度系统通常位于企业生产内 网,属于信息安全等级保护三级,而日常业务系统 位于办公网,其中部分系统对外发布信息,如时刻 表、乘客查询信息等,则与互联网相连。因此,对应 不同级别网络,建立信息安全管理体系,各系统数 据进入数据仓库融合。将线网数据中心平台的系统 划分多个区,包括应用区、数据区、接口区等,设置 安全管理中心,通过配置硬件安全设备,如网闸、防 火墙、堡垒机、入侵检测、入侵防御、审计系统等,配 置防病毒软件、用户认证、数据安全等安全过滤和 控制,保障信息安全。 3 基于数据仓库的建模 3.1 线网数据结构预定义 线网数据中心需建立统一的数据结构体系,在 构建数据仓库前首先执行 ETL(extract-transform- 第 3 期 张铭:城市轨道交通线网数据中心与评估决策平台 ·461·
·462· 智能系统学报 第13卷 load)过程,即数据从不同的数据库或异构数据源 控制中心OCC上报的运营日报、月报等需手工加 中,流向统一的目标数据库,去映射源数据,载入业 载,如直接追加、全部覆盖、更新追加。 务模型的数据仓库或数据集市。ETL连接着数据 4)数据检查与异常控制 仓库和汇集数据的业务系统,确保新的业务数据持 由于各数据源的数据质量不可控,因此进行数 续流入数据仓库,同时保证生成的结果反映最新的 据检查,包括接口数据的及时性、完整性和正确性, 业务动态。 设置各种类型的数据质量检查规则、检查规则的上 1)数据抽取 下阈值,在第一时间根据规则提醒相关人员处理数 数据抽取包括增量、全量及自定义抽取方式, 据质量故障,并对各类异常数据进行必要的处理。 具备异步和同步抽取,灵活设定抽取频率。对行 经过处理的数据划分为以下3种类型。 车、设备监控、故障报警、时刻表文件等大批量数据 ①基础数据:基础数据层面定义为全局概念, 以日为单位增加抽取,对客流类数据以文件存储 以便对一些基础或通用类信息保持一致的认识,如 的,以单个文件传输的周期为单位,作为数据抽取 管理者、设备。 频率可全量抽取。 ②公共代码:对多个源系统不一致的数据定义 2)数据转换 进行整合,供其他系统引用,以保证可识别的一致 从数据采集系统获取源数据时进行数据转换, 性,如基础设施、专业。 包括数据的定义、数据结构和错误数据的转换处理 ③统计指标:设置以业务为导向的公式化计算 等,如时刻表文件的解析分为工作日、非工作日、节 引擎,提供可分解的全局性统计指标,并使计算调 假日,各自成表。转换的内容包括格式和类型转 取的数据遵循这些指标的数据标准。 换、数据的翻译、匹配、聚合等。 系统中元数据的业务流程逻辑关系如图3所 3)数据加载 示。通过建立完整的元数据管理体系,包括元数据 将常规格式的数据以批量模式加载到数据仓 的发布、浏览、查询、关联分析及追溯等,业务人员 库.并对部分业务类数据分别处理入库,如以5min 从而及时准确地了解数据仓库的数据内容。以此为 为单位积累的客流文件。也可并行加载,如BAS和 基础,以便快速进行数据查询、数据资源管理、数据 PSCADA数据表,采用自动加载模式,但对于线路 模型管理、业务信息以及变更管理等。 业务管理 统计分析报表 线网基础数据 组织架构数据等 接口:ACC/CLC系统<->数据中心 客流数据 客流 评估 线网监控应急系统 资源调用 运营评估集市 统计 方案 预案管理、报警管理 T 管理管理 应急数字化处置 客流态势 数据资源 运营评估管理 服务水平考核 元数据 对象 GIS应用、移动终端应用 运力计划编制 列车时刻、路径查询 运营决策 数据 列车时刻表计划协调 运行图编制模块 衔接模型 首末班车衔接时刻 接口:数据中心系统<->数据中心 基础数据调用 数据仓库 源数据:线路、车站信息、车底信息、区间运行信息、折返信息… 图3:系统元数据的业务流程 Fig.3 Business flow of system metadata 3.2综合业务承载的主题域设计 l0个主题域,分别为当事人(party)、线网(subway 根据数据仓库面向主题的特性,按照数据模型 network)、位置(location)、设备(equipment)、行车 分主题组织和存放数据,对所有数据分类,根据各 (trip)、OD(origination and destination)、客流(passen- 自业务划分不同的主题,由主题域来建模。主题域 ger flow)、票务(ticket)、清算(clearing)、事件 是对某个主题进行分析后确定主题的边界。根据线 (event),其构件关系如图4所示。 网数据中心的业务,将数据仓库的数据模型设计为 以行车信息的主题域为例,数据视图如图5所示
load) 过程,即数据从不同的数据库或异构数据源 中,流向统一的目标数据库,去映射源数据,载入业 务模型的数据仓库或数据集市。ETL 连接着数据 仓库和汇集数据的业务系统,确保新的业务数据持 续流入数据仓库,同时保证生成的结果反映最新的 业务动态。 1) 数据抽取 数据抽取包括增量、全量及自定义抽取方式, 具备异步和同步抽取,灵活设定抽取频率。对行 车、设备监控、故障报警、时刻表文件等大批量数据 以日为单位增加抽取,对客流类数据以文件存储 的,以单个文件传输的周期为单位,作为数据抽取 频率可全量抽取。 2) 数据转换 从数据采集系统获取源数据时进行数据转换, 包括数据的定义、数据结构和错误数据的转换处理 等,如时刻表文件的解析分为工作日、非工作日、节 假日,各自成表。转换的内容包括格式和类型转 换、数据的翻译、匹配、聚合等。 3) 数据加载 将常规格式的数据以批量模式加载到数据仓 库,并对部分业务类数据分别处理入库,如以 5 min 为单位积累的客流文件。也可并行加载,如 BAS 和 PSCADA 数据表,采用自动加载模式,但对于线路 控制中心 OCC 上报的运营日报、月报等需手工加 载,如直接追加、全部覆盖、更新追加。 4) 数据检查与异常控制 由于各数据源的数据质量不可控,因此进行数 据检查,包括接口数据的及时性、完整性和正确性, 设置各种类型的数据质量检查规则、检查规则的上 下阈值,在第一时间根据规则提醒相关人员处理数 据质量故障,并对各类异常数据进行必要的处理。 经过处理的数据划分为以下 3 种类型。 ①基础数据:基础数据层面定义为全局概念, 以便对一些基础或通用类信息保持一致的认识,如 管理者、设备。 ②公共代码:对多个源系统不一致的数据定义 进行整合,供其他系统引用,以保证可识别的一致 性,如基础设施、专业。 ③统计指标:设置以业务为导向的公式化计算 引擎,提供可分解的全局性统计指标,并使计算调 取的数据遵循这些指标的数据标准。 系统中元数据的业务流程逻辑关系如图 3 所 示。通过建立完整的元数据管理体系,包括元数据 的发布、浏览、查询、关联分析及追溯等,业务人员 从而及时准确地了解数据仓库的数据内容。以此为 基础,以便快速进行数据查询、数据资源管理、数据 模型管理、业务信息以及变更管理等。 3.2 综合业务承载的主题域设计 根据数据仓库面向主题的特性,按照数据模型 分主题组织和存放数据,对所有数据分类,根据各 自业务划分不同的主题,由主题域来建模。主题域 是对某个主题进行分析后确定主题的边界。根据线 网数据中心的业务,将数据仓库的数据模型设计为 10 个主题域,分别为当事人 (party)、线网 (subway network)、位置 (location)、设备 (equipment)、行车 (trip)、OD(origination and destination)、客流 (passenger flow)、票务 (ticket)、清算 (clearing)、事件 (event),其构件关系如图 4 所示。 以行车信息的主题域为例,数据视图如图 5 所示。 䓼㥑䃰ќ䯲ጮ ᢚϿᎿ 䓼㵸ప㑂ݢὍಃ ᢚ䉰⎼ ٯᢚ ᄥ䆍 ᢚ ≭ᔭ߫ 䓼߇䃍ܾ㑂ݢ 䓼㥑䃰ќネ⤲ 䓼㥑۟も ദᢚ䄯⩔ 䃍ܾࡻ䄯 㐋䃍ܲ៑㶔 ≭ᢚ 䉰⎼䄯⩔ ݃䒒ᬢݧ㶔 㶀ᣑὍಷ 仂᱗⤙䒒㶀ᣑᬢݧ ᣑए喝ACC/CLC㈧㐋<−>ᢚ͙ᓯ ㏫㑽⯽ᣓ/Ꮐᕑ㈧㐋 䶰ᵴネ⤲ȟ៑䂒ネ⤲ȟ Ꮐᕑႃࡂะ㒚 ߍⅠ㔯ᵤ GISᏀ⩔ȟ⼧ߔ㏴〛Ꮐ⩔ȟ ݃䒒ᬢݧȟ䌛ᒰᴑ䄎 ⤲ネߍ͆ ㏫㑽ദᢚȟ ㏰㏳᳢Ჰᢚふ 䃰ќ ᵴ ネ⤲ ≭ 㐋䃍 ネ⤲ ᣑए喝ᢚ͙ᓯ㈧㐋<−>ᢚ͙ᓯ ⎼ᢚ喝㏫䌛ȟ䒒々ԍᖛȟ䒒Ꮑԍᖛȟࡦ䬠䓼㵸ԍᖛȟោ䔀ԍᖛ…… 图 3 系统元数据的业务流程 Fig. 3 Business flow of system metadata ·462· 智 能 系 统 学 报 第 13 卷