上海域投(集团)有限公司科技创新计划项且(CTKY-DXW-2020-012) 技术,从数据到应用、从单体到融合,采集来自水泵、水表、流量计等的水压 水量等数据,并将用户数据、GIS数据等进行融合。通过机器学习对用户用水数 据预测,通过数据智能对水泵、压力、管网等进行统筹调度相关资源,并将形成 的AI模型推送至边缘侧,通过智能边缘设备实现水泵的智能调度。综合大数据 人工智能技术以“平台+生态”模式打造基于人工智能技术在供水智能调度方面 的整体解决方案 从图内外模型调度工程应用现状的调研结果来看,虽然在近几十年间取得了Y 颇为不错的进展,调度系统不断变得的更加系统化、智能化,但仍存在着众多问 题和局限性。一方面,调度模型消耗巨大的算力,运行效果层次不齐,无法应用 于大规模的管网系统:另一方面,传统的优化算法计算出的最优解往往与工程实 际需求不符。近年来,随着计算机技术的发展,基于数据驱动的深度学习模型已 经越来越多的应用于各个领域。相比于传统的优化调度方法,大规模管网系统产 生的海量数据能够训练出更加准确的深度学习模型,同时深度学习模型是基于管 网系统的历史调度经验数据进行特征提取和信息挖起,模型结果更加满足实际工 同济大学智慧水务联 程需求
上海城投(集团)有限公司科技创新计划项目(CTKY-ZDXM-2020-012) 20 技术,从数据到应用、从单体到融合,采集来自水泵、水表、流量计等的水压、 水量等数据,并将用户数据、GIS 数据等进行融合。通过机器学习对用户用水数 据预测,通过数据智能对水泵、压力、管网等进行统筹调度相关资源,并将形成 的 AI 模型推送至边缘侧,通过智能边缘设备实现水泵的智能调度。综合大数据、 人工智能技术以“平台+生态”模式打造基于人工智能技术在供水智能调度方面 的整体解决方案。 从国内外模型调度工程应用现状的调研结果来看,虽然在近几十年间取得了 颇为不错的进展,调度系统不断变得的更加系统化、智能化,但仍存在着众多问 题和局限性。一方面,调度模型消耗巨大的算力,运行效果层次不齐,无法应用 于大规模的管网系统;另一方面,传统的优化算法计算出的最优解往往与工程实 际需求不符。近年来,随着计算机技术的发展,基于数据驱动的深度学习模型已 经越来越多的应用于各个领域。相比于传统的优化调度方法,大规模管网系统产 生的海量数据能够训练出更加准确的深度学习模型,同时深度学习模型是基于管 网系统的历史调度经验数据进行特征提取和信息挖掘,模型结果更加满足实际工 程需求。 同济大学智慧水务联合创新研发中心
上海城投(集团)有跟公司科技创新计划项且(CTKY-7DX-2020-012) 3.数据处理、压力监测点布置优化与压力控制点选择 3.1.数据质量提升 在真实的SCADA数据采集场景中,数据异常是难以被避免的,由于传感器设 备在信号传输中不可避免的会遇到问题,目前原始数据中仍存在数据缺失、数据 冗余、数据跳变、数据连续异常、时间尺度不一致等多种问题,这些异常数据对 于分析问题没有任何意义,难以对数据挖掘分析决策提供支持,因此对于监测数 据的数据质量提升是必要的一项基础工作」 为了提升数据质量,本研究构建了一套数据清洗流程来保障数裾质量。这套 数据清洗方法流程主要包括以下两个步骤:首先采用基于统计学方法的 smoothing Z-Score算法进行异常数据检测,然后通过重复性检测去除重复数据 以及无意义的数据,对于不规范的时间戳,按照要求的时间分辨率进行重采样 对齐时问轴,最后采用时间序列数据插补算法 TW-KNNR对缺失值进行插补。 同济大学 规范龄据 图3-1数据清洗流程图
上海城投(集团)有限公司科技创新计划项目(CTKY-ZDXM-2020-012) 21 3. 数据处理、压力监测点布置优化与压力控制点选择 3.1. 数据质量提升 在真实的 SCADA 数据采集场景中,数据异常是难以被避免的,由于传感器设 备在信号传输中不可避免的会遇到问题,目前原始数据中仍存在数据缺失、数据 冗余、数据跳变、数据连续异常、时间尺度不一致等多种问题,这些异常数据对 于分析问题没有任何意义,难以对数据挖掘分析决策提供支持,因此对于监测数 据的数据质量提升是必要的一项基础工作。 为了提升数据质量,本研究构建了一套数据清洗流程来保障数据质量。这套 数据清洗方法流程主要包括以下两个步骤:首先采用基于统计学方法的 smoothing Z-Score 算法进行异常数据检测,然后通过重复性检测去除重复数据 以及无意义的数据,对于不规范的时间戳,按照要求的时间分辨率进行重采样, 对齐时间轴,最后采用时间序列数据插补算法 TW-KNNR 对缺失值进行插补。 图 3- 1 数据清洗流程图 同济大学智慧水务联合创新研发中心
上海城投(集团)有限公司科技创新计划项且(CTKY-DX-2020-012) 3.1.1.数据异常识别 Smoothing Z-score异常值检测算法的原理如图3-2所示,它通过设置动 态滑窗大小和标准差阀值来确定在不同时段上的异常值监测上下限,这样做的好 处在于异常值检测的上下限不是一个固定的值,而是随着邻近数据的波动性而 不断自适应调整的阀值,能够更加精准的筛选出单点异常和连续异常。 thresholdxw 图3-2 Smoothing Z-score异常值检测算法 将上述算法应用于青东区域监测数据的异常值检测,以徐泾水厂的供水量异 常检测为例,如图3-3所示 可以直观的看出该算法对于检测突变异常具有良 好的效果。 同济 图3-3徐泾水厂供水量异常检测 22
上海城投(集团)有限公司科技创新计划项目(CTKY-ZDXM-2020-012) 22 3.1.1. 数据异常识别 Smoothing Z-score 异常值检测算法的原理如图 3- 2 所示,它通过设置动 态滑窗大小和标准差阈值来确定在不同时段上的异常值监测上下限,这样做的好 处在于异常值检测的上下限不是一个固定的阈值,而是随着邻近数据的波动性而 不断自适应调整的阈值,能够更加精准的筛选出单点异常和连续异常。 图 3- 2 Smoothing Z-score 异常值检测算法 将上述算法应用于青东区域监测数据的异常值检测,以徐泾水厂的供水量异 常检测为例,如图 3- 3 所示。可以直观的看出该算法对于检测突变异常具有良 好的效果。 图 3- 3 徐泾水厂供水量异常检测 同济大学智慧水务联合创新研发中心
上海域投(集团)有限公司科技创新计划项且(CTKY-7DXW-2020-012) 3.1.2.数据缺失插补 为了对于缺失数据进行修复,尽可能避免由于数据缺失所带来的影响,本研 究还提出了一种基于时问加权的K近邻回归算法TW-KNR来插补缺失数据,该算 法具体计算公式定义如下: 0ose=∑h1 softmax(e)0 其中Oe代表对应的观测缺失值,O,代表已知的i个的同时刻观测值,T,代 表第i个观测值距离对应缺失数据的时段长度,并通过softmax函数将对应时间 的距离转换为对已知观测值的置信概率,并基于此概率值对已知同时刻数据进行 加权作为缺失值的估计,如图3-4所示。 图3-4缺失值插补:基于时问加权的K近邻回归算法原理图 通过实际数据对缺失值插补算法的效果进行了验证,可以发现对于连续缺失, 该算法具有良好的表现。 同济 23
上海城投(集团)有限公司科技创新计划项目(CTKY-ZDXM-2020-012) 23 3.1.2. 数据缺失插补 为了对于缺失数据进行修复,尽可能避免由于数据缺失所带来的影响,本研 究还提出了一种基于时间加权的 K 近邻回归算法 TW-KNNR 来插补缺失数据,该算 法具体计算公式定义如下: �𝑙𝑜 = �=1 � 𝑙𝑜𝑓�(� �1 ) ∙ �� (3- 1) 其中 代表对应的观测缺失值, 代表已知的 i 个的同时刻观测值, 代 表第 i 个观测值距离对应缺失数据的时段长度,并通过 softmax 函数将对应时间 的距离转换为对已知观测值的置信概率,并基于此概率值对已知同时刻数据进行 加权作为缺失值的估计,如图 3- 4 所示。 图 3- 4 缺失值插补:基于时间加权的 K 近邻回归算法原理图 通过实际数据对缺失值插补算法的效果进行了验证,可以发现对于连续缺失, 该算法具有良好的表现。 同济大学智慧水务联合创新研发中心
上海域投(集团)有限公司科技创新计划项目(CTKY-DXM-2020-012) 中川 图3-5缺失值插补算法验证 21 另外,为了在多个测试集上验证插补算法对于不同缺失数锯长度的有效性 针对5分钟,15分钟,1小时,1天等不同的时间长度的插补效果进行评价。 在每组时问长度的插补验证实验中从不同测试集上进行100次随机位置的插补 并对误差分布进行采样,并统计预测值与观测值之问的相对百分比误差(MAPE) 均方根误差(RMSE),结果如图36所示。 同济大学 121 .46 .9 5.07 291.57 247.73 263.23 300.62 图3-6缺失值插补算法误差分布采样
上海城投(集团)有限公司科技创新计划项目(CTKY-ZDXM-2020-012) 24 图 3- 5 缺失值插补算法验证 另外,为了在多个测试集上验证插补算法对于不同缺失数据长度的有效性, 针对 5 分钟, 15 分钟, 1 小时, 1 天等不同的时间长度的插补效果进行评价。 在每组时间长度的插补验证实验中从不同测试集上进行 100 次随机位置的插补, 并对误差分布进行采样,并统计预测值与观测值之间的相对百分比误差(MAPE)、 均方根误差(RMSE),结果如图 3- 6 所示。 图 3- 6 缺失值插补算法误差分布采样 同济大学智慧水务联合创新研发中心