基于大数据与机器学习的配电网电缆线路工程造价预测

李谟兴,何永秀,柳 洋,陈威君,李存斌

(华北电力大学,北京 102206)

配电网工程是国民经济和社会发展的重要公共基础设施,具有建设规模大、点多、面广、设备种类繁多等特点[1-2],加之配电网工程阶段多、控制对象广,建设过程中产生海量的电力数据,且数据变化快,关系复杂,导致配电网工程项目造价管控难度大,造价预测难度大大增加[3-4]。因此,分析和筛选出配电网工程造价的重要影响因素,寻找合适的预测方法进行造价预测,对于推动配电网造价精益化管控向更优、更强、更精、更准的方向发展具有重要意义。

文献[5]利用人工蜂群算法对支持向量机参数进行了参数优化,但没有在造价大数据中筛选出重要造价影响因素;
文献[6]结合建筑工程项目分析了模糊综合评价方法在土建工程造价预测中具体应用,但没有建立合理的预测模型;
文献[7]根据道路施工需求,基于最小二乘支持向量机算法提出一种新的道路工程施工阶段造价预测方法,但同样缺少在造价大数据中筛选出重要造价影响因素;
文献[8]选取支持向量机算法构建住宅工程造价预测模型,但没有对模型的关键参数进行寻优;
文献[9-14]提出了利用人工神经网络、遗传算法等构建输电线路工程造价预测模型,但同样缺少对重要造价影响因素的筛选;
其他学者提出的造价预测方法中,也同样存在预测模型和方法待完善等问题[15-20]。上述研究结果表明,多数文献作者所提出的工程造价分析方法和预测模型不够完善,且缺乏对重要造价影响因素的提取,在大数据技术和人工智能学习算法快速发展的背景下,其预测方法和模型还有待完善。

针对配电网工程造价预测精度不高的问题,提出一种基于大数据与机器学习算法的配电网电缆线路工程造价组合预测模型,该方法首先基于灰色关联分析法从造价大数据中选取重要造价影响因素,其次基于交叉验证与网格搜索算法对最小二乘向量机算法进行关键参数寻优,最后利用寻优之后的最小二乘支持向量机算法进行造价预测,将预测结果与造价实际值对比可知,本文提出的预测方法与实际工程造价费用的偏差较小,能有效提升配电网电缆线路工程造价的预测精度,有利于实现配电网造价精益化管控。

配电网工程项目数量庞大、种类各异,工程建设过程中产生海量的造价数据,从这些数据中选取重要工程造价影响因子有利于提高工程造价估算的准确性。根据数据资料统计,初步确定配电网电缆线路工程相关造价影响因素,包括电压等级、建设性质、电缆材质、电缆芯截面积、电缆敷设总长度、电缆综合价格、电缆终端头数量、电缆中间接头数量、人力运距总量、汽车运距总量、电缆桥架数量、基础钢筋数量、电缆沟敷设长度、顶管敷设长度、排管敷设长度、地形条件、地质类型、土石方总量和建设场地征用及清理费等19 个造价影响因素。电压等级越高、线路越长,其对应的技术水平和施工要求越高,实际造价值也越大;
铝质电缆造价水平低于铜质电缆;
电缆芯截面积越大,其造价成本越高;
电缆敷设长度与电缆综合价格和造价水平成正相关关系;
电缆终端头数量、电缆中间接头数量、电缆桥架数量和基础钢筋数量越多,实际造价值越大;
人力运距、汽车运距和土石方的总量也会影响造价水平高低;
电缆沟敷设长度、顶管敷设长度和排管敷设长度会影响实际工程中人工、材料和机械的成本,进而影响工程造价成本;
不同地形的工程造价成本不同(如工程施工途经山地、平原、高山、丘陵等不同地形),不同的地质条件(如工程施工途经冻土、普通土、坚土、松砂石等不同地质),造成线路施工中人材机等费用不同,造价水平也会受到影响;
工程实际造价值也会受到建设场地征用及清理费的影响,线路施工补偿等费用越高,电缆线路工程造价水平就越高。

2.1 灰色关联分析

灰色关联分析(Grey Relational Analysis,GRA)可以计算不同的造价影响因素和工程实际造价值之间的关联系数,来反映二者的关联程度,通常用于分析各个影响因素对结果的影响程度,通过灰关联分析筛选出最主要的造价影响因素,其分析如下。

1)确定比较序列和参考序列。

比较序列和参考序列如式(1)所示。

式中:Xi为比较序列,在本文中为第i个配电网电缆线路工程中的造价影响因素;
Xi(j)为第i个配电网电缆线路工程中第j个造价影响因素;
Yi为参考序列,在本文中为第i个配电网电缆线路工程实际造价值;
Yi(j)为第i个配电网电缆线路工程中第j个项目的实际造价值;
m为配电网电缆线路工程总数;
n为造价影响因素总数。

2)序列无量纲化处理。

由于序列中不同影响因素量纲差异较大,无法准确比较,因此,在进行造价影响因素的灰色关联分析时,须进行无量纲化处理,如式(2)所示。

式中:X′i(j)为无量纲化之后的比较序列的值;
Y′i(j)为无量纲化之后的参考序列的值。

3)计算参考序列与比较序列的差值。

计算参考序列与比较序列的差值如式(3)所示。

式中:k为结构风险系数;
Δij(k)为参考序列与比较序列的差值,i=1,2,…,m,j=1,2,…,n;
G为两序列极差最大值;
H为两序列极差最小值。

4)计算灰色关联系数。灰色关联系数为

式中:εij为灰色关联系数;
δ为分辨系数,本文取0.5。

5)计算灰色关联度。

灰色关联度为

2.2 最小二乘支持向量机算法

最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)是对标准支持向量机的一种重要改进,其通过将支持向量机中的不等式约束改为等式约束,避免了求解复杂的二次规划问题,在计算过程中能加快预测模型的训练速度和提高预测精度,具体实现过程如下。

首先在高维特征空间中,将变量(xi,yi),通过非线性映射函数ζ(x)进行转换,其中xi为第i个配电网电缆线路工程的造价影响因素,即模型的输入向量,yi为第i个配电网电缆线路工程实际造价值,即模型的输出向量;
建立线性回归函数为

式中:ζ(x)为非线性映射函数;
λ为权值向量;
w为偏置项。

其次根据结构风险最小化原则,选择损失函数为误差的二次项,LSSVM问题可表示为:

式中:β和b为算法参数;
C为惩罚因子;
ei为第i个样本预测值与真实值间的误差。

然后对目标函数建立拉格朗日等式如式(9)所示。

式中:θ为拉格朗日乘子,θ∈R。

最后对LSSVM 函数中的各变量求偏导,从而得到配电网电缆线路工程造价LSSVM 预测函数如式(10)所示。

式中:h(x)为配电网电缆线路工程造价LSSVM 预测函数;
K(x,xi)为核函数;
φ为径向基核函数参数;
x为工程造价影响因素。

2.3 交叉验证与网格搜索算法

2.3.1 交叉验证

交叉验证(Cross Validation,CV)是一种验证分类器性能的统计分析方法。本文运用s折十字交叉验证法(s-fold Cross Validation)进行参数优化,下文将s折十字交叉验证法简写为s-fold-CV,其基本原理是将配电网电缆线路工程造价数据先均匀分割成s份,选其中s-1 份为训练数据去建立模型,留下最后一份数据做测试,可得到一个分类准确率。重复上述步骤可得到s个模型,依次将s份不同的测试数据输入模型可得到s个分类准确率,将s个分类准确率取平均数作为最终的分类准确率。

2.3.2 网格搜索算法

网格搜索可以在特定的空间范围内将最小二乘支持向量机模型中的惩罚因子C和核函数宽度g构成的参数空间划分为若干长短相同的网格,网格中每个点都代表一对参数,依次遍历网格中的每一个点并计算其对应模型的均方误差值,最后通过对比找出最优参数组合。

本文运用网格搜索和交叉验证算法进行最小二乘支持向量机模型自学习参数寻优,在特定的网格范围内使(C,g)遍历所有取值,并用s-fold-CV 求每组参数对应的分类准确率,将最高数值作为(C,g)取值,最终获得网格中全局最优解。具体步骤如下:

1)网格搜索参数组取值。对于初始搜索区间(a,b),取网格点为参数对[C,g],其中C=ea,g=eb。

2)利用s-fold 划分数据集。将配电网电缆线路工程造价数据训练集等分成s个子集,每次以任意一个子集作为测试数据,其余s-1份作为训练数据。

3)确定最优参数组。遍历网格搜索得到的所有参数组,运用s-fold-CV 计算训练模型的均方误差并对比,取使均方误差最小的参数组取值为最优参数并更新最小二乘支持向量机预测模型。

2.4 GRA-CV-LSSVM 组合预测算法及实现

本研究将GRA算法优化选择重要造价影响因素的能力、CV和网格搜索算法对LSSVM中参数C和g的全局寻优能力、LSSVM解决小样本及非线性等问题的优势结合在一起,构建GRA-CV-LSSVM配电网电缆线路工程造价预测模型,构建流程如下图1所示。

图1 基于GRA-CV-LSSVM 的配电网电缆线路工程造价组合预测模型

2.5 预测模型评价方法

为了验证GRA-CV-LSSVM 模型的预测效果,本文运用均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)两个评价指标对各造价预测模型的优劣性进行评价,如式(11)、式(12)所示。

式中:zi为配电网电缆线路工程造价实际值;
z′i为造价预测值;
v为配电网电缆线路工程总数。

3.1 数据样本选取与数据预处理

从某电力公司近年来已完工项目中随机选取400 组配电网电缆线路工程造价数据对造价预测模型进行训练和测试,其中定性指标数据有2 400 条,其余5 200 条数据为定量指标数据,用320 组工程数据进行训练,其余80 组工程数据进行测试。首先对定性指标进行量化处理:如电压等级、电缆材质、建设性质、地形类型、地质类型等,利用数字标识进行代替,如在电压等级10 kV取值为1,0.4 kV取值为2;
其他定性变量同理进行处理。对于工程中若有同一变量不同类别的数据,则采取加权平均的方式进行取值,转化过的样本数据如表1所示。

表1 配电网电缆线路工程样本数据1

3.2 基于灰色关联分析的影响因素筛选结果

结合现有文献中针对灰色关联度阈值的研究,并考虑配电网电缆线路工程的造价影响因素的特点,初步设定将灰色关联度在0.75 以上的13 个配电网电缆线路工程造价影响因素确定为造价主要影响因素,并作为CV-LSSVM 预测模型的输入变量,根据式(1)—式(5)计算灰关联度的结果如图2所示。

图2 造价影响因素灰关联分析

由图2 可以看出,灰色关联度在0.75 以上的配电网电缆线路工程造价影响因素有电缆敷设总长度、电缆材质、电缆综合价格、电缆终端头数量、电压等级、基础钢筋数量、地形条件、地质类型、电缆中间接头数量、汽车运距总量、电缆桥架数量、建设性质、建设场地征用及清理费等13 个重要造价影响因素,本文在LSSVM 模型中选取这13 个造价影响因素作为预测模型的输入变量。

3.3 基于交叉验证与网格搜索的参数寻优结果

采用网格搜索和交叉验证法对(C,g)参数进行寻优。设定C和g的范围,令C∈[2-8,28],g∈[2-10,210],C和g都选取0.05 作为其步长,取k=10 代入k-fold-CV 中进行十字交叉验证。LSSVM 参数寻优的结果见图3 所示,由图3 可以得出最佳参数组合C=128.18,g=0.156 73。

图3 LSSVM参数选择的三维视图

3.4 预测结果分析

将最优参数组合C=128.18,g=0.156 73 代入到LSSVM 模型中,对训练样本中的工程造价进行预测,达到预测精度之后,再对模型的预测拟合结果进行检验,通过可视化绘图输出训练样本和测试样本的拟合结果如图4所示。

图4 训练样本及测试样本拟合预测结果

由图4 可知,在灰关联分析筛选出重要造价影响因素后,利用网格搜索和交叉验证进行寻优,对LSSVM 建模来训练样本,工程造价预测值与实测值贴近,训练和测试效果理想。

为进一步测试GRA-CV-LSSVM 模型的预测效果,分别进行两种不同情景下的造价预测效果的对比。情景1:利用相同的测试样本数据分别对未经过GRA 选取重要造价影响因素,未利用网格搜索与交叉验证CV 算法进行参数寻优的LSSVM 模型进行预测。情景2:同样利用相同的测试样本数据分别与主成分分析法(Principal Component Analysis,PCA)、遗传算法(Genetic Algorithm,GA)、人工神经网络算法(Bank Propagation,BP)以及粒子群算法(Particle Swarm Optimization,PSO)构成的GRA-BP-LSSVM 模型、PCA-BP-LSSVM模型等其他组合造价模型进行对比。两情景下的预测效果如图5(a)和图5(b)所示,RMSE和MAPE的对比结果分别如图5(c)和图5(d)所示。

图5 两种不同情景下各模型预测结果曲线及评价结果对比

由图5(a)和(b)可知,情景1 中各预测模型优劣效果依次为:GRA-CV-LSSVM 模型>CV-LSSVM 模型>GRA-LSSVM 模型>LSSVM 模型;
情景2 中各模型的优劣顺序依次为:GRA-CV-LSSVM 模型>PCA-PSO-LSSVM模型>PCA-BP-LSSVM模型>GRA-BP-LSSVM模型。两种情景下RF-CV-LSSVM 模型的预测效果均为最优。

由图5(c)和(d)可知:两种不同情景下GRA-CVLSSVM 造价预测模型的RMSE 为87 965,MAPE 计算结果为5.68%,相比其他预测模型误差最低。说明本文设计的GRA-CV-LSSVM造价预测模型相较其他预测模型算法可以更有效提升配电网电缆线路工程造价预测的准确性,为配电网电缆线路造价精益化管控提供方法参考。

针对配电网电缆线路工程造价影响因素众多、预测精度不高等问题,提出一种基于大数据与机器学习的配电网电缆线路工程造价组合预测模型。

通过GRA 算法提取重要造价影响因素来作为LSSVM 造价预测模型的输入变量,能够筛选出预测模型中最重要的造价影响因素,提高了预测模型的训练速度。

通过运用交叉验证和网格搜索算法优化LSSVM模型中的参数C和g,提高了LSSVM 模型预测的精度,能得到具有泛化能力好、适应范围广、预测精度高的配电网电缆线路工程造价预测模型。

基于大数据与机器学习的配电网电缆线路工程造价预测模型,相较于其他造价预测模型的预测结果更接近实际值,将为配电网电缆线路工程造价精益化管控提供一种重要手段。

猜你喜欢配电网电缆网格用全等三角形破解网格题中学生数理化·七年级数学人教版(2022年10期)2022-11-11反射的椭圆随机偏微分方程的网格逼近数学年刊A辑(中文版)(2019年3期)2019-10-08海底电缆——将世界连接起来趣味(数学)(2019年12期)2019-04-13关于城市10kV配电网自动化实施的探讨电子制作(2018年8期)2018-06-26重叠网格装配中的一种改进ADT搜索方法北京航空航天大学学报(2017年6期)2017-11-23高温超导电缆中国科技信息(2016年6期)2016-08-31基于曲面展开的自由曲面网格划分浙江大学学报(工学版)(2016年10期)2016-06-05基于IEC61850的配电网数据传输保护机制电测与仪表(2016年5期)2016-04-22一场配电网改造的攻坚战——信阳供电公司加快推进配电网改造略记河南电力(2016年5期)2016-02-06配电网不止一步的跨越河南电力(2016年5期)2016-02-06

推荐访问:工程造价 机器 预测