基于机器学习模型的浙江省居民个人收入预测研究*

□王 立 谷晓丽 徐 璐

“扩中提低”是浙江高质量发展建设共同富裕示范区实施方案中最具标志性,也是群众最为关注的问题。为实现以中等收入群体为主体的橄榄型社会结构,浙江省提出以九类群体为重点开展“扩中提低”行动方案。科学确定“扩中提低”重点对象,精准识别“扩中提低”对象特征,从微观层面对居民个体收入进行研究是基本落脚点。

本研究具有三个层面的意义:在战略价值上,共同富裕是社会主义的本质要求,是人民群众的共同期盼。通过突破传统抽样调查方法的局限性,科学确定“扩中提低”范围,可以为职能部门制定差别化收入分配激励政策提供服务。在科研价值上,从数据和方法上对传统研究进行创新,基于大数据环境分析共同富裕发展演变的复杂性机制,揭示共同富裕基本规律,模拟推演分配政策改革的效果,将关于共同富裕的研究推向国际一流水平。在应用价值上,通过建立科学的评价标准和监测体系掌握全国居民收入水平增长、生活质量的稳步提升和收入分配状况相关数据,将有助于准确反映全体人民共同富裕实现程度,更加准确监测评价共同富裕的推进进程。

从目前研究来看,国内外学者关于居民收入水平预测进行了不同程度的研究。由于较难获取个人的收入、财产和个性化特征,研究中普遍使用基本人口特征,比如将年龄、职业、性别、工龄等作为影响因素进行预测,对收入波动的解释力度较弱(Dominitz,1998;Das and van Soest,1999)。不过,在针对 大学毕业生收入的预测研究中,学者发现在校学生的GPA 对其毕业起始收入产生决定性影响(Thomas,2000;
Smart,1998;
Chia and Miller,2008)。近年来,随着人工智能和大数据的发展,众多学者开始利用机器学习模型提高变量对收入水平与贫困程度的预测能力。Kibekbaev,and Duman,(2016) 基于5 个数据集对比分析线性与非线性回归方法发现,线性与非线性模型的组合在预测收入上效果更优。Li et al(2021)基于人口与健康抽样调 查(DHS)数据,发现通过XGBoost 模型筛选的变量可以较好地区分农户贫困程度。郭鑫(2019)在居民收入预测研究中提出在SVM 和KNN 组合算法上再根据KNN 样本点的选取规则的不同分成KSVM1 和KSVM2 两种算法,通过实验对比,两种新算法都比单纯使用SVM 算法分类准确率上有所提高。同时,在数据选取上,近些年研究尝试结合遥感数据,比如天气、气候与植被数据、土壤和作物生产情况、日间或夜间卫星影像等。Jean et al.(2016) 首次应用深度学习方法,基于日间卫星影像数据,结合迁移学习搭建卷积神经网络,成功捕获到55%-75%的资产财富的波动。Yeh et al.(2020) 指出由于夜晚灯光数据在很多样本地区(特别是贫困地区)的分布并不均,且波动程度有限,因此利用日间卫星传感数据预测资产收入情况。后续研究将从遥感数据引入更多的指标来实现更为精准的预测,比如针对农户收入预测中,NDVI和solar -induced chlorophyll fluorescence (SIF) 表现出良好的显著性(Tang et al.,2021)。

本文选取浙江省常住人口作为研究对象,数据主要来自浙江省第七次人口普查(长表)信息和其他厅局信息。考虑到18 岁以下和60岁以上群体以及在校学生群体收入来源不稳定,研究主要针对18-60岁之间人群,一共包含3571425 条记录。

依据度量的维度,划分为人员、家庭和环境三个维度:(1)人员维度包含基本信息(性别、人员类型等)、教育程度、婚育情况、居住信息(居住地行政区划代码)、工作情况(是否缴纳社会保险、上周工作时长等)、资产情况(个人拥有不动产价值、小汽车价值等);
(2)家庭维度包含资产情况、家庭维度(家庭男性占比、小孩占比、家庭最高学历等);
(3)环境维度包含行业情况(行业代码、行业平均工资)、地区情况(所在区域人均GDP)。

针对缺失值数据,从不同维度方面采用不同空值填充方式,如:类别型字段,常采用众数填充;
数值型字段,采用均值填充较多;
以家庭为维度的字段,采用家庭维度的字段度量值填充空值。

基于以上数据,本研究运用LightGBM 模型对浙江省居民收入进行预测。考虑到训练集样本各类型人群分布不均衡问题,研究运用SMOTE 算法人工生成样本予以修正。

(一)算法简介

1.LightGBM 算法。LightGBM 主要解决了XGBoost 通过预排序寻找特征最佳分裂点占用空间大的问题。其中,寻找最佳分裂点的算法复杂度可以表示为:

复杂度=特征数量×特征分类点的数量×样本数量

复杂度的表达形式决定了LightGBM 主要从特征数量、特征分裂点的数量和样本数量三个角度进行优化:为减少特征分裂点的数量和更加高效寻找最佳特征分裂点,LightGBM 采用Histogram直方图的算法寻找最佳特征分裂点。直方图算法可以很大程度上降低内存消耗,降低数据分割的复杂度。为了减少样本数量,LightGBM 采用GOSS 算法将训练过程中大部分权重较小的样本剔除,仅对剩余样本数据计算信息增益。为减少特征数量,LightGBM采用EFB算法通过将两个互斥的特征捆绑在一起合为一个特征来降低特征的维度,从而加速模型训练。

2.SMOTE算法。SMOTE(synthetic minority oversampling technique) 是一种综合采样人工合成数据算法,用于解决数据类别不平衡问题。传统的处理不平衡数据集的采样方法主要有随机欠采样和随机过采样。随机欠采样是指随机地移除部分多数类样本,但该方法可能会丢失部分有用的信息,导致分类器性能下降。随机过采样则是随机的复制少数类样本,使得数据的类分布平衡,但该方法由于反复复制少数类样本,增加了分类模型过拟合的可能性。为解决上述问题,提出了SMOTE 方法,该方法通过在数据中增加人工合成的少数类样本使类分布平衡,降低了过拟合的可能性,提高了分类器在测试集上的泛化性能。

(二)变量筛选

研究共选取39 个原生变量(数值型变量28 个,类别型变量11个),经过编码处理,共有106 个变量作为模型的初始输入。筛选分为三个步骤:(1)首先观察样本的分布情况,并删除样本分布极不均衡的变量。该过程删除了三个变量:住房类型、户别和是否识字。(2)进而根据变量相关性进行筛选。通过计算相关系数,筛选出相关性大于0.8 的两变量(共8 对),并保留其中一个,其删除与保留情况见表1。(3)最后删除对模型预测结果无贡献或者低贡献的变量,其中删除了57 个重要性低于0.8 的变量,最终49 个变量得以保留,并最终用于模型训练。

表1 变量相关性检验

(三)模型训练

研究首先运用SMOTE 算法将类别分布不均衡的原生样本人工合成样本,进而随机划分为训练集和验证集,运用LightGBM 算法对验证集进行预测分析。从回归指标对比来看,LightGBM 算法的RMSE(均方根误差)、MAE(平均绝对误差)、MAPE(平均绝对百分比误差)和R-Square(R2拟合优度)分别为21026.57、13323.85、12.92、0.59,SMOTE 与LightGBM组合算法对应值为 28402.55、17024.50、17.28、0.87,显然通过SMOTE算法重采样处理 后,R2提升了47.5%,这意味着模型拟合程度得到大幅度提升。因此,模型最终选用SMOTE 与LightGBM 算法结合进行训练。

最终,模型输出重要性排名前21 个变量:人均GDP(0.1124)①括号中数值代表重要性程度。、职业平均工资(0.0996)、年龄(0.0870)、人员类型(0.0505)、行业平均工资(0.0402)、个人均有不动产面积(0.0337)、家庭不动产面积(0.0318)、个人拥有不动产价值(0.0260)、家庭人均拥有汽车价值(0.0254)、家庭人均拥有汽车数量(0.0253)、家庭男性比例(0.0240)、家庭最高教育水平(0.0229)、家庭中低教育人员占比(0.0228)、家庭拥有汽车价值(0.0223)、个人拥有汽车总价(0.0168)、家庭规模(0.0164)、是否缴纳养老保险(0.0144)、家庭人均不动产数量(0.0141)、是否居住在杭州(0.0137)、行业是否属于建筑业(0.0117)、家庭小孩占比(0.0114)。

(一)居民收入分布总体画像

经模型预测,浙江省居民人均收入为61892.49 元,收入主要集中在0-10 万元,占比为76.28%。从人员类型分布来看,个体工商户、低收入农民、农民工、企事业单位人均可支配收入水平分别为12.63万元,1.99万元,10.38万元和8.66万元。浙江省各地级市人群分布与对应的平均收入如图1 所示,其中杭州市居民平均收入最高,为6.9 万元;
嘉兴市、宁波市、金华市紧随其后,为6.4 万元;
而衢州、丽水市居民平均收入偏低,为4.8 万元。

图1 居民平均收入区域分布

从预测结果来看,金华市平均收入偏高,初步分析是由于抽样调查数据(训练集)偏高导致的。经测算,金华市的个体工商户和农民工两类人群平均收入偏高,所以在最终模型预测过程中会拉高金华市平均收入的预测值。

(二)居民收入影响因素分析

模型挖掘出影响居民收入的重要因素包括:(1)所在区域的人均GDP。区域人均GDP 与居民收入成正比,是衡量一个地区的经济实力和人民富裕程度的一个重要指标。(2)年龄与初婚年龄。不同年龄及初婚年龄的人群,收入水平也会存在很大差异,是影响收入的重要因素。(3)行业薪资。随着居民的收入水平差距不断扩大,行业薪资水平差距对居民收入水平差距的影响日渐凸显出来。(4)个人拥有不动产总面积与家庭拥有不动产总面积。人均收入不断增长,意味着个人拥有不动产价值和家庭拥有不动产价值的积累。(5)上周工作时长。很多企业项目按期交付需要企业人员有偿加班,这部分额外收入也就算入人员每月收入来源之一。(6)家庭人均拥有汽车数量与个人拥有汽车总价值。居民购买力的不断提高,为汽车行业的快速发展提供了良好的外部环境条件和巨大的市场空间。(7)家庭中低学历与家庭最高学历。家庭中低学历人员占比是一个家庭中教育文化的基准水平线,可以从侧面反映出家庭人均收入水平,而家庭最高学历可以预估出一个家庭中成员最高收入水平,所以家庭成员的教育水平也是收入的影响因素。

(一)主要研究结论

本研究基于浙江省统计局“全面覆盖+精准画像”数据库,从人员、家庭、社会环境三个层面构建浙江省居民收入预测指标体系,并结合抽样调查数据形成部分群体收入标签,构建浙江省居民年收入预测分析模型。进而运用机器学习算法利用有限样本标签对常住人口个体收入进行预测,对浙江省居民收入总体分布、群体画像和影响因素分析提供科学依据。研究主要得出以下结论:

一是城市的高质量发展是决定区域居民收入水平的关键因素。通过研究的特征重要性排序分析,研究证实区域发展水平(人均GDP)是影响程度最高的因素。二是居民个人与家庭特征进一步决定了个体收入差距。研究发现个人和家庭层面的特征,包括行业、职业、年龄和初婚年龄、不动产与汽车拥有价值、上周工作时长、家庭整体学历水平等是预测收入的重要影响因素。三是研究针对部分特征存在缺失严重、分布不均衡、变量相关性高、重要程度低等问题,进行逐一筛选,最终获得高质量、低冗余特征进行模型构建;
研究针对训练集标签在人员类型分布不均衡的问题,运用SMOTE 算法进行重采样,通过人工生成均衡样本进行训练;
研究考虑到特征与收入的非线性关系,同时数据量大的特点,选择机器学习集成算法中轻量级梯度提升决策树算法进行预测分析,最终得到预测精度较高的居民收入预测模型。

(二)对策与建议

1.人均GDP 是地区经济社会发展程度的客观反映,人均GDP 对居民个人收入水平的高影响力意味着加快城市高质量发展是提高居民收入,提升居民生活水平的主要路径。

2.研究发现居民行业、职业、工作时长等关键信息在居民记录中仍存在缺失,建议加强对居民收支情况的统计,完善统计调查制度,提高调查覆盖面,以获得对全量居民收入更为精准的预测。

猜你喜欢 居民收入变量样本 中国整体与区域居民收入周期的协同效应分析社会科学战线(2022年7期)2022-08-26新疆城镇化与农村居民收入实证分析安徽农业科学(2022年6期)2022-04-11抓住不变量解题小学生学习指导(高年级)(2021年4期)2021-04-29用样本估计总体复习点拨中学生数理化(高中版.高一使用)(2021年2期)2021-03-19居民收入快速增长——“数说陕西70年”之居民收入当代陕西(2019年17期)2019-10-08我国农村居民收入与消费关系及消费习惯转变智富时代(2019年4期)2019-06-01我国农村居民收入与消费关系及消费习惯转变智富时代(2019年4期)2019-06-01规划·样本领导决策信息(2018年16期)2018-09-27随机微分方程的样本Lyapunov二次型估计数学学习与研究(2017年3期)2017-03-09分离变量法:常见的通性通法新高考·高二数学(2014年7期)2014-09-18

推荐访问:浙江省 模型 居民