2023年12月22日发(作者:锋范经典发动机真厉害)

ValueEngineering·107·

基于机器学习的车辆价格预测研究ResearchonVehiclePricePredictionBasedonMachineLearning李博涵LIBo-han重庆400074)(重庆交通大学机电与车辆工程学院,(SchoolofElectromechanicalandVehicleEngineering,ChongqingJiaotongUniversity,Chongqing400074,China)因此,合理对车辆价格与此同时,车辆的交易市场也在逐步扩大。摘要院随着社会的进步与发展,我国机动车的保有量逐步上升,最进行评估成为车辆交易市场最值得关注的事情。文章通过对不同车型的几类特征使用热力图进行相关性分析并且删除冗余特征,该模型具有较高的精确度,通过一系列量化指标得出预测效果最好的模型。实验结果表明,后用四种机器学习模型对数据进行预测,同时也能为二手车交易市场提供一定参考。能够有效预测车辆价格,Abstract:Withtheprogressanddevelopmentofsociety,thenumberofmotorvehiclesinChinaisgraduallyrising,andatthesametime,ore,areasonableevaluationofthevehicpaper,severaltypesoffeaturesofdifferentvehiclesareanalyy,fourmachinelearningmodelsareusedtopredictthedata,andthemodelwiththebestperimentalresultsshowthatthemodelhasahighaccuracyandcaneffectivelypredictthevehicleprice,andalsoprovidesomereferenceforthesecond-handcarmarket.关键词院车辆价格;相关性分析;机器学习Keywords:carprice;correlationanalysis;machinelearning中图分类号院TP181文献标识码院A文章编号院1006-4311(2023)01-107-04doi:10.3969/.1006-4311.2023.01.0350引言车辆价格的涨跌一直是当下汽车行业的热议话题,尤对传统汽车市场更是有不小影其是在新能源汽车出现后,很多买家清楚自己需要什么性能的车,响。对于买家来说,但对于这种理想车型的价格并没有一个很好的评估标准。对某些同级别车辆在市场中的价格没有一对于卖家来说,形成了定价困难的局面。也有许多专家和个很好的参照,平台会对车辆价格进行人工预测,但结果不够客观准确。利用采集到的车辆本文基于机器学习以及数据挖掘技术,特征数据,对车辆进行真实合理的价格预测,该方法成本同时,预测结果也能达到较高的精度。低廉且效率较高,1数据描述及预处理文章的数据来自于开放数据平台Kaggle上的“汽车要要要要要要要要要要要要要要要要要要要要要要要(1999-)四川绵阳人,研究方向为机男,硕士,作者简介院李博涵,数据挖掘。器学习、其,该数据共有6020条记录,及其价格数据”13个特征,里程等车辆基本属性,整个发动机排量,中包括车辆名称,的分析和建模过程都是在python3.9环境中进行,文章采用的编译器是pycharm。数据的特征汇总如表1所示。Year,其中,将车辆的Price设置为模型的标签,Kilometers_Driven,Mileage,Engine,Power,Seats属于数字型特征,但其中一部分数据包含有字符串在内,所以需要对Year这列特征,调用datetime先将数字与字符串分离,作为新的特征工具包,用当前时间减去汽车生产的年份,Location,Fuel,Type,Transmission,代替这列。Name,Owner_Type属于分类列,考虑到汽车的价格可能和制造提取出制造商,先将Name这一列通过空格分隔,商有关,将汽车制造商单独作为一个分类特征,并且删除原先的文Name列。分类特征在使用之前应将其转换为虚拟变量,章将用特征编码的方式对分类列进行处理,考虑到且已经有Price作为标签,直接New_Price中缺失值过多,西建筑,2008(06):222-224.管理研究,2006(01):49.2011.陈向东.基于关键路径的项目进度挣值分析[J].山[5]方志凉,该结论可为工程成本预测管理预测结果有更高的准确性,提供有效参考。参考文献院[1]VianaV.,arnedvaluemanagementindexes[6]盛新江.浅论带关键路径的挣值法评价方法[J].技术经济与[7]庄曾.考虑质量因素的模糊挣值方法研究[D].天津大学,asteamdevelopmentfactorandacompefactorandacompensationtool[J].Costengineering,2005,47(5):20-25.[2]KimE.,WellsW.G.,foreffectiveimplementationofEarnedValueManagementmethodology[J].InternationalJournalofProjectManagement,2003,21(5).[3]LipkeW.,tionofprojectoutcome.2009,27(4):400-407.[8]欧阳红祥,李欣,陈伟伟.基于灰色Verhulst和EVM模型的项目进度—成本绩效预测研究[J].工程管理学报,2013,27[9]杨小平,韩金伟.项目管理的质量控制———质量挣值[J].管(03):71-75.[4]赵峰.基于关键路径的挣值分析法的优化研究[J].工业技术经济,2007(06):59-63.理观察,2009(09):28-30.学,2010.[10]熊琴琴.项目挣值管理理论与方法改进研究[D].南开大Copyright?博看网. All Rights Reserved.

·108·价值工程表1车辆特征汇总表LocationKilometers_DrivenFuel_TypeTransmissionOwner_TypeMileageEnginePowerSeatsNew_PricePriceYearName车辆正在出售或可供购买的位置车辆的年份或版本(以公里为单位)车辆目前为止内行驶的总公里数电动、压缩天然气、液化石油气)车辆使用的燃料类型(汽油、柴油、(自动/手动)车辆使用的变速器类型该车辆有几任拥有者以公里/千克或公里/千克为单位汽车公司提供的标准里程,(CC)车辆发动机的排量车辆马力车辆座位数车辆最新价格车辆当前售价车辆品牌和名称

删除这列无用特征。2相关性分析及可视化seaborn是一个基于matplotlib开发的一个第三方可可视化库,其中包括的一个函数p()热力图,其中相关性以用于展示数据中几组特征的相关系数矩阵,用两个变量之间的的强弱可以用皮尔逊相关系数来衡量,公式如下式协方差和标准差的商来表示皮尔逊相关系数,所示:线性回归是回归算法中最基础的一对车辆价格进行预测,各类特征与种算法,通过对数据中的不同特征添加权重,在最后加上一个偏置值,通过损失函数相对应的权重相乘,来判断预测值和真实值的拟合程度,数据集共有多个特征,所以用到的是多元线性回归模型[2]。主要公式如下式所示:(2)其中茁n是权重,b为偏置值。支持向量回归属于支持向量机用于回归算法的分支,而支持向量回归用于支持向量机主要用于解决分类问题,支持向量机需要做的一个目标任务找到一解决分类问题。(1)条最佳拟合线,使靠超平面最近的样本点之间的间隔最籽表示相关系数,cov表示协方差,E表示数大,公式中,而支持向量回归则是使靠超平面最远的样本点之间的学期望。该公式的作用就是表现出两个变量之间的线性关间隔最大,最佳拟合线是点数最多的超平面。其优点是在系强弱,即相关系数越接近1,则说明两个变量之间相关样本量不是海量数据的时候,泛化能力强,预测准确率高,越接近-1,性越强,则说明两个变量之间负相关性越强,越带松弛变量的SVR的目标函数如下式所示:接近0,则说明两个变量基本不具有线性相关性[1]。热力图(3)通过热力图可以将所有数字变量之间的相关性汇总展示,Xgboost是一个集成类算法,基于提升算法做了改进从而判断哪些指标直观地看到所给数值之间的关系强弱,针对传统GBDT算法做了很多细且和决策树有一定联系,更值得去研究,为训练模型选择特征作为变量做好准备。正则化、切分点查找算法优化、节的提高,包括损失函数、车辆不同特征的相关性热力图如图1所示。其基本原理相当于在子稀疏感知算法、并行化算法设计,由图1可以看出Engine,Power和Price的正相关性成为新的模型。假设有t轮树的基础上层层添加新的树,发动机排量和马力往往也是人们最大,结合实际情况看,即t颗树,那么第t+1轮的模型如下式所示:的预测模型,评价一辆车性能好坏的重要指标,Mileage和Price的负相(4)关性最大,相对来说大排量大马力的车辆油耗水平也会很每升油能够行驶的公里数也是一个油耗指标,所以一高,代表其中是i个样本第t轮的模型预测函数,f()txi车辆新加入的表达式,油耗越高,般情况下,每升油能够行驶的公里数越少,而加入的这个新的表达式应该保证能达的价格也会越高。Kilometers_Driven和Seats对于车辆价到使结果误差更小的要求[3]。格几乎没有太大影响,但考虑到数据中也包含有二手车信相当于将多个决策树随机森林也是一个集成类算法,所以先保留这两个特征。息,集成到一起,而决策树本身就是一个算法,它将需要分析3模型构建及预测有放回的随机从训练集中选取的特征通过一个筛选流程,车辆价格预测属于回归类型的模型,文章采用线性回样本,同时也随机选取数据的部分特征,每棵决策树使用归,支持向量回归,xgboost,随机森林共四类机器学习模型的样本和特征都不一样,随机训练出来的结果也不一样,Copyright?博看网. All Rights Reserved.

ValueEngineering·109·

图1车辆特征的相关性热力图表2四个模型的四种指标线性回归MAERMSEMAPER22.9715.2830.6010.809支持向量回归2.0494.8220.2350.520xgboost1.6853.6120.2450.845随机森林1.6643.5840.2400.883表3优化前后结果对比MAE调整参数前调整参数后1.6641.553RMSE3.5843.472MAPE0.2400.217R方值0.8830.920其结果是由这个随机森林里面森林把不同的决策树结合,随机森林的训练效率高,更适合高的每一棵树共同决定,维数据的预测[4]。文章筛选的评价指标主要有四种,平均绝对误差(RMSE)和(MAE)、均方根误差平均百分比误差(MAPE)选拟合优度(R2),通过对比以上四个模型的这四种指标,出预测结果较为准确的模型[5]。4个模型在测试集上表现的性能指标如表2所示。所从表2可以看出随机森林的的四项指标是最好的,以选择随机森林作为最后的预测模型,n_estimators和max_depth是随机森林算法中两大最重要的参数,n_estimators代表的含义是森林中树木的数量,即基评估这个参数对随机森林模型的精确性影响是单调器的数量。的,n_estimators越大,模型的预测结果也会变得越精确。在但是相应的,不论什么模型都有自己的决策边界,n_estimators达到一定的程度之后,该模型的精确性不会并且,再上升很多或开始波动,n_estimators越大,需要的训练的时间也会越来越长。对于这计算量和内存也越大,需要平衡两头去调整,个参数,max_depth表示树的最大深度[3]。最初设置的n_estimators=200,max_depth=8。但为了确保可以找到最佳结果,将RMSE值设置为循环目标参数,为了找出RMSE的最小值,通过网格搜索遍历,n_estimators的取值范围设置为从10到500,max_depth的图2为遍历的结果。取值范围设置为1到16,Copyright?博看网. All Rights Reserved.

·110·价值工程

图2网格搜索调参图图3预测值和真实值对比图在第59次循环时,通过图2可以知道,RMSE达到最在小值3.472,通过先前设置的循环参数简单计算,n_estimators为100,max_depth为9,可以使得RMSE达到该值,重新设定随机森林的两个参数为遍历后得到的这两再max_depth设置为9,个值,将n_estimators设置为100,将新的结果与先前得到范围内最好的结果,次训练模型,如表3所示。最对比,通过网格搜索调整参数确实让四通过表3可以看出,个指标都有一定能够程度的优化,可以认为n_estimators能够为100,max_depth为9是随机森林模型最好的参数,让模型的预测达到最佳。下面通过该模型对数据进行训练,通过折线图可视对比真实值和预测值之间的误差,化,如图3所示。预测值和真实值的通过折线图可以更加直观地看出,说明该预测模型有一定参考价值。走势大致是相同的,4结语对数据进行预处理分析变量文章首先观察数据类型,相关性等操作,随后用四种机器学习模型对处理好的数据选择效进行训练,从四个模型的四个指标判断模型优劣,找到范围内最合适的参数,改进果最好的模型进行调参,平均百分比误差仅模型,最终使得均方根误差仅为3.472,文章为0.21%,说明文章建立的模型具有较高的准确性,为车辆交的结果可以给有车辆需求的买家提供购买参照,相关部门可以根据车易市场提供一些进价和出价的引导,辆某些重要特征的数值,对车辆的定价进行更合理的评同时也能为二手车市场提供价格参考。估,等.基于皮尔逊相关系数的光伏电站金锋,冬雷,[1]纪德洋,数据修复[J].中国电机工程学报,2022,42(04):1514-1523.[2]戴源,谢继征,袁静,等.紫外光诱导荧光分析仪结合多元线性回归算法在城市河流常规污染指标监测中的应用[J].环境监控与预警,2021,13(02):29-34.[3]王献志,曾四鸣,周雪青,等.基于XGBoost联合模型的光伏发电功率预测[J].太阳能学报,2022,43(04):236-242.[4]闫广华,陈曦,张云.基于随机森林模型的东北地区收缩城市分布格局及影响因素研究[J].地理科学,2021,41(05):880-889.参考文献院[5]李彬,杜丁香,王兴国,等.基于平均绝对误差的海上风电经柔直送出系统交流海缆纵联保护[J].电测与仪表,2022,59(06):ght?博看网. All Rights Reserved.

更多推荐

车辆,模型,预测,特征,价格,数据