新款本田思域图片-2022款宝马730落地价多少
2023年11月21日发(作者:英朗2020款报价及图片)
基于机器学习对电动汽车价格预测
欧阳汉廖文琪田秋红
贵州贵阳贵州财经大学大数据统计学院
550025)(
摘要使用比赛数据通过挖掘原始数据并结合背景知识创建了个特征使用随机森林和模型对特征重要性排名
:,7,XGBoost
前十五的特征中共同出现的特征进行选取得到个特征然后建立集成学习类神经网络等模型选取三组数据集分别
,9;KNN、、,
建立模型
,Adam,96.6%。
最终选取了筛选后的数据集和使用优化器的神经网络作为最终的价格预测模型其准确率达到了
关键词电动汽车特征工程集成学习神经网络
:;;KNN;;
一引言
、
随着中国经济的快速发展我国汽车工业将面临未来的大变是否支持蓝牙是否支持触摸屏外观类包括移动深度
,、;(cm)、
革
,。。
汽车行业的良性发展改善消费经济结构同时中国新能源汽车重量
在全球的占比超过
44%,,,(mAh)
新能源的出现使得汽车行业稳步前进其对电动汽车来说电池总能量和电池的个数决定了其
中电动汽车消费市场潜力巨大续航里程
,。,,
在汽车行业发挥着重要作用对于而汽车的重量会极大影响电动汽车每公里的能耗这两
电动汽车价格的影响因素个对消费者来说
,HasishiIshitani(2007),,
认为电动汽车研都是必须考虑的属性而充电速度是能够提升消
发费者后续体验的重要属性
、;,
企业组织关系对新能源汽车发展体系的建立有益前置摄像头和主要摄像头的配置是属
[1]
是否支持
4G、3G、SIM、Wi-Fi、
是否支持是否支持双卡是否支持
于电动汽车智能业务方面的属性
,,
主要应用是障碍物识别等对于
普通消费者来讲电动汽车行业发展前景做了预期
,;
这可能是一项非必需属性触摸屏幕是人与电动
汽车智能交互的媒介
,、
其尺寸大小和屏幕分辨率能够大幅影响驾驶市场因素产业化发展因素方面对中国新能源汽车产业发展进行了
者的驾驶体验研究
,,;
对于一般消费者来说也是非必需的属性值得注
意的是取的方法是
,,,Pearson,
支持越多功能的电动汽车其耗电量就越大而越好的处相关系数法和主成分分析法得到有价值的样
理器核心数和处理器执行速度能够通过降低功耗改善其电量消耗问本数据后使用支持向量机模型对电动汽车进行了研究
题
,,,
并且支持更多的功能这对消费者来说也是提升体验的非必
须属性格预测
;(GB),
内存的大小和随机存取储存器个数对电动汽车智并与传统典型燃油车进行了对比
能化性能的影响很大
,,,
内存大小决定着是否能拥有更多功能随机不同品牌的电动汽车有着不同规格的汽车属性和价格本文基
存取储存器大小决定着能否同时运行这些功能的上限于上海财经大学首届研究生工业与金融大数据建模与计算邀请赛的
;
在网络制式
方面
,4G3G,,,
一般能够有了支持的网络对的需求就不会很大没有通过挖掘属性与价格之间的关系创建合适的特征并根
3GWi-Fi
网络就意味着该电动汽车的娱乐软件更新等问题需要
(),,
只包含有屏幕的汽车因此这三种属性一定程度上代表了电动
汽车的智能化程度
,,
对消费者来说是属于提升体验的属性能否支
持蓝牙和双
SIM。
卡也是同样的作用
()
二分类型变量分析
通过查看关于价格等级的标签分布状况发现关于价格的标签基础功能类和外观类三类硬件类包括电池容量
,、。
分类还是较为均衡
,1500,
总共个数据每类标签的数量分布都在
350~400,
之间继续查看每个价格标签下各个分类特征的分布
情况
:、、(GB):
;
黄振邦等
(2007),
对不同种类车型的混合动力电动汽车特点进行研究并对
[2]
;(2012)、
闫兆炜从技术因素
[3]
。,(2020),
在方法研究上李宝胜先对数据进行预处理选
[4]
;
林倩玉
(2019)“”
运用学习曲线的方法对特斯拉和比亚迪的电动汽车价
[5]
。
比赛数据
据所有的特征重要性进行筛选
,
最后建立合适的模型对这批未知价
格电动汽车的价格进行预测
二数据预处理
、
()
一数据描述
本文所使用的数据是比赛数据共有个属性可以将其划分
,20,
为硬件类
(mAh)、、、、
单个电池充电时长前置摄像头像素主要摄像头像素
屏幕高度和宽度像素分辨率高度和宽度处理器核心个数
(cm)、、、
处理器执行速度随机存取储存器内存基础功能类包括
[6]
。
作者简介欧阳汉男贵州贵阳人贵州财经大学大数据统计学院副教授厦门大学经济学博士研究方向数据挖掘
:(1979.8-),,,,,:,
宏观经济模型
;
廖文琪男贵州遵义人贵州财经大学大数据统计学院研究生研究方向数据挖掘经济社会统计
(1996.8-),,,,:、;
田秋红女贵州遵义人硕士研究生贵州财经大学大数据统计学院研究生研究方向数据挖掘经济社会
(1996.7-),,,,,:、
统计
。
204
表不同分类特征在不同价格下的分布情况
1
Price4G3GD-SIMWi-FiBluetoothTscreen
30.5459460.7702700.5216220.5027030.513514
0.486486
20.4854110.7798410.4960210.5092840.4907160.445623
10.5420050.7506780.5176150.5149050.5230350.542005
00.5364580.7656250.4947920.4921880.481771
0.523438
在表中能够观察得到网络支持在各个价位的汽车中都
1,3G,
占据了较大的比例
,75%,3G
全都占据了以上说明网络支持在电
动汽车的普及率比较高
,;4G
可以看作是电动汽车的标准配置配置
的普及率没有
3G,、50%,
高高价车中低价车都占据了以上只有
价位
2,,,2SIM、
没有这是比较奇怪的实际上在价位的双卡支持
蓝牙支持和触屏支持占据的比例都偏低对于双卡的支持和蓝
;SIM
牙的支持
,50%13;Wi-Fi
占据以上的价位都为和的支持在各个
价位占据的比例都在
50%,;
左右相差不是很大而触摸屏更多的出
现于低价车中
,。
在高价位车中占据的比例不到一半
()
三特征构造
由于电池的区间和价格有关因此将电池容量划分为五个等
,,
级
,04,、、、、,
分别是至分别代表低中低中中高高并命名为
电池等级
(Batterycapacitylevel)。
由于缺少电池个数的属性不能构建关于续航里程的特征但
,,
通过电池容量
、,
充电时间和车身重量构建了两个特征一个是电池
充电速率的评估特征
,BAspeed,BA,
表示充电速率为电池容量
Ctime,:
为充电时间具体计算为
BAspeed=BA÷Ctime
另一个是电池固定消耗的评估特征表示车身
,Carconsumption
消耗
,:
具体计算为
Carconsumption=BA÷Vweight
由于处理器的核心个数和处理速度与价格没有明显的线性关
系
,,,Pperformance
选择将其整合成为评估其性能的特征表示处
理器性能
,NOP,Pspeed,
表示处理器核心数表示处理速度具体计
算为
:
Pperformance=NOP*Pspeed
一般说屏幕的尺寸指的是它的对角线距离将已有的屏幕宽度
,
和屏幕长度通过计算得出尺寸数据
,5,0
并划分为个等级分别是
至代表大屏幕中大屏幕中等屏幕
4,(22~30)、(17~21)、(12
~16
)、(7~11)、(2~6cm),size
中小屏幕小屏幕或无屏幕用表
示
,:
具体计算为
Size=(2&Sheight^2+Swidth^2)
√
由于的等级在之上且支持的大多数都支持因
4G3G,4G3G,。
此
,3,02,、KNN、XGBoost、
将网络制式支持划分为等级分别为至代表最高支持随机森林多层感知机等得到训练集准确率测
的网络制式为
4G、3G,net-
和无网络制式支持并命名为网络支持
worksupport
。,
屏幕的分辨率一般也是组合来作为评估屏幕的特征
将划分为个等级分别是至代表高分辨率
5,04,(1600*1200)、
中高分辨率一般分辨率中低分辨率
(1300*800)、(1000*500)、
(700*200)、(700*200),SRlevel。
低分辨率以下并命名为
()
四特征选择
在创建完个特征之后加上原来的个特征想知道哪些特
7,20,
征是真正对价格有着影响的特征
,,XGBoost
因此选择基于的特征
重要性和基于随机森林排序的特征重要性筛选
[7]
,
可以观察到两个
模型的特征重要性分布有相同的特征重要性选择
,
也有着不同的特
征重要性选择
。,
在对具体权重进行对比后发现两个模型对于重要
性排名前五的特征选择只有一个不同
,RAM)、BA、R-
相同的是
width
、Car-consumption;
对于后五位的不重要特征的选择有两个不
同
,3G、4G、Bluetooth。
相同的是
在通过两个模型的特征重要性对比之后决定选取两个模型特
,
征重要性的前十五中都出现的特征作为筛选之后的特征
,
筛选后的
特征为
9,RAM、BA、R-width、R-height、Car-con-
个具体是
sumption
、BAspend、Memory、V-weight、FontCP。
()
五特征重要性分析
筛选之后的特征中有个是原始特征个是创造的特征
,7,2。7
个原始特征中属于硬件类的有个分别是随机存取储存器
,6,
(RAM、(BA)、(R-width)、
电池容量像素分辨率宽度像素分辨
率高度
(R-weight)、(Memory)、
内存前置摄像头像素
(FrontCP),(V-weight)。1500
外观类的是汽车重量说明在个数
据集中
,,
汽车的硬件类属性对于价格的影响是决定性的而基础功
能类的属性在筛选的特征中一个都没有出现
,
外观类的两个特征出
现了一个
,,,
由此得出在市场上硬件属性和外观属性对于价格的
影响更为明显
。,(Car-
创建的特征出现了两个分别是车身消耗
consumption
)(BA-level),,
和充电速率说明对于消费者来说电
动汽车最重要的还是续航能力及影响续航能力的因素
,
它们都对消
费市场有着重要的影响
。
三模型评估与选择
、
为了找到更好的模型对验证集进行预测选取了随机森林
,、
KNN、XGBoost、,
多层感知机等几种模型来进行效果对比为了
验证创建特征和筛选特征是否真的有效
,
还做了三组数据集作
为对比
,ecar,ecarf
表示原始数据集表示创建特征之后的数据
集
,ecarfs,
表示创建特征后进行筛选的数据集将最终模型表现
和数据集表现好的模型和数据集作为最终的模型和数据集
。
在
接下来所有的模型中
,1050450
现将数据集划分为个训练集和
个测试集随机数种子设为使每次数据划分保持稳定并
,1,,
将其标准化
205
试集准确率如表所示
2。
表多种方法结果
2
方法数据集训练集准确率测试集准确率
ecar0.9310.924
KNNecarf0.9310.938
ecarfs0.9310.938
ecar0.8940.893
随机森林
ecarf0.8990.887
ecarfs0.8980.880
ecar0.9990.931
XGBoostecarf0.9950.916
ecarfs10.911
ecar0.9240.178
SGDecarf0.9260.163
ecarfs0.9420.140
ecar0.9240.192
Adamecarf0.9090.204
ecarfs0.9660.096
从表可以看出在使用优化器时每个模型的精准度都
2,SGD,
达到了
92%,0.18,
以上损失函数均小于准确率最高且损失函数
最低的数据集是
ecarfs;Adam,ecarf
在使用优化器时的精准度最
低损失函数最大但的准确率最高达到了损失
、,ecarfs,96.6%,
函数最小
,0.09。,ecarfs、Ad-
为两个优化器综合来看数据集使用
am
优化器的模型准确率最高损失最小它的效果是最好的
、,,Ad-
am
优化器的数据集神经网络准确率和损失函数如图所示
ecarfs1。
206
图神经网络准确率和损失函数图
1
从准确率图可以看出模型的准确率收敛的还是比较快在
1,
2090.0%,40
次左右的迭代就已经达到了以上而损失函数次左
右的迭代达到了
0.2。,
以下综合来看训练集和测试集在准确率
图像
、,
损失函数图像上的表现差不多因此模型不存在过拟合的
情况
。
通过建立三组不同的数据集和种不同的模型根据准确率和
4,
损失函数
,ecarfsAdam
最终选取了数据集和神经网络优化器的模
型作为最终的数据集与模型其在测试集的准确率达到了
,96.6%,
损失函数达到了
0.096。
参考文献
:
1]HasishiIshitani.OverviewofJapan’sEffortonPlug-inHy-
bird
,Vehicle,EVS-23Plug-inHybridElectricVehiclework-
shop[J].CaliforniaUSA.December2007.
2],.[
黄振邦吴森混合动力电动汽车研究开发及前景展望
[J]..2007(7):34-36.
城市车辆
3].[D].[
闫兆炜中国新能源汽车产业发展研究东北财经大
学
,2012.
4],.SVM[
李宝胜秦传东基于粒子群优化的多分类的电动车价格
预测研究
[J].,2020,47(S2):421-424.
计算机科学
5],,,.“”[
林倩云邱国玉曾惠等基于学习曲线的我国纯电
动汽车价格补贴及其可持续性研究
[J].,
管理现代化
2019,39(03):39-43.
6].[D].[
王众基于电动汽车用电行为的电池预测研究青岛
理工大学
,2019.
7],,,.[
卢泓宇张敏刘奕群等卷积神经网络特征重要性分析
及增强特征选择模型
[J].,2017,28(11):
软件学报
2879-2890.
[
二手车过户需要多少钱-宝马全进口系列
更多推荐
特斯拉汽车价格多少钱一辆
发布评论