2023年12月21日发(作者:天津夏利汽车)
第4曲阜师范大学学报8卷
第1期Vol.48 No.1
202年1月Journal of Qufu Normal UniversitJan.2022y
2
:/.1001-5337.2022.1.057j基于XGBoost的深圳二手房价格预测*胡晓伟,
马春梅,
孔祥山,
李凤银(曲阜师范大学计算机学院,山东省日照市)276826,为了更加精准地预测二手房价格,该文以2利
摘要:019年深圳市二手房的真实交易数据为研究对象,用线性回归模型、随机森林模型和X首先,对数据集进行清GBoost模型并加以POI计算来预测二手房价格.洗并可视化展示.其次,运用百度地图进行P使得数据集接近现实情况.接着,按照数据OI处理扩充数据集,特征对房价影响的重要程度进行了排序,选取重要的特征来训练模型.最后,通过数值结果分析,XGBoost模型对二手房的房价评估效果最好,尤其是经过P对于深圳市的OI处理的数据集和XGBoost模型的这种组合,二手房价格具有极好的预测效果.;;关键词:机器学习;二手房价格预测XGBoostPOI()中图分类号:TP391
文献标识码:A
文章编号:101-0057-090
引
言随着我国城市化进程的加速,城市常住人口不断增加,而发达地区的土地供应不断减少,导致了城市房价不断攀升.另一方面,二手房的周围配套设施相对比较完善,如拥有成熟的交通、商业、教育环境等,越来越多的购房者开始关注二手房.但是,二手房信息对购房者不够公开透明,购房者无法客观准确地评估二手房的价格.在我国,关于房地产价格的评估方法主要有市场法、收益法、成本法等,它们大多适用于不同的市场环境.这些方法更加注重定性分析,因此受主观因素影响较大.[]楼龄、户型、卧室数量、卫生间数量、环2004年,Limsombunc等1指出影响夏威夷市房价的因素有面积、境和地理位置,并且根据所选择的影响因素建立了H实验表明神经网络edonic模型和人工神经网络模型,[]模型的预测效果更好.市中心距离以及房屋地理位置这三2012年,Antiov等2在模型中引入了地铁距离、p个区位特征,使得房价预测结果更加趋于实际价格.但是,他们没有考虑到生活、教育配套等这一重要的邻模型,考虑了地理位置对房价的影响因素,预测了伦敦1由于加入了地ression,GWR)980~1998年的房价.g理位置这个重要的影响因素,使得房价预测更加实际化.但是,不同国家房价的影响因素是不同的,如房产[]加入多类别变量建立随机森林模型,研究了影响房价的因素Hoffman等4利用北京市在售的二手房数据,[]里特征.构建了地理加权回归(2015年,Fotherinham等3加入了空间效应,GeorahicalWeihtedRe-ggpg税率、浴室数量等因素可能影响美国的房价,而对中国的二手房价格却几乎没影响.2018年,Denisko与、,述中,介绍了人工神经网络(支持向量机(ArtificialNeuralNetwork,ANN)SuortVectorMachinepp、,、,、,线性回归(随机森林(SVM)LinearReressionLR)RandomForestRF)K近邻(K-NearestNeihborgg、,、,、,、朴素贝叶斯(空间分析(岭回归(KNN)NaiveBaesNB)SatialAnalsisSA)RideReressionRR)ypygg,套索回归(等众多的房价预测模型,对各种模型的优缺点进行了说明,指出要根据实LassoReressionLR)g *收稿日期:2021-03-19);)基金项目:国家自然科学基金(山东省重大基础研究(62072273ZR2.[]以及对房价的预测,进一步提高了预测的准确性.Mohd等5人在2020年的房价预测的房地产建模技术综,:_C作者简介:胡晓伟,男,硕士;研究方向:大数据,网络安全;1991-E-mailXiaoweiHuS@.,:通信作者:马春梅,女,硕士,副教授;研究方向:大数据,网络安全;1978-E-mailchunmeima@ght?博看网. All Rights Reserved.
曲阜师范大学学报(自然科学版)58
2022年6]际需要解决的问题选择合适的模型.陈世鹏、金升平[运用襄阳2加入房贷的影响012年的房屋贷款数据,因素,创建随机森林模型进行房价预测,与A自回归滑动平均模型)和多元线性回归模型进行对RMA模型(]7比,发现随机森林模型有很好的预测效果.张靖苗[以昆明和成都的二手房为研究对象,利用GIS空间分析技术寻求不同城市的住宅价格空间分布规律,构建地理加权回归模型,分析了住宅小区之间的空间分异现]8象.近年来,杨贵军等[人利用XXGBoost模型在关于价格预测问题中得到了广泛应用.GBoost算法对消]9费者汽车消费偏好作了相关研究,为产品研发决策和商品推荐提供了重要参考.梁佩[在传统特征价格模型的基础上加入了空间效应,运用X以空间因素作为权重,得到一种标准的X龚GBoost模型,GBoost模型.10]洪亮[利用X用特征价格理论探究房价的影响因GBoost模型对武汉市的二手房价格预测作出实验研究,素,但是并未考虑相关地理因素对房价的影响.卧室数量、地理位置等对房价的影响,很少考虑生活配套、教育配套、交通配套等影响因素.本文不仅考虑了本文利用X传统的房价预测主要考虑住房面积、楼龄、户型、GBoost模型对深圳二手房价格进行预测.),处理,利用原始数据集中的经纬度和百度地图A计算以房源为中心,分别以半径为5InterestPI00m,1000学校、医院等生活配套设施的数量,从而引入了邻里特征,使得房价预测结m,2000m的地理范围内的地铁、果更加趋于实际值,提高了预测的准确性.(传统的影响因素,而且考虑了生活配套、教育配套、交通配套等影响因素,结合百度地图进行POIPointof1
相关模型介绍1.1
多元线性回归模型多元线性回归模型常用于两个及两个以上的影响因素作为自变量来解释因变量的变化.当多种自变量…,其中^分别表示特征值和回归系数,xi=1,2,3,n)0为常数项,i,i(y表示预测结果,ββξ为误差项.1.2
随机森林模型与因变量之间是线性关系时,所进行的回归分析就是多元线性回归.多元线性回归模型可表示为^x1+βx2+…+βxn+ξ,0+12ny=ββ森林模型有很多优点,如极高的准确率、不容易过拟合、可处理高维数据以及容易实现程序并行化等.随机森林模型是一种重要的基于B可以用于解决分类、回归等问题.随机ainggg的经典集成学习方法,使用随机森林进行数据预测的过程如图1所示.首先,在原始数据集中随机进行有放回的抽样,构成n个不同的样本数据集.然后,为每个样本数据集构造决策树,构建成n个不同的决策树模型.最后,根据这些决策树模型的平均值来获得最终结果.图1
随机森林预测过程Copyright?博看网. All Rights Reserved.
第1
期
胡晓伟,等:基于X59GBoost的深圳二手房价格预测
1.3 XGBoost模型如图2所示,XGBoost是BoostinBoosting算法的一种.g算法的思想是将许多弱分类器集成在一起形成一个强大的分类器.因为X所以它是由许许多GBoost是一种提升树模型,多的树模型集成在一起而形成的一个强分类器,所用到的树模型则是CART回归树模型.每一次特征的分裂XGBoost算法思想是不断地添加树,都会增加一棵新树,且每棵新树都是用一个新函数拟合上次预测的残差,当训练完成会得到K棵树.预测一个样本的分数,实际上是根据这个样本的特征,每棵树中会落到其对应的一个叶子节点,每个叶子节点对应一个分数,最后将每棵树对应的分数加起来就是该样本的预测值.XGBoost的目标函数由训练损失函数和正则化项两部分组成,目标函数定义如下NKi=1k=1图2
多个弱分类器形成一个强分类器^^其中代表训练损失函数.常用的损失函数有以i个样本的预测值,i个真实值,l(i表示第i表示第i,i)yyyy下两种:2^^()平方损失函数:1l(=(i,i)i-i);yyyy^^-yyii^()()()逻辑回归损失函数:2l(=ln1+e+(1-ln1+e.i,i)ii)yyyy^,Obl(=∑+∑Ω(ji,i)yyfk)k=1∑fK,由于X因此预测得分是每棵树预测结果的累加之和,即^其中GBoost是一个加法模型,xi=∑i)yfk(k=1kK进行求和,添加到目标函数中作为正则化项,用于防止模型过度拟合.(代表第i个样本的树,代表树的复杂度.将全部K棵树的复杂度xΩ(i)fk代表第k颗树的函数.fk)2
基于XGBoost的房价预测2.1
数据预处理与清洗原始数据集是利用爬虫程序在链家网站上爬取的,是2共14019年深圳市二手房交易数据,32条数据.对数据集进行建模时,首先需要对数据进行预处理和清洗,因为原始数据集中总会有一些缺省值和超出现实的异常值,甚至原始数据集中带有单位.所以,只有将数据集进行预处理和清洗,才能保证数据的准确性.对于缺失值可采用同小区均值填充,对于异常值则直接删除,对于有单位的数据则直接删除单位.此外还对数为本次原始数据集的房价整体立体图.从图3可以看出,不同的地理位置整体房价是不同的,越靠近海边房价越高.即便是位于同一个区域,房价也是不同的.我们把房源的位置信息称为区位特征.图4为建筑面积因素,比如同一个小区内亦有高价房和低价房.)据集进行了哑变量(虚设变量,通常取值为0或1操作,即将对象数据类型转换为模型可以识别的类型.图3与总房价的散点图,从图4可以看出房价与建筑面积总体上呈线性关系,但建筑面积并非是决定房价的唯一学校、医院等生活配套设施的数量,部分结果如表1所示.经过对比分析发2000m的地理范围内的地铁、现,周边地铁、学校、医院等配套设施越多,单位房价越高.我们把房源周围的地铁、学校、医院等设施配套情况称为邻里特征.本文进一步利用百度地图的A计算以房源为中心,分别以半径为5PI进行POI处理,00m,1000m,Copyright?博看网. All Rights Reserved.
曲阜师范大学学报(自然科学版)60
2022年图3
深圳二手房房价整体立体图图4
建筑面积与总房价散点图表1
经过POI处理后的部分数据距
离地铁站_500m样本经纬度114.11,22.5613.13,22.54374.14,22.579113.82,22.6908地铁站_1000m三甲医院_500m地铁站_2000m1010三甲医院_1000m三甲医院_2000m小学_1000m公交车站_500m小学_2000m小学_500m公交车站_1000m公交车站_2000m10Copyright?博看网. All Rights Reserved.
第1
期
胡晓伟,等:基于X61GBoost的深圳二手房价格预测
2.2
数据特征选取特征选择可以将高维空间的样本通过相关变换的方式转换到低维空间,达到降维的目的,随后删掉冗余、和不相关的特征来进一步降维.这样做可以减少过拟合、减少特征数量(降维)提高模型泛化能力,而且还本文中特征选取前有楼盘名称、经纬度、成交时间、区域、调价、带看、关注、浏览、房屋户型、所在楼层等35个可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快模型的训练速度,获得更好的性能.特征,这些特征有些与房价相关性强,有些则弱,需要使用一定方法降低数据维度.图5为相关系数热力图,颜色越深表示相关性越大,从图5可以看出调价、带看、关注、浏览、成交周期、区域、子区域、楼盘名称等这些表2是随机森林对特征变量进行重要性评估的结果.本文排序后选择中位数以上的特征变量,忽略中位数以下的特征变量.数据维度对房价的影响较小,本文忽略这些特征.此外,还利用随机森林中的重要性评价来选择相应的维度.图5
特征变量与房价的相关系数热力图表2
随机森林中的特征变量重要性评价特征变量建筑面积建成年代地铁站_2000m地铁站_1000m地铁站_500m房权所属_共有厨配备电梯_有重要性0.1604240.0673670.0303620.0261590.0145820.0083610.0024860.001464特征变量经度楼层数公交车站_500m小学_2000m卫产权年限三甲医院_500m公交车站_2000m重要性0.1542780.0649200.0303210.0219100.0131650.0042630.0021340.000000特征变量纬度小学_1000m室小学_500m三甲医院_2000m三甲医院_1000m公交车站_1000m建筑类型_平房重要性0.1215660.0342070.0272640.0175800.0085640.0042560.0017000.000000房地产价格的影响因素主要包括建筑特征、邻里特征和区位特征.本文结合热力
综上分析可以看出,图、随机森林中的重要性评价以及上述三大特征变量,最终选取的特征变量如表3所示.Copyright?博看网. All Rights Reserved.
曲阜师范大学学报(自然科学版)62
2022年表3
影响二手房价格的特征变量及其含义特征分类特征名称房间结构所在楼层房屋朝向装修情况配备电梯户型类型建筑特征房屋用途建筑类型房权所属建筑面积建成年代楼层数产权年限区位特征邻里特征经纬度POI变
量
含
义分为室、厅、厨、卫四个数值变化分为低楼层、中楼层和高楼层三个变量分为东、西、南、北、东南、东北、西南、西北共八个变量分为毛坯、简装、精装和其他分为有和无,分别用1和0表示分为平层、复试、跃层、错层分为公寓、别墅、商业办公类、商务公寓、普通住宅五类分为塔楼、平房、塔板结合、板楼四个类型分为公有和非公有两类二手房的建筑面积二手房的建成年份二手房所处的楼层二手房拥有的年限二手房所处的地理经纬度利用经纬度和百度地图A半径为5PI计算以房源为圆心,00m、1000m、学校、医院等生活配套的数量2000m内的地铁、2.3
房价预测本文中的X将清洗好的数据进行特征选取、重要性排序和PGBoost流程图如图6所示,OI处理得到新的数据集,使得新数据集更加接近现实.随后利用网格搜索对部分参数进行调节,最终得到的结果如图7所格实际误差较小,尤其是低房价几乎重合,反映出该模型具有较好的泛化能力.这是由于XGBoost对损失函数进行了二阶泰勒展开,一方面增加精度,另一方面也为了能够自定义损失函数.示.从图7可以看出,在测试集上,虽然有个别样本波动比较大,但大部分预测的成交价格与真实的成交价图6 XGBoost流程图图7 XGBoost模型预测效果图Copyright?博看网. All Rights Reserved.
第1
期
胡晓伟,等:基于X63GBoost的深圳二手房价格预测
3
实验对比__()函数,该函数功能是将原始数据按照比例切分为训练集和测试集.如果训练集合过小,可traintestslitp能导致欠拟合,所以我们把数据集的80%作为训练集,20%作为测试集.值,最后使用均方误差法来评价模型的好坏程度,预测的结果如图8所示.从图8可以看出,真实值和预测值间的差距比较大,只有部分结果重合,对于较高的房价预测结果较为不理想,需要更多的维度和更好的模型来预测房价.基于随机森林的模型计算过程如下:将训练集分成5份,使用网格搜索并进行C随V交叉验证.好,这是由于多元线性回归模型是一个单一的模型,而随机森林是多个决策树融合的集成模型.但是,同样对于部分低房价和高房价的预测较为不理想,效果要稍微略低于XGBoost模型.机森林可以调节的参数比线性回归模型的参数要多,本文利用网格搜索,对n_estimators和max_deth做p了参数调节,并用K折交叉进行验证.预测结果如图9所示,从图9可以看出,预测结果比线性回归模型要对于线性回归模型,本文使用s利用梯度下降法获得误差最小klearn库的线性回归函数进行调用训练.3.1
不同模型实验结果比较本文比较线性回归模型、随机森林模型和X统一采用SGBoost模型对房价预测的结果.klearn包中的
图8
线性模型预测效果图
图9
随机森林模型预测效果图而合适的数据集同样重要.本文的数据集中引入了P XGBoost模型在房价预测上具有良好的效果,OI这一特征,而图1图1虽然X0表示的是没有POI处理的数据集在XGBoost模型下的预测结果.0显示,G-但没有经过P准确度也会受到一定的影响.因此可以得出,Boost模型的预测准确度是最好的,OI处理,POI的数据处理,对房价预测具有积极的作用.图10
无POI处理的数据集在XGBoost模型下的预测效果图3.2
不同模型数值比较回归模型的预测结果和真实值都是连续的,常用的回归模型的评价指标有R2,MAE,MSE,RMSE等4Copyright?博看网. All Rights Reserved.
^
更多推荐
模型,预测,特征,房价,二手房
发布评论