2023年12月16日发(作者:bmwm3双门轿车)
智能网联大数据在高并发场景下的技术应用()上汽大通汽车有限公司,上海200438摘要:以智能网联大数据在高并发场景下的应用为基础,分析了目前汽车行业主流数据平台技术的优势与劣势。以实际业务需求出发,制定了融合离线数据平台和实时数据平台的车联网大数据平台架构,以及基于部分开源产品组件,结合自主开发组件的解决方案。通过平台的开发交付、迭代优化,以及业务应用过程中的案例分析,梳理出该数据平台的技术特点,并提出了后续改进和扩展的技术思路。关键词:智能网联;数据平台;实时数据;离线数据;数据化的迭代和优化。1
应用场景分析智能网联最基本的数据需求,源于国家和地方政府对于新能源车辆安全行驶的管控要求,采集的数据包括基本的里程数、行驶轨迹、充放电情况等,逐步增加扩展到动力电池状态、电动机状态等数百个参数。随着国家对于国六车型数据标准的推广与实施,未来车联网数据标准将成为所有车型的准入要求。除了基本法规标准的要求外,为了实现智能网联的更多应用,)如兴趣点(推送、人车智能交互、初级智能驾驶、车POI技术人员需要采集大量的车辆行驶数据、用户驾驶行为数据、车载设备或车辆周边环境数据。由于应用场景的实时性需求,有些数据在车辆本地的车机端就直接完成了采集和应用,而更大部分的数据,由于车机本地算力的限制,以及综合应用的需要,都需要通过远程(云端。数据格式包括文本、音频、视频等多种形TSP)式。数据采集的频率从最初的几十秒/次,逐步缩短到数秒/次,有些用于研发分析和故障诊断的数据采集频率可能会更高。每个数据包大小从几个千字节到十几个千字节不等。根据每日平均在线车辆数的估算,每日近万台车辆的上传数据将达到几百个吉字节。这对2]。于云端大数据平台的容量和性能都是很高的要求[倪
峻0
前言随着车联网和物联网功能在汽车行业逐步成为标配,通过智能网联的应用提升产品整体竞争力和用户体验,已成为所有汽车整车企业、零部件企业,甚至汽车服务企业需要重点关注的领域之一。为了在满足国家法律法规要求,以及全国各地甚至国外地区车辆准入条件的前提下,同时尽可能地满足用户的个性化、整车智能化等需求,与车联网相关的数据采集、传输、接收、转发、保存、分析、应用等,已成为智能网联板块非1]。常关键的环节[根据车辆动力不同,车辆可分为燃油车、纯电动车、燃料电池车等;根据使用场景的不同,车辆可以分为偏个人客户的乘用车、偏商务用户的商用车,以及工程机械与房车等。在不同动力和应用场景下,车辆行驶数据、驾驶行为数据、车载设备数据、车辆周边环境数据,以及采集范围、频率、数据包大小、数据格式、加密解密、数据响应时效(实时/准实时/非实时)等各项因素,都需要在架构方案设计时进行综合考虑和统筹平衡。本文以实现商乘并举、多车型、多公司、多场景复用的智能网联数据平台为目标,对比分析了目前几种主要的数据平台技术,综合考虑实际应用需求、投入产出、预留扩展性等因素,制定了基于部分开源组件加自主开发的架构和技术方案,完成平台的整体搭建实施,并通过不断的数据化应用和分析,持续推进数据平台队管理、客货仓管理、租赁车辆远程智能控制等功能,通讯模块(和传输通道回传到车联网平台TBOX)目前,主流的数据平台技术和特点如表1所示。70汽车与新动力2021 NO.4Copyright?博看网 . All Rights Reserved.为了满足大量数据的读写需求,主流的数据平台可分为结构化数据库和分布式数据库。结构化数据库通过提升节点硬件性能来实现大量数据的读写需求,但最终会达到纵向扩展的上限;而分布式数据库则可通过扩展多套并行的数据节点来实现大数据的读写需求,3]。结构化数据库的最大优理论上并没有扩展的上限[2
智能网联数据平台架构2.1
应用架构智能网联作为未来智能驾驶、万物互联、智慧城市的重要基础设施,主要包含了“端、管、云”三大部分。“其中,端”包含了整车本身,以及核心的车控单元、车载主机、以及各类车载操作系统和应用软件TBOX,等,可以看作是1个大号的手机或者1台移动的计算“机终端;管”主要包括通信和数据传输所需要的运营商基站、无线传输通道,以及通信协议、加密协议等软“硬件系统;云”则包含了接入网关、业务应用,平台应用等。其中,业务应用包括面向个人车主的服务、面向大客户车主的企业服务,以及面向政府的监管服务等;平台应用包括基础的车控服务、数据服务、生态服务、安全服务等。此外,与用户的数字化触点,如应用程序(、小程序、全球广域网(应用等,以及这些APP)Web)触点背后的系统平台,都属于广义“云”的范畴。图1为智能网联TSP平台的应用架构图。通过数据流,以上应用架构可以简单说明如下:车辆行驶数据、车主或司机的驾驶行为通过各类TBOX、势是稳定性和单节点性能,而分布式数据库的优势在于操作的扩展性和数据的大量处理。在高并发场景下,Msl数据库被设计用来存放用户在移动端等触yq点上的在线行为或订单交易等数据;Oracle数据库被设计用来存放车辆配置、研发和生产等结构化标准化/数据;MonoDBHbase数据库被设计用来存放车辆g行驶、驾驶行为,以及车机端娱乐主机等数据;Redis数据库被设计用来存放高性能缓存数据,以满足高速的数据读取需求。作为大数据平台的基础架构,Hadoop/数据库在此基础上为HiveSark提供查询和计算引p擎功能,Kafka数据库则承担接收高并发大数据的车表1
主流数据平台技术及特点数据平台主要技术特点机端上传功能,并同时转发给多个下级数据处理模块。考虑到并发容量,以及AVN等设备上传至接入网关,数据安全等因素,技术人员需要设置多种不同类型和用户的网关。基于企业存量车的历史原因,有些上联优点:结构标准化,系统调用接口标准化,便于开发人员应用和维护,支持跨表的复杂查关系型数据库询等。(M、S、sllServeryqq缺点:读写性能比较差,尤其是海量数据的高Oracle等)效率读写;表结构固定,灵活度欠佳;硬盘输/入与输出(存在瓶颈。IO)优点:支持多种数据存储格式,应用场景广泛;存储速度快,可以使用硬盘或者随机存储器作为载体;高扩展性、成本低;部署简单,软非关系数据库(Mon-件的开源性好。/、)oDBHbaseRedisg缺点:不支持S学习和使用成lServer策略,q本较高,无事务处理,数据结构相对复杂,复杂查询功能欠佳。属于分布式文件系统的基础架构,能够对大HadooHDFS集群一般由管p分布式文件量数据进行并行处理;)系统(理节点和数据节点组成,整个HDHDFSFS系统由数百至数千个存储数据片段的服务器组成。Hive数据库可为开发人员提供一系列处理分布式数据的方法和工具,比较适合于大批Hive数据库/Sarkp量的离线数据;Sark数据技术是专为大规p计算引擎模数据处理而设计的快速通用的计算引4]。擎[Kafka数据收发系统是1种适合于大数据并发的消息接收和分发系统,可以让大容量的数据存储保持比较高的稳定性,而且数据传5]。输性能可以达到每秒数百万字节的级别[设备之前已经有了异构的网联平台(比如上柴发动机、,红岩重卡等)可以通过“云云对接”的方式接入数据。数据在进入网关后,所有数据都会首先保存到大数据平台,大数据平台会根据数据的类型和应用需求不同,执行分类备份和归档策略。然后,系统根据应用的实时性要求进行处理。有的数据必须立刻转发给相关的平台,如国家或地方的远程监控平台。此外,根据各个应用的不同需求,系统将简单加工过的数据(加密、解密等处理)传递到不同的应用服务。除了车机端上传的数据,用户在数字化触点,如A小程序、PP、Web应用等产生的数据,会通过相应的系统后台传递到统一的大数据平台。这个过程中还有1个关键步骤,即“用。通过统一数据抽取(户数据打通”机制,将不OneID)同渠道获取的数据,通过不同密钥标识符(进行keID)y关联,最终完善多场景下的用户标签,为后续“数字孪生”奠定基础。除此之外,车辆远程控制、FOTA等下行数据,也是通过云端平台和网关分发到不同的车机终端的。智能网联除了实现基本的车联网功能外,最为核汽车与新动力Kafka数据收发系统71Copyright?博看网 . All Rights Reserved.2.2
离线平台汇总数据源2.2.1
数据仓库抽取技术(ETL)为了避免对生产环境数据库造成影响,所有的ETL任务数据源分为2种模式抽取数据。对于Oracle数据库,采用OracleGoldenGate软件将数据实时抽取到1台Oracle数据库中,ETL统一从该数据库抽取数据;对于M统一使用只读备sl和SlServer数据库,yqq库来抽取数据。2.2.2 ETL任务调度智能网联大数据使用自主开发的Kanaroo任务g调度系统。该系统支持多租户模式,可以将多个租户纳入同一系统进行管理,同时又能使各租户的业务在物理和逻辑层面进行隔离,避免互相影响,保证数据安全。/2.2.3 HiveSarkp/HiveSark计算引擎提供了2种不同的引擎对p2.2.4 Hbase目前,分Hbase数据库主要用于存放车联网数据,为生产集群和归档集群2部分。生产集群为生产业务提供服务,归档数据则用于存放历史数据。2.3
实时平台2.3.1 Kafka实时获Kafka数据收发系统主要用于数据通道,取斑马系统实时埋点、蜘蛛智联系统实时埋点、车联网离线数据进行查询功能,其中Hive的查询时间较长,但占用系统资源相对较少,Sark引擎则相反。p系统埋点、车联网系统警告、房车全球定位系统(GPS)图1
智能网联TSP平台的应用架构信号等数据。后续需求还有车机埋点数据,发动机信号数据接入等服务。/2.3.2 SarkFlinkp/SarkFlink数据处理引擎主要用于处理计算pKafka接收的数据。相比Sark计算引擎,Flink计算p引擎能够更方便地控制小文件的生成,缓解车联网集群的性能压力。3
平台应用情况通过几年的运行和迭代,上汽大通的智能网联平台逐步接入了上汽大通、跃进、申沃、红岩、上柴公司的EV69、EV79、FCV80、EV31、SV51、C500、D20等几十款车型或发动机,共约3日均实时在线0多万台终端,心的价值就是实现移动出行相关的数据采集、传输、分析和应用。通过对这些大数据的应用,可以提升智能驾驶、产品功能,以及用户体验,被称为“从业务数据化到数据业务化”的持续迭代。因此,智能网联的数据平台是整个车联网平台的非常关键的组成部分,而且该数据平台并不仅仅属于车联网的数据平台,更是整个企业级的数据平台。通过智能网联数据平台,。可以打通并整合企业的用户数据和车辆数据(图2)目前,企业应用的大数据平台主要分为离线平台和实时平台2部分。其中,数据存储主要存放于Hadoop集群中。Hadoo5p集群目前总共有3个管理节点和2个数据节点。汽车与新动力2021 NO.4车辆约10000台以上。历史总数据约为300太字节,72Copyright?博看网 . All Rights Reserved.图2
数据平台系统架构并以每月20太字节的速度增加。图3为智能网联平台的应用情况图。在离线平台方面,目前车联网集群的任务资源共分为3个队列。其中,上汽商用车队列运行大通所有的ETL和报表任务;Azkaban任务调度系统的队列负_u责运行数据管理平台(相关业务;DMP)Devser队列为业务和数据分析人员提供临时查询服务。实时平台主要服务于需要实时数据接入的业务。其中,斑马系统的实时数据增长量最大,每天的数据接入量接近1蜘蛛智联系统的实时数据接入量4吉字节;每天在4吉字节左右;车联网系统的实时接入业务也有显著增长。汽车与新动力2021 NO.4图3
智能网联平台应用情况73Copyright?博看网 . All Rights Reserved.4
结论基于自主开发的智能网联平台,技术人员统一了企业的车联网终端数据格式。根据O技术人TA协议,员定义了智联数据报文交互格式,通过Kafka数据收发系统对接入层和应用层进行了切割,可以让研发团队实现分头独立开发,同时也保证了系统数据流的统一性和延续性。在数据平台架构层面,技术人员设计了离线数据平台和实时数据平台相结合的框架,通过关系型数据库、非关系型数据库,以及Hadoop大数据等多种数据平台,整合技术解决方案,既满足了不同业务应用对于数据的需求,又兼顾了系统的扩展性和兼容性,并考虑到了项目实施的成本因素。本文中提到的多个模块已获得了软件著作权和发明专利。参
考
文
献[]彭昭.智联网未来的未来[北京:电子工业出版社,1M].1984.杭州:浙江人民出版社.[]维克托迈尔舍恩伯格,肯尼思库克耶.大数据时代[周涛,译.2M].[]://全面梳理S3QL和NoSQL数据库的技术差别[OL].-pg[]郝萌萌.互联网内容分析系统的设计与实现[北京交通大学,4D].[]臧其事,谢立帆,李思宇.一种基于网络旁路的应用系统通用监控与5123.2018.////xdamiaoarticledetails51457399.]:预警系统的设计和实现[网络安全技术与应用,J.2018(012)122-74汽车与新动力Copyright?博看网 . All Rights Reserved.
更多推荐
数据,平台,应用,系统
发布评论