2024年3月12日发(作者:大众suv大全)
62
CASE
案例
探索
Dojo上马,特斯拉补齐了自动驾驶三要素。不过,要想快进至自
动驾驶终局,特斯拉还有很长的路要走。
特斯拉自动驾驶的底层逻辑
■文/小葵,公众号锦缎研究员
如
果机器人有大脑,会是什么样?
在科幻电影《机械姬》里,全球最大搜索
引擎公司“蓝皮书”CEO纳森向观众展示了自己
发明的机器人大脑——纳森利用自家搜索引擎
“蓝皮书”的算法构建了艾娃(影片中的智能
机器人)大脑的“思维”,使之学会了人类的思
考方式。
想让机器有人类思维,同样见之于特斯拉
打造的自动驾驶AI上。2019年特斯拉自动驾驶
日上,安德鲁·卡帕西(Andrej Karpathy,特斯拉
AI总负责人)曾明确向大众传达特斯拉自动驾
驶是在模仿人类驾驶,因为现行的交通系统是
基于人类视觉和认知系统来设计的。
由此,特斯拉开发出“人工神经网络”,并
利用大量有效的行车数据来训练它,在这过程
中不断完善并迭代视觉算法,终于在今年年中
拿掉毫米波雷达,而随着超算Dojo浮出水面,长
期被诟病只能算辅助驾驶的特斯拉,离真正的
自动驾驶又近了一步。
从学会开车,到比人类更懂开车、开得更
好,当一名优秀的“老司机”,是特斯拉自动驾
驶持续优化的底层逻辑。
“云端司机”的神经网络
纯视觉自动驾驶方案是特斯拉的独门绝
技,但需建立对计算机视觉深度训练之上。
计算机视觉是一种研究机器如何“看”的
科学。当人类看到一张图片时,能清晰辨析图
片里的事物,比如美丽的风景照、一张小狗的照
All Rights Reserved.
Business Review
商界评论
63
片,然而计算机看到的却是像素(pixel)。像素
是由图像的小方格组成,这些小方块都有一个
明确的位置和相对应的色彩数值,计算机“记
住”的就是这堆数字字符,而不是具体事物。
如果想让计算机能像人类一样快速准
确识别出图片里的事物,得让机器有“人工大
脑”,来模拟人脑处理加工图像信息的过程,这
个过程分为输入层、隐藏层、输出层,里面有许
多人工神经元,可视作人脑初级视觉皮层中的
锥体细胞和中间神经元。
整个训练过程亦可类比小孩看图识物,通
过一次次输入、对比、纠正,完成机器图像认
知。通常在训练初期,人工神经网络识别结果
的准确度非常低,输出结果和实际值相似度可
能只有10%。为了提高准确度,需要再将两者
误差从输出层反向传播至输入层,并在反向传
播中,修正神经网络隐藏层的参数值,经过上
百万次的训练,误差将逐渐收敛,直至输入和
输出端匹配度达到99%。
上述过程是理解特斯拉自动驾驶AI的关
键,只不过特斯拉开发的人工神经网络专注于
驾驶领域,做一名专职“云端司机”。对它来
说,最好的学习材料就是行车数据,大量、多样
化、来自真实世界的驾驶训练数据集(training
dataset)是自动驾驶AI能应对各种路况、交通问
题的百宝书。
在影子模式的支持下,特斯拉全球百万车
队,每时每刻的行车数据都成为这位云端“老
司机”提升自身驾驶能力的养分。时至今日,特
All Rights Reserved.
64
CASE
案例
探索
斯拉Autopilot已经能瞬间完成道路上各种动静
目标、道路标识、交通符号的语义识别,反应
速度甚至比人脑条件反射更快。
除了应对日常驾驶场景外,AI司机还需要
处理一些较为少见的长尾情况(Corner cases)。
2020年Matroid机器学习大会上,卡帕西以
交通指标STOP为例,讲解了Autopilot应对这些
长尾情况的具体方法。
在日常驾驶过程中,车辆总会经过形形色
色的STOP指标,最为正常的情况就是一个立在
路旁或者路中、红底白字的STOP标识,但现实
生活总会有些预料之外的情况发生,驾驶员偶
尔会碰上一些奇奇怪怪、需要结合具体背景来
理解意涵的指标,包括不限于以下:
无效STOP指标,比如被某人拿在手上却
无意义;下方附带文字说明的STOP指标,比如
不限制右行;STOP字母被树枝、建筑物遮挡的
指标……这些都是出现频次不高却不胜枚举
的情况。
遇到上述情况,人类驾驶员可以轻松识别
出绝大部分情况下的“STOP”,并很快作出行
动反应。但对计算机来说,情况就变得复杂起
来,毕竟它看到的不是具体的“STOP”,而是
一堆无意义的数字代码,如果遇到现有训练
数据集中没出现的情况,比如一些上述奇奇怪
怪、较为少见的指标,自动驾驶神经网络就不
能处理。
这部分少见的长尾数据通常无穷尽,但又
必须在尽可能短的时间内学会应对,如果一切都
让人工操作,无疑需要耗费巨大的时间成本和
资源。尽管在8月20日的AI大会上,卡帕西透露目
前特斯拉标注团队规模已达千人级别,但在海量
的行车数据面前,千人还是显得杯水车薪。
对此,特斯拉内部开发了数据离线自动标注
(Data Auto Labeling)以及自动训练框架“数据
引擎(Data Engine)”。
首先,特斯拉神经网络团队在对这些长尾
情况有所了解后,会先编成一个样本数据集,并
为此创造一个局部小型神经网络来学习、训练
2021上半年汽车厂商电动汽车全球销量排名
品牌 (万辆)
特斯拉 38.61
上汽通用五菱 19.15
大众 15.38
比亚迪 15.12
宝马 13.07
奔驰 10.35
上汽 9.22
沃尔沃 9.15
奥迪 7.79
雷诺 6.48
起亚 6.22
标致 6.10
丰田 5.87
现代 5.59
长城 5.31
福特 4.88
广汽 4.38
蔚来 4.29
斯柯达 3.63
长安 3.47
数据来源:Fastdata《新能源汽车简史之电动汽车沉浮录》
(与其他神经网络并行),通过OTA方式部署到
全球英语地区特斯拉车辆上。
再利用车辆影子模式,但凡遇到实际驾驶
情况和自动驾驶AI决策不一致的情况,这部分
行车数据会自动上传至特斯拉后台数据引擎
中,在被自动标注后,重新纳入已有的数据训练
集中,继续训练原本的神经网络,直到新的数
据被掌握。
就这样,在大量训练数据的喂养下,神经
网络变得“见多识广”、更加聪明,可以识别不
同条件状况下的STOP标识,精确度逐渐从40%
提升至99%,完成单一任务学习。
不过,这仅仅是学习一个静态的信号,在
汽车驾驶过程中会涌现无数静态和动态的信
All Rights Reserved.
号,静态如路边大树、路障、电线杆等,动态如
行人、车辆等,而这些信号由摄像机捕捉到后交
由神经网络训练、学习。目前特斯拉的自动驾驶
神经网络已发展出9大主干神经(HydraNet)和
48个神经网络,可识别超过1 000种目标。
然而,仅仅让自动驾驶AI学会开车还不够,
还得让它开得像人类“老司机”一般驾轻就熟,
安全又平稳。
摆脱拐杖,Autopilot初长成
一位经验老到的司机,能在不同路况下,
轻易判断出前方车辆与我们的距离,从而为保
障行车安全而留出一定车距。
但对传感器而言,要想判断物体远近必须
要理解物体的深度,不然在他们眼中,距离我
们10m和5m的两辆完全一样的车,就会被认为
是一大一小的关系。
对此,有些车厂选择用激光雷达路线来探
测深度,特斯拉则选择了纯视觉算法,模仿人
类视觉来感知深度。特斯拉先是打造了毫米波
雷达+视觉传感融合路线,直到今年5月才正式
官宣,拿掉了毫米波雷达,上线纯视觉版本的
Autopilot。
此事一出,社会各界一片哗然,很多人不能
理解特斯拉为何要拿掉单价仅300元,又能为
行车安全增添保障的高性价比雷达。其实,在
特斯拉早期多传感器融合路线中,毫米波雷达
的存在就犹如小孩的学步车,只是帮助神经网
络来学习训练深度标注(annotate)。
在2019年的自动驾驶发布会上,卡帕西是
这样介绍毫米波雷达的,他说:“要想让神经网
络学会预测深度,最好的方式还是通过深度标
注的数据集进行训练,不过相对于人工标注深
度,毫米波雷达反馈的深度数据精准度更高。”
因此,引入毫米波雷达,实质是用以训练和提高
神经网络对深度的预测。
值得一提的是,卡帕西讲解时背景幻灯片
的右下角,清晰地注明了带有毫米波雷达的自
动驾驶算法是“Semi-Automonous Self Driving”,
Business Review
商界评论
65
翻译过来是“半自动驾驶”。明显,彼时的特斯
拉Autopilot还只是个半成品。
直到特斯拉视觉算法在预测物体的深度、
速度、加速度的表现,达到可替代毫米波雷达
的水平,特斯拉的视觉算法才算真正独立。
在2021年6月的CVPR大会上,卡帕西曾表
示毫米波雷达收集数据中曾出现了“间歇性翻
车”,甚至误判等情况。他举了3个具体的例子:
前方车辆急刹车、大桥下前车行驶速度以及对
路边静止卡车的判断。
情况一:前方车辆出现急刹,毫米波雷达
短时间内出现6次跟丢目标车的情况,跟丢状态
下前车的位置、速度和加速度都归于零。
情况二:在行驶的汽车从大桥下通过时,
雷达把一静一动的物体都当作了静止物体。此
时视觉传感却计算出行驶车辆的速度和位移,
导致数据融合后的曲线传递出“前车在减速并
且刹车”的错误信息。
情况三:在高速路旁停着一辆白色大卡
车,纯视觉算法在距目标车180m处就发现了白
色卡车,并作出了预报,但融合算法直到110m
处才作出反馈,足足延迟了5秒。
上述案例里,纯视觉算法均输出稳定且大
幅优于雷达+视觉融合算法,能够精准地跟踪
到前车行驶状况并作出深度、速度、加速度等
数据。
不仅如此,纯视觉算法还可以在雾、烟、尘
等环境里保持对前方车辆的测速、测距工作,
如此一来拿掉毫米波雷达也不奇怪了。
根据特斯拉在AI Day上最新发布的信息,
目前特斯拉每周能够获得1万人在恶劣环境下
驾车的短视频,包括大雨、大雪、大雾、黑夜、
强光等情况,神经网络通过学习训练这些已经
标注好的材料,实现在没有毫米波雷达的情况
下,也可以精准感知前方车辆距离。
可以说,特斯拉宣布拿掉毫米波雷达的底
气,是对自己纯视觉算法成熟的自信,并且在无
监督自学的加持下,特斯拉纯视觉算法迭代和
完善明显提速。
All Rights Reserved.
66
CASE
案例
探索
今年7月10日,特斯拉纯视觉版本的FSD正
式在美开启内测,2 000名受邀车主通过OTA方
式升级到FSD Beta V9.0版本,他们大多是特斯
拉的粉丝兼中小型KOL,Youtube博主Chunk Cook
(以下简称CC)就是其中之一,他还略懂工程
学和航天学专业知识。
系统更新一结束,CC就开启了新版FSD道
路测试,并把测试视频上传至Youtube。视频中
他来到一个车辆较多、车速较快的T路口进行
转弯测试,结果显示,7次中只有1次FSD顺利完
成自动驾驶,其余都需要人工接管方向盘来完
成驾驶。
但很快,随着7月底FSD推送新版本V9.1,
CC发现升级后的FSD表现出乎他的意料。他又
在相同道路上进行了7次自动驾驶测试,结果
显示,7次中4次都较为顺利地完成了自动驾驶,
司机”应有的果断,但在综合得分上,新版本
Autopilot优于旧版本。
8月16日,特斯拉FSD又升级至新版本V9.2,
CC同样抢先测试并上传视频,还是同一个路
段,不过测试时间改在了夜间,他公开表示,此
次最明显的改进是Autopilot的加速表现,在转
弯时能像人类驾驶员一样果断加速。
前后一个月的时间,纯视觉Autopilot在同一
条道路上的表现进步迅速,身后正是人工神经
网络强悍自学能力的体现。马斯克表示,FSD
beta V9.3、9.4都已在筹备中,会根据车主使用情
况不断进行细节优化,改善用户体验,并预备
在V10版本做出重大的变化。
Dojo上马,模拟极限
需要注意的是,大家惊艳于特斯拉纯视觉
Autopilot各种熟练操作时,也不能忘记这些路测
大部分发生在北美地区。而非英语地区,比如
人口稠密的亚洲地区,城市道路交通复杂度与
地广人稀的北美迥异,如何让神经网络学会应
对各种路况交通,更值得思考。
但在转弯速度上有些“磨蹭”,没有展现“老
All Rights Reserved.
Business Review
商界评论
67
“五官”“大脑”“四肢”
感知层决策层执行层
环境:通过摄像头、雷达操作系统:Autosar、动力:执行加速、匀速、
等感知周围是否有障碍QNX等。减速、刹车等命令。
物;交通信号灯颜色等。
位置:通过高精地图、集成电路:CPU、GPU、方向:执行左转、直线、
GPS、超声波等判断当前FPGA等。换道、右转、倒车等命令。
位置。
车灯:执行远光灯、雾灯、
其他:通过陀螺仪、压力计算平台:EyeQ、
大灯、转向灯等命令。
传感器、光学传感器收集Xavier、MDC等。
如速度、压力等信息。
数据来源:工信部,信通院,恒大研究院
收集实地数据是方法之一,但前提是你有
AI的仿真越强,对硬件算力、读写速度的要求
大量车队在该地区驾驶,另一种解决方法则是
越高。
对自动驾驶进行仿真测试。
马斯克曾在2020WAIC大会上表示,当下计
仿真,简单讲就是利用现实数据,将真实
算机视觉已经超越人类专家水平,但要保证计
世界的实时动态景象,在计算机系统上实现重
算机视觉实现的关键是算力的大小。为此,特
新构建和重现。除了能模拟不同城市的交通路
斯拉准备了顶级超算Dojo,以保证一切运算都
况,仿真测试还能模拟一些极限场景,比如各
能高效、准确完成。
种突发交通事件或者极为罕见的交通路况。
在AI Day上,超算Dojo揭开了庐山真面目,
在AI Day上,特斯拉工程师举了具体的例
内置3 000颗Dojo 1芯片组装成了峰值算力达到
子,包括有行人在高速路上奔跑、行人数量庞
1.1EFLOPS的ExaPOD,超越了目前世界上最快
大,或者非常狭窄的驾驶道路。这些案例往往
的超算日本富岳,成了全球第一。在发布会后,
非常极端,在日常驾驶场景中出现的概率也微
马斯克在推特上回复网友提问时表示,ExaPOD
乎其微,但正因为此,通过仿真来训练神经网络
的运算能力足以模拟人脑。
才有真正价值,而只有通过训练,神经网络才能
现阶段,Dojo这台性能猛兽专注于训练特
学会正确应对。
斯拉自动驾驶神经网络,有了它,神经网络的学
为了能真正起到训练作用,这些仿真测试
习潜力一下子变得深不可测。至此,特斯拉集齐
必须充分还原现实场景,包括道路上各种行
了自动驾驶三要素——数据、算法、算力,为推
人、车辆、绿化林、路障、信号灯等,几乎包含
进L5级别自动驾驶做好了软硬件准备。
你在路上见到的所有交通要素。目前特斯拉已
不过,要想快进至自动驾驶终局,特斯拉
创建了3.71亿张车内网络训练的图像,以及4.8亿
还有很长的路要走,包括来自法律和道德层面
个标签,且数据规模还在快速扩张中。
的考验。
要知道,仿真测试可达到的逼真程度,与
计算机可提供的数据处理能力成正比。特斯拉
[
编辑 周迎 E-mail:**************
]
All Rights Reserved.
更多推荐
驾驶,自动,数据,视觉,训练
发布评论