作为紧随风口的车企,自然也不能在大模型时代落后:7月31日,吉利预告了大模型技术;8月8日,广汽推出“广汽AI大模型平台”;奇瑞也将发布自己的AI大模型……而在此之前,小鹏、理想、特斯拉都宣称自己拥有“自动化数据闭环系统”,作为大模型的一种应用方向。
除此之外,平台级公司,百度、阿里、腾讯、360、华为都推出了自己的大模型。上半年结束的时候,国内大模型已经达到80个以上。中美两国的大模型数量占据了全球80%。在大模型如此火热的今天,自动驾驶的落地也在加速,当然,也迎来了新的挑战。
(资料图片仅供参考)
01
自动驾驶中的大模型
其实“模型”就是一段计算机程序,用来构建一个虚拟的神经网络。和生物的神经网络类似,只有刺激到一定程度,神经才会活跃。如果再强化刺激,就会输出活动。这其实就是多段函数的表达。神经网络模拟任意连续函数,也就成了可能。上世纪80年代之后,这些计算机概念就建立起来,并在自动驾驶上应用,但一直没有大的突破。
其根本的原因在于参数量。这是ChatGPT火起来的重要原因。OpenAI公司发现,模型参数如果多到一定程度,系统智能(模型精度)就会极大提升,原理现在无法解释,但已经有了一个词汇来形容——“涌现”。多到什么程度呢?一般来说,至少要1亿左右。当然,因为自然语言的信息密度高于图像,所以ChatGPT-2的参数量达到15亿个,而ChatGPT-3则达到1750亿个,刚好和人类神经元数量级别差不多。
自动驾驶中的大模型更为复杂一些,被称作为多模态大模型。作为一种可以处理多种不同类型数据的深度学习模型,它可以整合来自不同传感器的数据,并根据这些数据做出决策。多模态大模型通常由多个分支组成,每个分支处理不同类型的数据,例如图像、文本、声音、视频等。这些分支可以并行运行,并最终将结果合并以进行决策。与传统的单模态模型相比,多模态大模型的优点在于它可以从多个数据源中获得更丰富的信息,从而提高模型的性能和鲁棒性。例如,在自动驾驶领域中,多模态大模型可以同时处理来自相机、激光雷达和毫米波雷达等多个传感器的数据,以更全面地理解当前交通环境,并做出更准确的决策。
02
大模型如何颠覆自动驾驶?
具体而言,大模型如何部署在自动驾驶车辆上,又能部署在自动驾驶车辆的哪些模块呢?
首先是自动驾驶的感知部分,众所周知,自动驾驶的感知需要融合多个传感器的输入,从而完成数据的融合增强。在这个过程中,当传感器的检测结果冲突时,更加相信哪一方的结果便成了一大难题。而大模型的一大优势是可以处理不同类型的数据之间的关系。例如,在自动驾驶中,相机可以提供道路和障碍物的图像信息,激光雷达可以提供距离和深度信息,而毫米波雷达可以提供速度和方向信息。大模型可以将这些不同类型的数据融合在一起,以更全面和准确地理解驾驶环境。
其次,便是完成目标检测任务中的自动标注和预标注。以前都是有监督学习(人工训练),现在让AI自我训练,就需要先完成数据闭环。这就是为什么几家新势力说自己拥有“自动化数据标注系统”的原因,其实就是大模型的一个功能。而完整的数据闭环则囊括了数据采集、数据回流、数据处理、数据标注、模型训练、测试验证诸多环节。其中,“数据标注”是AI自我训练的前提,也是AI训练的成本节点。
所谓标注,就是给视频或者图像的关键信息点贴上标签,以便让系统认识并在实际操作中做针对性规划。显然,量产车采集的场景基本都是重复的,数据意义不大。专门采集车则比较贵(成本每天6000元-10000元)。重点是,如何尽量多地搜集到“长尾场景”,即不常遇见,但驾驶了很多次之后,每个人几乎都会遇上的场景(占5%左右)。在大模型上线前,都是人工标注。1000帧的视频数据,人工标注成本可能达到万元。而大模型目前最有价值的部分,莫过于自动化数据标注,可能会节约上亿元(取决于替代多少人标注数据)。
03
大模型时代,车企迎来全新挑战
在大模型时代,由于模型参数量的巨大,所采集的数据也在飞速增长,如何应用好车企赖以生存的驾驶数据,并通过分布式系统来进行部署和训练,最终如何应用在自动驾驶车辆上,都成了一大难题。
一般来说,数据闭环的工作现在已经分割给外包供应商、大模型平台公司(也可以视为供应商)和车企分别来做。很少有车企能够彻头彻尾地自己部署基础大模型,自己搞定应用层,自己设计预标注并实现数据闭环,再驱动算法更新。这即是L4的进化之路,它的技术复杂度要求车企与供应商充分融合式合作,而非传统的供应商“交付”-主机厂应用。
车企过于看重价值链全盘掌握,强调全栈自研,可能会耽误迭代进程。如果设计一种规则,比如基础层大模型由平台级公司设计,车企负责掌握标注规则,并将后续人工审核交给另外的第三方,拿回标注好的数据之后,自己进行训练。通过任务拆解,让自己处于自动驾驶价值链的核心地位。避免在关键技术上受制于人,也不用被迫接受由某个供应商提出软硬一体的解决方案。
总而言之,大模型的兴起又引起了掌握智能驾驶的新势力的一场狂欢,作为笔者始终认为想要在L4级别的自动驾驶领域走到最后,必须是智驾、车身一起抓,特斯拉已经为后来者指明了方向,在大模型时代到来之际,也将拉开新势力与传统造车厂的进一步差距。
04
总结
在未来,汽车的终极形态必然是一个行走的智能终端,大模型的火热也带动了智驾在汽车上的部署落地,使得L4甚至更高级别的自动驾驶成为了可能。
纵然很多人认为corner case对于自动驾驶来说将成为约束其发展的阻碍,但随着时间发展,采集到的极端场景数据越来越多,越来越全,总有一天可以让大模型学习到所有的驾驶情况,而那时自动驾驶时代将真正到来,走在前列的智驾公司也将赢得先发优势。