毫末智行&清华AIR自动驾驶精品公开课:DriveGPT开启自动驾驶大模型落地新范式
作为新一轮科技革命和产业变革的重要驱动力量,以GPT为代表的大模型技术正在引领新一轮全球人工智能创新热潮,为经济社会发展持续注入新动能。6月30日,毫末智行联合清华大学智能产业研究院(AIR)举办了今年第二场自动驾驶精品公开课,深入分享了大数据、大算力、大模型驱动下的自动驾驶发展趋势和技术原理。
本期课程是自动驾驶系列公开课程的第二期,在此前第一期聚焦自动驾驶AI技术原理的基础上,更进一步介绍了大模型之于自动驾驶背后的技术逻辑。现场,毫末智行数据智能科学家贺翔以《大数据、大算力、大模型驱动下的自动驾驶》为主题,从AI大模型的内核讲起,结合毫末发布的业内首个自动驾驶生成式大模型DriveGPT雪湖·海若,通过毫末在自动驾驶行业里用大模型思路实践经验,为大家全面分享了大模型技术落地自动驾驶的新范式。
回顾自动驾驶行业过去这些年的发展,贺翔将技术演进分为了3个阶段,即以硬件驱动为主的1.0时代、以软件驱动为主的2.0时代,以及正在进入的、以数据驱动为主要特征的自动驾驶3.0时代。“自动驾驶3.0时代的特点,是Transformer这样千亿级别的大模型,模型参数很大,一定是大参数、大模型、大数据。而大模型的必要条件是有大的算力。”
毫末智行从创立之初,就定下以数据驱动自动驾驶技术升级的公司技术战略,以领先的人工智能技术和智能驾驶规模量产作为自身优势,在2021年底,率先发布国内首个全栈自研的自动驾驶数据智能体系MANA(雪湖),又在一年后的2022年底,建成国内自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达到67亿亿次。
贺翔认为,自动驾驶当前的技术范式与十几年前的自然语言处理技术非常相近,即小数据、小模型,通过采集各种各样的交通数据、进行人工标注、再用这些数据训练出小模型,然后再把模型部署到车上,结合业务规则,去控制车。这种模式的弊端十分明显——一旦量产上车,当数十万辆车在全国各地跑起来,就会出现各种各样的路况、场景,如果还按照之前的思路去做人工标注,一方面,需要消耗大量的人力成本和时间,另一方面,则永远不可能标注完所有场景,就像运载着各种货物的挂车这类交叉组合的特殊场景需要做出不同种类的标注,而这种组合几乎是无穷的。
过去几年,自然语言处理领域,大模型技术取得了技术突破,尤其是GPT这样的大模型出现以后,大模型具备很强的泛化能力,通过一个大模型就能解决各类问题。
基于这样的行业困境、借鉴自然语言处理领域的经验,毫末相信大数据、大模型会成为自动驾驶领域一种新的解题思路。在技术路线上,毫末早在2021年初就开始探索将Transformer大模型技术落地应用到自动驾驶产品当中,同时也成为国内首家研发落地BEV感知技术的自动驾驶公司,并在2022年4月,率先在国内发布以“重感知”方式实现的城市NOH导航辅助驾驶产品。2023年4月,基于GPT大模型所具有的生成式、预训练、人类反馈强化学习等技术优势,毫末将视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型等五大模型进行统一升级,发布了行业首个自动驾驶生成式大模型DriveGPT雪湖·海若。
DriveGPT的底层模型与ChatGPT一样,都采用了生成式预训练模型架构,使用了大规模无监督的数据进行初始模型的生成,也都采用了Prompt微调方式和RLHF人类反馈强化学习的方式进行模型效果的优化;二者的不同之处在于,ChatGPT输入输出的自然语言的文本,而DriveGPT输入输出分别是历史场景序列和生成的未来场景序列,ChatGPT主要用于自然语言处理领域,而DriveGPT主要用于自动驾驶领域。
据贺翔介绍,DriveGPT大模型现在分成两个阶段,一个阶段是更通用、更基础的能力,即空间计算能力。另一个阶段是做驾驶决策,即要知道怎么开车。也就是在空间计算能力之上,再去叠加认知决策的能力。“驾驶决策,这其实还是一项特殊的技能,需要我们所有人学开车时候都要去驾校学一遍,大模型就相当于做(驾驶技能教学)这个事情。驾驶的技能都需要依赖对周围空间的三维感知,这种空间感知能力也是一种通用能力,我们希望这种通用感知能力,能对接不同的决策模型,完成不同的任务。例如对接自动驾驶决策模型就可以实现自动驾驶、对接机器人决策模型就可以实现具身机器人等等。”
贺翔表示,DriveGPT目前仍然以云端训练和推理的方式为主,但它已可以通过多种方式来赋能车端智驾能力。首先,可以通过多模态大模型的场景理解能力,进行高效数据筛选,为车端小模型训练提供所需要的海量极端、困难场景数据。“我们的大模型能在几秒钟之内从百亿数据里面,通过任意输入一段自然语言文本,类似人与人之间的自然对话,把图片找出来。”
同时,DriveGPT也具备很强的驾驶场景识别能力,可以使用这个能力来进行自动标注。基于毫末DriveGPT所建立的4D Clips驾驶场景自动标注方案,可以使得单张图片的标注成本降到0.5元,相较目前行业平均成本的1/10。毫末目前正在会将图像帧及4D Clips自动驾驶场景识别服务向行业开放使用,这将大幅降低行业使用数据的成本,提高数据质量。
在驾驶场景通用感知能力上,DriveGPT对视觉感知任务做了全面升级,以恢复真实世界的三维结构和纹理分布为目标,通过构建统一的空间计算Backbone实现通用视觉感知能力,在一个大模型中同时完成图片纹理、三维结构深度信息、实体语义信息、实体跟踪的学习,试图与人脑对物理世界的感知一样实现通用的视觉感知能力。目前,毫末视觉感知训练数据集达到400万Clips,感知性能提升20%。DriveGPT可以支持单趟或多趟的纯视觉NeRF三维重建以及数据生成,从而可以构造大量自动驾驶的corner cases,为行业提供更低成本、更大规模的自动驾驶能力测试的仿真环境,帮助行业伙伴快速提升自动驾驶技术能力。
除了感知层面,贺翔还分享了在DriveGPT认知决策层面的应用,当前的认知决策是把BEV感知结果作为输入进行驾驶决策训练。但是BEV感知结果会丢失很多信息,限制了驾驶决策的上限。DriveGPT则直接将空间计算Backbone对接驾驶决策,采用更丰富、更全面的感知信息来训练驾驶决策模型,结合海量的真实驾驶数据训练,最终实现端到端自动驾驶甚至达到无人驾驶。
贺翔表示,当前,毫末DriveGPT实现了模型架构与参数规模的升级,参数规模达到1200亿,预训练阶段引入5500多万公里量产车驾驶数据,RLHF阶段引入5万段人工精选的困难场景接管 Clips。同时,毫末正在将感知能力融入到DriveGPT大模型训练当中,形成一整套的端到端的自动驾驶能力模型。DriveGPT也将具备自动驾驶的场景理解、场景识别、场景重建、场景生成能力,以及驾驶能力测评等能力。
DriveGPT的出现,从底层技术上颠覆了以往自动驾驶认知决策过程采用人工规则、小模型的实现方式,首次探索以数据驱动的大模型方式实现自动驾驶的数据筛选、自动标注、驾驶决策,最终为实现端到端自动驾驶提供可能。
在现场问答环节,面对网友“大模型到底能给自动驾驶带来什么样飞跃”的提问,贺翔解释说:“我们希望通过大模型非常强大的泛化能力,能够大规模提升自动驾驶对于corner case的处理能力,有了这种能力之后,自动驾驶可以去任何地方,任何路况,自动驾驶的范围能处理的场景可能比现在大得多。”
而当谈到自动驾驶的“ChatGPT时刻”会在什么时候到来时,贺翔也给出了自己的看法。在他看来,ChatGPT之所以给了大家如此大的震撼,在于它天然是多面手。但是,一方面,在自动驾驶领域里面,不同于ChatGPT只处理文本信号,自动驾驶还要处理图片、点云、交通法规、地图、驾驶行为等一系列信息,自动驾驶要处理的数据模态更复杂;另一方面,自动驾驶对模型的输出精度要求更高、可解释性要求也更强。面对这种特别复杂的模态、特别高的输出要求,实现自动驾驶大模型道阻且长,但行则将至。
毫末智行联合清华大学智能产业研究院(AIR)举办的自动驾驶精品公开课共分4期,本期课程是第二期。在今年3月举办的第一期课程里,来自清华AIR和毫末智行的讲师已经为近百名业内媒体人介绍了单车智能自动驾驶、车路协同自动驾驶和高等级智能道路建设等自动驾驶技术发展,并向大家讲解了自动驾驶AI技术基础原理,以及当前大模型在自动驾驶的应用趋势。通过本期自动驾驶精品公开课,毫末与清华AIR一同为自动驾驶行业奉献了一场端到端自动驾驶前沿技术盛筵。未来,还将有清华AIR和毫末智行的老师为大家带来最前沿的业内技术分享。
如今,国内外大模型科研保持着高速迭代的态势,各类大模型层出不穷,模型性能不断提升,创新创业蓬勃兴起,展现了惊人的演进速度。相信未来,毫末也将继续用技术赋能自动驾驶发展,携手更多伙伴,推动行业发展,一同加速自动驾驶的“ChatGPT”时刻早日到来。