2026年4月,在2026智能电动汽车发展高层论坛上,清华大学车辆学院、人工智能学院教授/博导 李升波出席论坛并发表主题演讲,以下为演讲全文。
尊敬的各位嘉宾,各位同事,大家好!
我是来自清华大学的李升波,非常荣幸能够在智能电动汽车发展高层论坛介绍我们的工作,与大家分享在智能时代如何推进具身智能的端到端技术研发。我今天的报告包括两部分内容:一、谈一谈人工智能发展态势;二、总结自动驾驶行业当前现状、目前发展趋势。
人工智能已从概念阶段全面迈入现实应用,过去十年间,一系列里程碑事件持续推动社会认知不断深化:从2015年ResNet在图像识别任务中超越人类水平,2017年AlphaGo战胜围棋世界冠军柯洁,到2022年ChatGPT问世,再到2025年初DeepSeek推理模型的重磅推出,这些标志性进展充分表明,人工智能正加速成为新一轮科技革命与产业变革的重要驱动力。
人工智能的发展正由信息空间逐步迈向具身智能,即深度融入物理世界。人类本身就是典型的物理世界智能体,通过眼睛实现环境感知,经由大脑完成决策判断,再通过肢体执行具体动作,并持续地与外部环境交互。如何实现可靠的物理世界交互,是当前研究的关键问题。
从应用形态来看,物理世界交互的研究主要集中在两个方向:一是自动驾驶,二是机器人。二者在感知、决策、控制和训练等核心技术链条上具有较强共性特征。自动驾驶自2015年进入快速发展阶段,目前已形成了清晰的商业化格局。同时,具身智能机器人在近两年持续升温,成为行业关注的热点。从更长周期来看,人工智能将进一步嵌入各类可运动、可交互的实体系统,泛在具身智能有望成为未来人工智能发展的重要趋势。
从技术路线看,端到端训练已成为具身智能的重要范式。无论训练数据来自仿真环境还是真机平台,其核心都是通过大规模数据汇聚与训练,构建端到端神经网络模型。从训练范式看,当前主要包括两类技术路径:一类是模仿学习;另一类是强化学习。
汽车可以视为具身智能最早落地的产品形态,其驾驶过程与人类行为模式具有相似性,需要通过传感器感知周围环境,再由端到端模型完成感知、决策和控制,最终将指令送至车端执行。如何高校训练这类端到端模型,仍然面临诸多显著挑战。
特斯拉是自动驾驶端到端路线的发起者。2024年,特斯拉发布FSDV12,标志着自动驾驶研发正式由传统专家规则驱动转向端到端设计阶段。其训练路径具有两个典型特征,一是依赖大规模量产车开展数据闭环;二是依赖超大算力云平台完成训练、更新和迭代。对于国内企业而言,如何在数据、算力与模型路线的多重约束下推进端到端乃至VLA(自动驾驶大模型)相关研发工作,仍是需要系统思考并解答的问题。
进一步分析来看,当前国内自动驾驶端到端研发领域至少存在三方面挑战。第一,训练数据规模与质量能否与特斯拉相匹配,因为数据规模直接决定了模型性能的基本边界;第二,现有算力是否能够支撑亿级参数规模模型的高效训练;第三,训练算法、框架是否成熟,尤其是能否突破单一监督学习路径的局限,并持续扩展新的训练方向。这些问题既是技术层面的关键判断,也是产业落地过程中必须面对的现实约束。
对于高校而言,我们也在持续思考这些问题。概括来看,目前主要形成两点判断:
第一,应通过仿真技术实现更大规模的数据生成,不能完全依赖车端或者大规模量产车采集的方式来解决数据匮乏难题。随着相关技术发展,世界模型等方法正在成为仿真能力的重要延伸;
第二,要更加重视高效算法的研发与应用,DeepSeek的进展带来了一个重要启发,即在更高性能算法的支撑下,可以显著降低对传统数据规模与算力扩张路径的过度依赖。
因此,设计更高效的训练算法也是高校的一项重要任务。
围绕这一思路,清华大学自2018年起,便持续在行业中推广端到端训练路径,并重点聚焦数据不足与算法效率受限这两个核心问题。我们的基本方案是构建两段式端到端模型,分别形成感知基座模型和决控基座模型,以仿真数据作为主体,结合实车数据和路侧数据进行辅助;在训练过程中,先开展基座模型监督预训练,再通过虚实融合强化学习完成微调,从而提升模型性能、泛化能力与部署效果。
在此过程中,我们研发了一系列面向行业的工业软件,包括高保真自动驾驶仿真软件和强化学习的训练软件,旨在通过技术产品化的方式赋能行业高质量发展。我们发现,自动驾驶领域的数据生成技术,从早期的物理引擎到当下的世界模型,均属于仿真技术的范畴,如何打造高保真的仿真平台,是我们的核心研究之一,未来将构建更具智能性的交通行为模拟、打造更高效的模型训练平台、实现更精细化的环境模拟,持续提升仿真技术的支撑能力。
与此同时,我们开展了一系列关键技术探索,包括传感器模拟(涵盖激光雷达、摄像头、毫米波雷达)、3D/4DGS技术、世界模型等。
另一重要方向是训练平台的搭建。当前各类训练技术分散于不同企业与高校实验室,如何整合这些分散技术、更好地赋能行业发展,是我们重点推进的工作。
清华大学自2021年起研发强化学习平台GOPS的研发工作,目前已融合主流算法、测试环境及数据集,力求一站式解决企业在模型训练过程中面临的各类难题。围绕强化学习训练的核心需求,我们先后开发了DSAC算法、RAD优化器、LipsNet神经网络、安全强化学习算法RACS、多模态强化学习算法DACER、世界模型强化学习算法BOOM,同时推出非线性状态滤波器NANO,并面向大模型研发了STAPO等相关算法,持续提升模型的训练效率与核心性能。
在此基础上,我们完成了国内首个端到端自动驾驶模型的开放道路测试。该模型采用全神经网络架构,覆盖环境感知、预测、决策与控制核心部分,并于2024年完成开放道路的实车测试。同时我们发现,该领域仍面临诸多挑战。
其一,模型架构仍处于持续迭代发展阶段,远未达终局形态。当前VLA模型成为行业热议的发展方向,我们也相信,应该从端到端基础模型入手,持续融入语言类模态,最终构建起动作、视觉、语言深度融合的多模态模型。
其二,仿真技术的发展从早期基于物理引擎的仿真平台,到依托3DGS重建的仿真,再到当下备受关注的世界模型,仍有大量工作亟待持续完善与迭代优化。
同时,我们也想谈一谈具身智能的后续挑战。
近期诸多自动驾驶领域从业者投身具身智能研究,我们发现,机器人具身智能与自动驾驶具身智能的技术栈高度相似。汽车可视为具身智能的初级形态,其自由度较低,应用场景规范,交互对象也相对有限。
而进入机器人领域,无论是工业制造、家居服务还是商业服务场景,其自由度均大幅提升,从双足、轮式到双臂式机器人,其自由度远高于汽车;场景结构也更为复杂,交互对象更是覆盖视觉范围内的所有对象,这导致具身智能问题的解决难度大幅增加。我们始终认为,端到端训练是攻克机器人具身智能模型的核心路径,但二者之间存在本质性的难度差距。
从数据规模看,自动驾驶领域约1亿片段数据可达到模型训练的入门门槛,模型规模达到1B、10B参数量基本能实现智驾功能;若以自动驾驶的训练复杂度为基准,具身机器人领域的训练难度更高。
当前,行业普遍低估了具身机器人的训练难度。具身机器人的交互数据片段规模需达到十亿甚至百亿级别,神经网络参数量的入门基准约为100B;无论从监督学习还是强化学习角度,其训练难度相较自动驾驶均有约5-10倍的提升,这也是二者的核心差异所在。
总体来看,未来是人工智能大发展、大有可为的时代。当前信息智能领域的人工智能模型已完成核心研发,以豆包、ChatGPT等代表性产品已落地应用,我们预判这一时代将于2028年左右步入成熟阶段。物理智能领域则刚刚兴起,未来10至15年,该领域将涌现大量新技术、新方法与新企业。从更长远来看,机器与人的深度融合将成为发展趋势,我们将其定义为“生物智能”,量子计算、人造生命等前沿方向或将在此阶段实现突破,这一发展进程预计需要15至20年甚至更久的时间。
各位同事,我的汇报到此结束,谢谢大家!
【独家稿件及免责声明】本网注明转载文章中的信息仅供用户参考。凡注明来源“运输人网”的作品,未经本网授权均不得转载、摘编或使用。联系邮件:master@yunshuren.com
评论