「我强调一下,我讲的突破是关于“自动驾驶”,不是智能驾驶,也不是辅助驾驶。」
「我们坚信,在现有计算平台上,带有监督的L3级自动驾驶是一定可以实现的。」
「随着这套技术继续演进、算力的增强、模型的加大,我认为无监督的L4级自动驾驶,也会在至少三年内可以实现。」
久未公开露面的李想,表明了他的判断。
有意思的是,近来理想陷入了裁员风波,有消息指其智驾团队已缩减到1000人以下。
如此一来,李想要怎么打开自动驾驶的大门?
理想,改变了原来的发展思路。
在去年Q3的财报会上,理想汽车总工程师马东辉曾表示——
「理想智驾团队计划到2024年底扩张至约2000人,2025年底扩张至超过 2500人。」
为此,理想不惜花高价钱招聘人才。
除去挖角其它大厂员工以外,有报道指针对去年秋招的高校计算机系应届生,理想就开出了60-80万元年薪。
面对被内部视为“一号工程”的智驾赛道,理想的不惜投入已经表明了决心。
但当下智驾团队的裁员,又跟去年的做法完全相悖,原因是什么呢?
此前,理想喊出了今年要卖80万辆。
但随着Q1只交付了8万辆以后,且纯电战略没能一炮打响,该目标已经变得渺茫。
特朗普这边也迅速爽快应战。他通过社交平台Truth Social作出挑衅性的回应,表示愿意在6月和9月与“骗子乔(拜登)”进行辩论,并“强烈建议”举行两场以上的辩论。特朗普还称拜登为最糟糕的辩手和美国历史上最糟糕的总统。
为此,理想缩减销量目标的消息,亦被传得沸沸扬扬。
而取消今年纯电新品的发布,该安排则得到了明确。
既然销量和纯电战略都能暂时放下,那么智驾作为“1号工程”的定位,是否也可以被调低下来?
理想缩减智驾团队规模,不排除一部分原因正出于此。
「作为一家健康企业,销量和毛利率是至重要的指标。」
「对于一家成立9年的汽车企业,我们一直是以这样的标准来要求自己。」
李想的表态,已表明了他当下的关注重点。
此外,理想产品高级副总裁范皓宇也说过,「我们不会赔着钱去搞智驾。」
如此说法,多少再印证了“理想智驾发展定位或被下调”的观点。
事实上,缩减智驾团队规模,并非只出于经营需要考虑。
近来,李想也道出了其中转变的原因——
「我们从去年9月开始研究,人类开车为什么不涉及学习极端案例?」
「如果我们不能解决这个问题,所有自动驾驶团队每天干的活,都是靠人工去调试各种的极端案例表现。」
「放的人越多,极端案例出现得越多,这和真正的自动驾驶越来越遥远。」
团队规模扩张,但没有带来正相关效果,这大概是理想对其动刀子的原因所在。
那么在减员以后,又该怎么做?
李想指出,「我们的大脑日常在工作的时候,分为系统一和系统二。」
「很多时候我们在开车,脑子里在想着别的事情,但我们仍然能够处理路上的各种路况。」
而在智驾领域,这个系统一就是端到端方案。
李想表示,理想过去在端到端做的研究测试中,用了大概100万的clips来训练端到端模型。
「训练卡要足够多,大概一个月做10轮左右的训练,就基本可以完成一个无图NOA相同上限的水平。」
尽管端到端带来了极大提升,但李想认为,面对中国的复杂路况,只有端到端还不够,还需要有系统二。
他给出的方案是,VLM视觉语言模型。
李想以宝马驾驶培训初级班的内容为例——
「他们只教了两个事情,一个是教看路的能力,另外是教刹车的能力,没有教任何的corner case。」
换言之,应对突如其来的corner case,关键在于一以贯之的扎实基本功。
VLM视觉语言模型,就是要用来做这样的基本功。
李想指出,该模型一方面是要为端到端进行兜底,并且要解决各种的泛化问题。
其中,包括像人一样读懂导航地图、红绿灯指示,即便有车辆遮挡红绿灯,也要有能力去处理。
更重要的是,VLM模型只需部署在车内,系统无需先经过云端来进行响应,由此缩短了应对时间。
「我们AD Max有两颗Orin-X芯片,一颗跑端到端,另一颗用来运行压缩到大概20亿规模的VLM模型。」
这番表态,再次强调了车端大算力对于城区高阶智驾的重要性。
端到端和VLM模型的能力虽好,但李想亦主动坦承,“它俩都是黑盒子。”
如何确保它们的稳定发挥,这都是不同车企在面对黑盒子模型时的难题。
李想指出,得益于Sora的启发,理想用Diffusion Transformers的方式构建了一个小型世界模型。
「通过这个世界模型,让我们的车在里面考试。」
就这样,通过「端到端+VLM模型+Diffusion Transformers」的三件套,理想完成了智驾层面的突破。
「我们验证出来的结果,令人非常兴奋。」
「我们认为在今年底或明年上半年,有监督的L3自动驾驶就可以批量向用户交付,而不是只用于做实验。」
理想,这回能保证做到吗?
国内的智驾竞赛,1年换一个花样。
2022年集体跟进BEV,去年则比拼OCC占用网格的上车速度,到了今年则是争相提出端到端。
这种演进转变,源于大家都选择紧跟着特斯拉的步伐。
用上了端到端的特斯拉FSD V12,确实擦亮了不少人的眼睛。
元戎启行CEO周光在体验后表示,「之前我以为可能只有80分,但实际做到了90分。」
开车更像人,这是大家普遍体验后对FSD V12的评价。
至于原来基于人工规则的30万行代码,这下仅剩2000多行,同样是FSD V12带来的主要变化。
写代码的需求量少了,这不可避免将造成智驾团队减员的情况。
此外,端到端带来的真实挑战亦不少。
李想指出,端到端的挑战主要来自于三个方面:
1、需要有真正会做端到端,包含端到端数据训练的人才;
2、需要真正高质量的数据;
3、需要有足够多的算力。
他强调,端到端对于算力的需求,跟以往比已经完全不同了。
马斯克就曾指出,「每10000km的行驶数据,只有1km能训练模型,而且每训练一遍,都需要消耗大量算力。」
「用100万个视频case训练,这只是勉强够用,200万个则稍好一些。」
「用上300万个,就会让人感到wow的转变,而在1000万个以后,就让人难以置信了。」
特斯拉FSD V12,是基于已经安装和投入使用约3.5万块英伟达H100芯片而来。
马斯克表示,到今年底该数字可能会达到8.5万块。
这增加的5万块GPU,耗资或超108亿元人民币。
作为参照,去年蔚来的总研发投入是134亿元,小鹏的是52.8亿元,理想则是105.9亿元。
单是在买卡方面,特斯拉的投资已经冠绝群雄。
为了通往自动驾驶的境界,这端到端的钥匙真的贵得要命了。
值得注意的是,不久前何小鹏指出,目前小鹏拥有7000张训练卡。
同时,小鹏计划每年算力训练投入超7亿元。
但这跟特斯拉相比,只能说是小巫见大巫。
不过,何小鹏认为,「有算力很难,但算力用起来更难。」
「今年小鹏的算力不紧张了,因为很多人买了算力用不起来。」
他指出,小鹏对算力的使用是质的改变,这不是1%的变化,而是从70%提升到95%的突变。
有意思的是,此前余承东说到,目前华为有着3.5 EFLOPS的训练算力,超过了第2名和第3名友商的算力总和。
得益于此,他认为现在真正能够做到好用的智驾就只有2家——特斯拉和华为。
余承东还强调,等特斯拉FSD入华后,华为有信心干翻对手。
小鹏和华为,两者的智驾斗法仍在继续。
这不仅体现在言语上,双方还率先拿出了各自的端到端方案。
小鹏表示,其方案能够做到2天迭代一次,在未来18个月内对智驾能力提升30倍。
因此,何小鹏认为,高阶智驾的拐点将在18个月内到来。
面对小鹏和华为的互不相让,向来自居智驾头部的理想将给出怎样的表现,这点值得注意。
「我们非常有信心地说,2024年理想的智能驾驶产品和研发能力,在国内绝对是数一数二的。」
有了理想总裁马东辉这样的表态,我们大可对理想的表现予以更多期待。
谈论端到端的重要性,这是今年智驾的热门话题。
日前,蔚来智驾研发副总裁任少卿也给出了自己的看法。
「你得有一些基本能力之后,端到端这玩意才有用,否则它是个毒药。」
「做端到端的前提,是智驾各功能模块都已经完成模型化,且有足够性能与效率的工程体系支撑。」
端到端,解决了不少过去人工规则所难以逾越的难题。
但从堆算力,到建立起整个工程体系的支撑点,这似乎又回到了一些基本项的比拼——
有多少钱去投入、能买到多少张训练卡、团队工程能力是否过关等等。
当下,大家都已摸清楚了发展方向,就看怎么在细分项目上作出过人成绩了。
这自动驾驶的钥匙看着不远互联网配资炒股平台,但想要拿起来,还得有些真本事。
智驾李想端到端小鹏算力发布于:上海市声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。