智融视界2025年10月09日 11:17消息,云栖大会聚焦AI汽车发展,探讨技术与应用的未来之路。
如果说大模型的上半场是以基于互联网大数据预训练为代表的数字AI;那么下半场则将由机器人、世界模型等为代表的物理AI主导。汽车正处在这两个阶段的交汇点上,成为两者之间的关键分水岭。

在2025年10月的杭州云栖小镇,今年的云栖大会现场,无论是会场外的天气热度,还是会场内的人流热度,都呈现出异常火爆的场面。

每一个我遇到的新老朋友都表示,今年人们对AI的关注度显著提升,讨论的问题也变得更加务实。
我这次关注大会的焦点,是汽车行业。因为这个产业,是观察人工智能未来发展走向的一个重要窗口。 在我看来,汽车产业正加速与AI技术深度融合,这不仅推动了智能驾驶、车联网等领域的突破,也反映出AI在实际应用场景中的落地进程。从技术演进到商业价值,汽车行业的变化能够为理解AI的发展趋势提供有力参考。
在云栖大会的汽车峰会开场词里,有这样一段话:
1886年,卡尔本茨发明了第一辆汽车。人类突破了肌肉的限制。139年后的今天,我们正在突破认知(智能)的边界。汽车成为了移动的计算平台,驾驶成为了人机协作的艺术,速度由数据的流转效率重新定义物理,实现拥抱数字智能,数字智能融入实体产业,汽车恰好站在这个交汇点上,成为虚实融合的最佳载体。
我的理解是:如果说大模型的上半场是以互联网大数据预训练为代表的数字AI;而下半场,则将转向以机器人、世界模型等为代表的物理AI。这一趋势表明,人工智能的发展正在从虚拟空间向现实世界延伸,技术的应用场景也在不断拓展。随着算力的提升和算法的优化,物理AI有望在智能制造、智能服务、自动驾驶等领域实现更深层次的突破,推动社会生产力的进一步提升。
汽车可能正好处于两者之间的分水岭上,承上启下。重要性如何形容都不为过。
不过,分量既然重,难度系数也高。
一方面,随着汽车智能化的不断推进,所需的资金资源正以指数级速度增长;尽管消费者对由中国车企打造的智能体验表现出浓厚兴趣,但在真正支付高额费用购买这些产品时,可能仍显犹豫。
汽车的“卷”字,大概也就从中而来。这是一个投入和收益的剪刀差时刻。
在这样的形势下,汽车行业的从业者们正在深入思考未来的发展方向。作为云服务和人工智能基础设施的重要提供者,阿里云能够提供怎样的解决方案?这显然值得进一步探讨。
一、当汽车学会"看"与"想"
智能驾驶,无疑是汽车智能化下半场最激昂的旋律。
因为无论将其推向L4、L5有多难,其不是选修课,而是决定一家车企生死的必修课,是不争的事实,这也是所有我这次云栖大会期间所访谈的汽车人士的共识。
而谈到智能驾驶,又必然谈到VLA。
云栖大会汽车峰会的圆桌讨论环节,元戎启行创始人兼CEO周光说了一句让人深思的话:"自动驾驶分级的定义太早了,是30年前的定义。当时定义L4就是基于高精度地图、基于SLAM的定义,有个地图能在里面跑就叫L4。"
这个观察切中要害。30年前,当美国汽车工程师学会(SAE)制定智能驾驶分级标准时,人工智能还处于"专家系统"时代。那时的工程师们想象的智能驾驶,是一台遵循预设规则的精密机器――如果看到红灯就停车,如果前方有障碍物就绕行,如果车道线向左弯就转动方向盘。
VLA的出现,改变了游戏规则。
VLA(Vision-Language-Action)是一种新一代AI架构,它不仅能“看懂”图像、“读懂”语言,还能基于理解直接驱动决策与动作,被视为大模型从“会说”走向“会做”的关键拐点。
理想汽车自动驾驶研发高级副总裁郎咸朋在圆桌上分享了一个生动的案例:"有用户发了个'十连绕'场景的视频――经过施工路段,隔一段就有井盖或路障,车辆绕来绕去都成功通过。用户第一天绕了不信,但第二天又试,还是能绕过去。"
他特别强调:我们并未对“连续绕十次井盖”这一场景进行具体定义,这正是能力涌现的体现。我们的目标是构建能力,而非局限于特定功能。 这种说法反映出当前技术发展中的一个趋势——在人工智能领域,系统的能力往往是在不断探索和实践中自然形成的,而非事先设定好每一个细节。像“连续绕十次井盖”这样的行为,可能在最初并没有被明确规划,但随着模型训练的深入,它却成为了某种能力的表现形式。这说明技术的进步不仅仅是功能的叠加,更是复杂能力的逐步显现。这种现象值得我们关注和思考,因为它可能预示着未来技术发展的新方向。
所谓能力与功能的区别,就像音乐家与音乐盒之间的差异。音乐盒只能播放预设的曲目,每个音符都固定不变;而音乐家则能理解音乐的本质,具备即兴创作的能力,能够根据现场氛围灵活调整演奏。当自动驾驶技术从“功能定义”逐步迈向“能力涌现”,汽车便不再只是冰冷的机器,而是逐渐演变成一种更具智能和适应性的存在。 在我看来,这种转变不仅仅是技术上的升级,更是对人类与机器关系的一次重新定义。未来,随着人工智能的发展,车辆将不仅仅执行预设指令,还能在复杂环境中做出判断和决策,真正实现人与车之间的深度互动。这标志着智能出行迈入了一个全新的阶段。
广汽集团自动驾驶首席科学家周寅在圆桌讨论中,也从技术层面解释了VLA为什么如此特别:"VLA利用了VLM(Vision-Language Model)的预训练,利用互联网海量知识让模型具有常识(common sense)。然后通过自动驾驶数据唤醒激活,能够处理长尾案例,实现零样本迁移(zero-shot transfer)。"
他列举了若干具体的能力涌现实例,包括自动避开道路施工区域、识别复杂交通标志、处理潮汐车道情况,以及能够识别未在训练中出现的纸箱和小动物等物体。
郎咸朋进一步解释了VLA中"L"(Language)的深层含义:"它并不是大家想象的对话或文字。它背后是人类长时序的思考、逻辑推理能力的体现。有人问我,不会说话的人就没有思维能力吗?不是的,他们也会看书、看文字,这些都是人类知识高度浓缩和压缩的过程,表达了长时间思维能力。"
维特根斯坦曾说:“语言的界限就是世界的界限。”当我们为机器赋予语言能力,实际上是在拓宽它们认识和理解世界的方式与边界。 在我看来,这种技术的发展不仅改变了人与机器之间的互动方式,也重新定义了我们对“理解”这一概念的认知。语言作为人类思维和交流的核心工具,其在人工智能中的应用,标志着机器正逐步跨越传统的功能限制,进入更复杂的认知领域。这不仅是技术的进步,更是对人类自身语言与思维关系的一次深刻反思。
但这种认知能力的获得是有代价的,是巨大的代价。
元戎启行CEO周光直言不讳地指出,智驾成本结构已发生明显变化:“以前可能97%的投入都用在了硬件上,但现在情况不同了。”他进一步表示,随着技术的不断成熟和规模化应用,软件和算法在整体成本中的占比正在逐步提升,这标志着智能驾驶行业正从早期的硬件驱动模式向更注重软件能力的方向转型。这一趋势不仅影响企业的研发策略,也对整个行业的竞争格局带来了新的挑战与机遇。