理想汽車自動駕駛負責人郎咸朋發(fā)表長文,回應(yīng)宇樹科技CEO王興興對VLA模型(視覺-語言-動作)的質(zhì)疑,王興興表示當下火熱的 VLA 模型(視覺-語言-動作)是“相對比較傻瓜式的架構(gòu)”,并表示“保持比較懷疑的態(tài)度”。郎咸朋認為,脫離海量真實數(shù)據(jù)的模型架構(gòu)是“空中樓閣”,看療效,而非空談架構(gòu)。理想之所以堅持VLA,是因為他們背后有超過150萬輛車的真實行駛數(shù)據(jù)(已超3.12億公里)作為支撐,這讓模型能不斷學習、進化。他強調(diào),理想的VLA本質(zhì)上是生成式模型,通過GPT方式生成軌跡和控制信號,已在某些場景下展現(xiàn)出對物理世界的認知涌現(xiàn)。此外,郎咸朋指出,世界模型更適合云端數(shù)據(jù)生成和仿真測試,而理想的VLA模型則依賴于數(shù)百萬輛車構(gòu)建的數(shù)據(jù)閉環(huán),以實現(xiàn)接近人類的駕駛水平。
郎咸朋進一步闡述了具身智能系統(tǒng)的重要性,包括感知、模型、操作系統(tǒng)、芯片和本體等部分的協(xié)同作用。他以底盤的VMM模塊為例,說明了精細化調(diào)校對自動駕駛控制信號的重要性,以及如何實現(xiàn)“身體”和“大腦”的協(xié)同價值。郎咸朋還提到,理想汽車能夠比友商更早落地VLA,得益于公司在數(shù)據(jù)、算法、算力、工程方面的優(yōu)勢。目前,理想汽車的總算力為13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于訓練。郎咸朋預(yù)測,如果明年理想汽車能做到1000MPI,VLA將迎來ChatGPT時刻。

CONTACT US
ICC APP