北京車展期間,華為、元戎、Momenta均推出了端到端的量產(chǎn)智駕方案。
華為一直是話題流量的王者,擁有極強的技術號召力,研發(fā)規(guī)模達7000人。2022年之前,華為也在用高精地圖,而后堅定地走無圖路線。2023年4月16日,華為正式發(fā)布不依賴高精地圖的ADS 2.0。
Momenta則是依靠自己豐富的量產(chǎn)經(jīng)驗,與比亞迪、廣汽、豐田、奔馳、通用等車企的合作,為它的端到端方案提供了數(shù)據(jù)養(yǎng)料。
相比于前兩者,元戎的特點在于原生的AI基因,發(fā)力時間早。如果以端到端的研發(fā)時間來看,元戎2023年3月就確定了端到端方向的研發(fā),8月就完成了端到端模型的道路測試。從這點看,元戎是國內最早把端到端模型測試車跑在城市公開道路的方案商。
據(jù)雷峰網(wǎng)了解,元戎的第一款車的量產(chǎn)僅僅花了8個月的時間,而后續(xù)一個新的車型適配時間會縮短到3-4個月。10月,吉利與奔馳合資的Smart品牌旗下的smart 精靈#5 上市,該車型也采用了元戎啟行提供的無圖城區(qū)NOA功能方案。
11月初,元戎啟行完成一輪1億美元的融資。截至目前,元戎啟行已完成6輪融資,累計融資金額超5億美元,高階智駕平臺DeepRoute IO已成功搭載上車,與車企共同打造的量產(chǎn)車已超2萬臺,并與多家主流車企共同推進10個量產(chǎn)項目,涵蓋了SUV、MPV、越野等各種車型。
端到端的原理無需贅述,想要做好一個端到端模型有三個因素:好的模型、海量的優(yōu)質數(shù)據(jù)和大算力。更容易形成壁壘的,是前兩者。
與大語言模型在互聯(lián)網(wǎng)上爬取海量文字數(shù)據(jù)用于訓練不同,端到端智駕需要的視頻數(shù)據(jù)獲取成本和難度極高。量產(chǎn)上車,是獲取優(yōu)質數(shù)據(jù)、迭代模型的一條必經(jīng)之路。這也決定了端到端是一條“強者恒強”的技術路線,留給后來者的時間窗口則會越來越小。
元戎啟行CEO周光說,元戎已經(jīng)投入了更多的精力在下一站的VLA模型。VLA模型是一個融合了視覺、語言和動作的多模態(tài)模型,可提高模型的泛化能力和判斷推理能力。到2025年,元戎的 VLA 模型將基于英偉達下一代智能駕駛計算平臺Thor正式發(fā)布,屆時元戎將成為業(yè)內首批將 Thor芯片部署上車的智駕公司之一。
目前,行業(yè)里流行的做法是One Model端到端+VLM技術架構。
在周光看來,VLM+端到端與VLA模型的區(qū)別在于,前者是教練通過語言的形式教學員開車,后者是教練自己開車。“教練開車和學員開車,兩種方式你更放心哪一個?”
元戎有著不同于行業(yè)的競爭心態(tài):不打價格戰(zhàn)、不搞車海戰(zhàn)術。周光表示,“如果合作的車型只能賣100、200臺沒有意義。我們需要的是數(shù)據(jù),所以我期待有更多的爆款車,來補齊工程化的基因。
明年,元戎會基于端到端架構去拓展Robotaxi業(yè)務,并且積極開展海外業(yè)務,明年還會參加日本車展。
周光認為,“元戎啟行的公司愿景是為真正的AGI做一些貢獻,汽車不應該定義成汽車,而是一個機器人的載體,希望元戎啟行的技術能夠應用到整個物理AI。”
11月3日,雷峰網(wǎng)《新智駕》與周光進行了一次對話。以下為對話內容,結合了部分元戎融資溝通會的問答。
新智駕:元戎的這輪融資,應該是今年智駕行業(yè)比較重磅的一筆。
周光:近兩年從投資機構拿錢挺難的,其實我們也有能力去融一些比較好拿的錢,但沒必要。我們賬上還有余糧。而且,我們的風格是該花的花,該砍的砍,我們砍掉了港口,也砍掉了L4。
新智駕:這筆錢對于行業(yè)有什么樣的激勵作用?
周光:行業(yè)里有做得好的拿到了錢,這很正常。最差的情況是什么?你做到最好也拿不到錢。
新智駕:能不能談談你們跟客戶第一次見面時的場景?對方提了那些要求?
周光:我挺佩服他們的。第一次就見了他們總裁,只對我們提了一個要求,要求我們all in,在量產(chǎn)車上實現(xiàn)跟今天一樣的效果。實際上,做到今天這樣上車的效果,沒有雙方all in是不可能的。他們也是全力以赴,特別開放地投入。
而且,我們量產(chǎn)真的是第一次走完全程,不是幾百臺工程車,所有的問題都是在萬級的數(shù)量級去體驗。你不知道我們客戶會把車開到哪里,就好像有的case在農(nóng)村,到處都是雞。但最后,我們也都處理好了。
新智駕:在這些極端場景里,元戎做的怎么樣?
周光:跑得可以。2023年3月,我們就發(fā)布了“無圖”方案,我們第一個搞出來的。但當時我們做了一個非常巨大的決定:量產(chǎn)端到端。這就意味著,我們是原生的端到端,一開始就是端到端的技術架構,所有的產(chǎn)品、工具鏈都是圍繞端到端來開發(fā),不能先上一套rule-based的無圖方案再去迭代。
我們是唯一一個,你跟我約定一個城市,我們就能在約定地點一起接車,馬上去測試的公司,我覺得直到今天也很難有公司這么做。
做得好也因為我們足夠all in,我有三四個月待在主機廠所在的城市,回到深圳的家都有點陌生。但做項目需要雙方都all in,如果是各懷鬼胎沒有意義。
新智駕:八個月的量產(chǎn)時間是如何做到的?
周光:我們之前也有過幾乎量產(chǎn)的定點項目,這個項目還是現(xiàn)在智能化營銷做得最好的一個品牌。借這個機會,我們也積累了很多的項目經(jīng)驗。
雖然我們在技術上走得最早,但當時行業(yè)認知是,做自動駕駛必須有圖,大家都認為“無圖”是皇帝的新衣。光靠元戎根本不可能(把市場教育起來),連車都上不了。只有這個品牌有能力成為“鯰魚”,去把智能駕駛行業(yè)攪活起來。
這個公司學習了元戎的技術,干出了第一版“無圖”方案推向市場。所有主機廠才慌了,才掀起了國內的智能化浪潮,中國汽車市場的智能化水平才能像現(xiàn)在這樣。
新智駕:跟主機廠的合作,讓你們學到了什么?
周光:我們跟主機廠的合作,本質是把我們變成更to C的公司。哪怕是端到端、“無圖”技術,沒到量產(chǎn)前,都還是通過demo獲取客戶,你只關心這個系統(tǒng)的上限。
但是真正的量產(chǎn),需要把產(chǎn)品交到消費者手中。你對底線的把控、對穩(wěn)定性的把控、對一致性的把控,這非常重要。2020年,我們10臺車里只有7臺能用,其余3輛不知道什么原因用不起來,這也是量產(chǎn)上的經(jīng)驗不足導致的。
跟頭部主機廠從0到1量產(chǎn)合作,是極其難得的機會。因為0到1是最關鍵的,市場機會是逐漸收斂的,沒有人再愿意冒險把車給沒有量產(chǎn)經(jīng)驗的廠商。我覺得元戎是最有tech vision的。
新智駕:第一個量產(chǎn)項目有沒有掙到錢?
周光:營收很可觀。但如果要覆蓋研發(fā)成本,那(第一個項目)還不夠。高階智駕和低階智駕不一樣,高階智駕的市場沒那么惡劣。我們現(xiàn)在跟別人談都說:元戎比別人貴,但是效果好。并且比現(xiàn)在某頭部廠商,我們(智能駕駛系統(tǒng)的)價格還是很親民的。
新智駕:有哪些量產(chǎn)經(jīng)驗可以沉淀下來?
周光:核心還是系統(tǒng)穩(wěn)定性。本質我們是一個AI系統(tǒng),不是靠代碼,按道理我們的工程難度比中低階rule-based公司難度低。他們寫if-else,遇到問題就反復調。我認為這不是工程學問題,我們是AI,為什么要調整那些規(guī)則呢?
新智駕:基于AI就不會出現(xiàn)bug嗎?
周光:不能叫bug,并且我們有安全機制。第一,我們出現(xiàn)問題的概率很低,第二,我們對安全問題有兜底。另外,安全兜底機制肯定要迭代。隨著AI能力的提升,你會更不想去限制這個AI。只是在某些場景下,兜底機制會去接管這個車輛,避免風險發(fā)生。其實,今天的AEB就是人類智駕的兜底,我覺得未來AI Safety會變成新的AEB。
新智駕:未來合作車型有什么進展?
周光:在共同推進10余款車型的量產(chǎn)。我們是和客戶深度合作,跟一些廠商的車海戰(zhàn)術風格不一樣。這樣的邏輯,車企也愿意跟我們一起打造爆款車型。
新智駕:數(shù)據(jù)背后,數(shù)據(jù)的帶寬和存儲費用就很巨大,這個成本和算力儲備問題如何解決?
周光:端到端跟VLA對算力要求沒有語言大模型那么大,今天的Orin能夠實時跑的也就是10億的參數(shù),車端的端到端VLA跟真正的大語言模型比起來是個小網(wǎng)絡。
做端到端和VLA的時候,算法是巨大的差距,對算力的要求沒有大模型那么大,我們自己投了不少錢在卡上,也有自己的算力儲備。同時阿里也是我們的股東,我們在有算力需求時候也可以跟股東尋求幫助,這并不是問題。
新智駕:目前元戎團隊規(guī)模如何?
周光:集團人數(shù)800人左右。人越多說明你越原始,越不是端到端。AI相關人才難以快速擴招,但是量產(chǎn)交付的工程團隊相對好點,這么多年,主機廠、傳統(tǒng)Tier1已經(jīng)培養(yǎng)了很多工程人才。
新智駕:元戎是行業(yè)里比較早做無圖的公司。但是此前,在我們的采訪中,有地圖廠商的負責人直言:過去,高精度地圖全部裝在車機端的,現(xiàn)在變成在訓練端。一些車企每時每刻都在用高精度地圖,同時通過數(shù)據(jù)采集,進行云端訓練。什么才是真實的無圖NOA?
周光:我們是最早的,不是比較早。比較早期的版本,確實很難看出來是不是無圖。但是端到端模型做出來的時候一定是基于“無圖”。你想做好AI,你就沒辦法用高精地圖的形式去做。高精地圖是矢量數(shù)據(jù),AI不擅長處理矢量數(shù)據(jù),就跟人對加減乘除一樣天生不擅長。
新智駕:目前,高階智駕里有一個不成文的“華大地魔”的第一梯隊的說法,您認可嗎?
周光:華大地魔是去年的說法。去年能跑高速NOA的就能稱為高階,但今年的高階就是真高階,要有城市NOA?,F(xiàn)在已經(jīng)量產(chǎn)城市NOA的智能駕駛公司也就三家,元戎是其中一家。
新智駕:今年的快速發(fā)展,元戎是不是已經(jīng)進入了第一梯隊?在您的標準里,哪些要素是成本第一梯隊必備的?
周光:具備“無圖”端到端的城市智駕能力,才有可能進入第一梯隊。但這是一個雞生蛋、蛋生雞的問題。你要做端到端就要先量產(chǎn),沒有量產(chǎn)數(shù)據(jù)玩不了端到端。但你現(xiàn)在沒有端到端,之后就量產(chǎn)不了。這就是為什么我說以后的智駕方案商會很難,身位會被拉得越來越遠。沒量產(chǎn)經(jīng)驗的,想讓車廠付出一定的時間成本陪你玩,這很難了。
另一方面,成為第一梯隊,你需要有萬臺級起步的量產(chǎn)車,低于萬級沒有意義。端到端1.0能有萬臺級的車,效果就很好。要做VLA,10萬臺車的規(guī)模才是一個理想狀態(tài)。VLA對數(shù)據(jù)量的要求會比端到端1.0多一個數(shù)量級。國外的一些端到端公司沒有量產(chǎn)項目,解決不了數(shù)據(jù)問題,10億美金也買不到數(shù)據(jù),物理AI在中國的機會還是比較大的。
新智駕:此前,元戎被媒體報道會采用高通的智駕芯片。但是您在公開演講中也表示,基于端到端模型,元戎啟行正基于Thor芯片研發(fā)VLAM(Vision-Language-Action Model,視覺-語言-動作模型),該系統(tǒng)將于明年推出。高通的這一說法靠譜嗎?
周光:我們還在評估。我們的方案可以適配各家芯片廠商,可以根據(jù)主機廠的要求去做適配。芯片是主機廠選,尤其是海外的主機廠,會更提前選定芯片廠商。
新智駕:現(xiàn)在是11月,明年到這個時候,端到端會有什么樣的變化趨勢?
周光:可能今天你用高速NOA覺得很舒服。但在端到端出來之前,城區(qū)高階智駕就不是好用的狀態(tài),真正好用還是在端到端出來之后。
到明年這個時候,你用城市NOA就會像高速NOA一樣舒服,百公里級的接管頻率明年應該能看到。當消費者很愿意用的時候,市場就真的收斂了。
新智駕:今年年初,您關于L4的說法引起了不少爭議,您的看法還是這樣嗎?
周光:L4這條路就是有局限性,它商業(yè)化落地就是很難。我覺得,大模型出來之后,大家更信AI了,這是一個價值觀的變化。你不能對這個世界發(fā)生的事情無動于衷。
我是2020年就意識到(基于高精地圖方案的)L4這條路存在不足,但是我們會做robotaxi,以端到端架構支持運營,而不是基于模塊化的、基于高精度地圖去做,那沒有意義,沒有商業(yè)化。我們的運營模式就是沒有區(qū)域限制的運營。
物理AI最根本的目的一定是取代人,自動駕駛的最終目的也是把人去掉,讓機器幫我們開車。技術線路的問題,就是說你不要拿Waymo這套技術線路和特斯拉的技術線路比,兩個出發(fā)點是不一樣的。
新智駕:元戎有上市計劃嗎?
周光:我們不急。因為我們走在正確的路上,也有自我造血能力,沒有什么上市壓力。