受訪嘉賓:
智己汽車CMO 李微萌
智己汽車副CTO 郭輝
智己汽車智駕中心總監(jiān) 賀錦鵬
智己智駕項目總監(jiān) 王康
Momenta CEO 曹旭東
Q:如何評價端到端?智己與Momenta的端到端和友商比較有什么差別?
曹旭東:今年,端到端大模型概念很火。實際上,行業(yè)里端到端大模型是多條途徑,包括橫向、縱向,但真正做到這些的并不多。一些所謂的端到端大模型,只輸出橫向,沒有縱向輸出。但我們的端到端是比較完整體的端到端:首先是一段式,感知和規(guī)控是完全打通的;其次,我們端到端軌跡同時控制橫向與縱向,相當于橫縱向通過大模型同時得到很好的優(yōu)化,在智能性、舒適性、安全性上都能達到了更高的天花板水平。
我們有一個概念,叫做有直覺 “有直覺”就是“車隨心動”,想到什么,車就做了,而且非常絲滑。當你看到一個場景,你覺得這個車應該那樣開的時候,它立刻馬上那樣開了,這就非常直覺。
智己聯合Momenta打造的一段式端到端智駕大模型,不光是擁有“人的直覺”,而且擁有“海量的好司機直覺”。我們收集了海量數據,從中篩選好司機的駕駛行為,同時還有一些好的指標,比如,智駕的橫向避讓比人避讓的多還是少?比人加速的多還是少?最終基于海量的數據分布,運用老司機、好司機的駕駛行為指導智駕學習。當然,不僅僅是老司機、好司機的行為,還有絕大部分被認可的駕駛行為習慣。
Q:智己的一段式端到端大模型實現機制是什么樣的?
李微萌:一段式端到端的技術路線非常好。五、六年前,大家還不覺得城市NOA這么快實現的時候,更多專注于高速高架NOA的研發(fā)。那時候有兩個技術流派:一個技術流派是rule-based(基于規(guī)則),另一個技術流派就是我們和Momenta所堅定走的Data-Driven(數據驅動)的技術路線。今天,為什么有人是兩段式端到端,我們直接做了一段式端到端?我們覺得一段式端到端一定是未來領先的。智駕到最后一定是像人一樣開車,人開車的時候不會先認識這是瓶子,再做規(guī)劃。
當年為什么有人選擇rule-based,因為它可以快速的變成汽車的賣點給到用戶。但是Data-Driven(數據驅動)要的訓練量很大,一開始的起步沒有那么的好,沒有那么快,需要不停的累計學習。當時rule-based都已經把這些場景做出來了,可以做好。但今天我們來看,當年選擇Data-Driven(數據驅動)是對的,因為智駕一定會實現城區(qū)NOA,以及L3、L4也會實現。
曹旭東:我們和智己對于數據驅動特別有信仰,Transformer在2018年就出來了,到2020年已經用Transformer做Planning(規(guī)劃)。那時候,行業(yè)里很多人說用Planning做Planning,或者數據驅動做Planning,肯定是不太可能的。放到當時場景,有理由的,那時候發(fā)現用Deep Learning Planning(深度學習規(guī)劃)做Planning,在有些場景會有驚艷的表現,但是也會在很多場景有很多匪夷所思的問題。我們研發(fā)體系和智己打磨,2021、2022年,到2023年初,我們才真正的把智己Deep Learning Planning(深度學習規(guī)劃)做到量產。
現在回過去看,那時候我們做到的相當于現在行業(yè)里兩段式端到端,只不過那時候沒有流線的數據。為什么先做兩段式,因為開發(fā)難度更小一些,先把兩段式先做出來,在去年成功量產。我們用Deep Learning 做Planning比特斯拉更早,特斯拉今年上半年才上了端到端,Planning變成深度學習。今年,我們已經有兩段式,再加上背后一整套研發(fā)體系的支撐,在今年成功實現一段式端到端。一段式端到端的優(yōu)點天花板更高,缺點是研發(fā)難度更大,包括怎么Debug問題的可解釋性以及怎么高效的解決問題,它需要很強的研發(fā)體系支撐才有可能做到。
賀錦鵬:兩段式端到端和一段式端到端,行業(yè)各種各樣的解釋方式,有說各種各樣模型堆疊在一起屬于兩段式或者多段式。我們在2023年蘇州發(fā)布會講過了”認知智能“和”感知智能“同樣重要,基于這個前提,我們做了幾種Planning的Deep Learning(深度學習)。那時候沒有用兩段式端到端的名詞,結果兩個模型的顯示傳遞,現在行業(yè)所提到兩段式端到端,不管什么樣的技術,最終目的是能夠擬人,并超越人。
《新機器智能》作者霍金斯被稱為腦科學領域的科技怪人,他提出人腦運行機理類似于經驗+預測大模型,跟我們當前大家所做的一段式端到端基本理念是一樣,經驗是做的訓練、大數據,海量的優(yōu)質的數據,預測是端到端本身的輸出。不管對自己行為預測還是對周邊障礙物預期目標軌跡的輸出,也是完全暗合了人腦腦科學發(fā)展領域和趨勢。這是我們認為的“為什么一段式端到端上限更高”,同時我們不排斥在有些模擬推理上工作內容也會疊加在端到端上。
Q:智己的“快慢系統(tǒng)”、“短期記憶和長期記憶”,與其他車企的區(qū)別是什么?
賀錦鵬:我認為現階段大家比的是對行業(yè)技術趨勢的理解,以及資源投入。如何實現快速迭代?各家會有差異化,這個答案不是標準答案。就行業(yè)趨勢而言,是相同的,頭部幾家都在做一段式端到端大模型;難點是海量、優(yōu)質的數據,以及怎么做快速迭代。在相同趨勢的基礎上,智己提出額外內容,通過“快系統(tǒng)”“慢系統(tǒng)”相互配合,通過仿真人腦,用“直覺推理+邏輯分析”的方式正確處理問題??煜到y(tǒng)即直覺推理,善于直覺與經驗快速處理問題,形成決策。這是我們認為有差異點的地方。后續(xù)我們也會和Momenta在增大云端總體算力,增強大模型的快速產出的能力。
Q:智己與Momenta的合作模式,兩家如何配合?
郭輝:智己與Momenta的合作堪稱行業(yè)典范,智駕領域強強聯合模式建立起領先優(yōu)勢,把大家的優(yōu)勢組合起來,轉化成最好的產品,給到用戶極致的體驗,這才是我們的終極目標。在整個合作過程中,Momenta基于深度學習、神經網絡,以及數據方面的知識和能力,為智己帶來了非常大的幫助。從智己角度來講,我們在工程化方面的經驗,包括對整車的理解,包括怎么能夠讓智駕系統(tǒng)在車上實現十萬輛乃至更大規(guī)模的技術落地,我們要做大量的工作,無論從整車層級的系統(tǒng)性開發(fā),抑或是硬件和底軟相關的開發(fā)和驗證,以及到最后測試過程中如何做好數據閉環(huán),這些都非常重要。
曹旭東:智己和Momenta雖然是兩個公司,但是勝似一個團隊,整個合作迭代效率非常高。剛剛和郭博在聊,我們重點在討論兩個事,一個是如何超越智駕摩爾定律,之前說智駕摩爾定律兩年十倍,但是我們追求是遠比這個要高,可能兩年一百倍甚至更快的速度,怎么實現這個目標?實現這個目標需要兩邊非常高的迭代效率,整個數據閉環(huán)的效率提升,可能從以月為單位加速到以周為單位,再以周為單位加速到天為單位,兩邊團隊通過多年的合作形成默契后,這個效率提升放在任何一家公司,內部的團隊能夠達到這樣的效率,都是非常鳳毛麟角的,只有這個行業(yè)最高端的一部分的企業(yè)能夠做到。
賀錦鵬:我們在2023年,花了八個月時間開通全國高速高架NOA;城市NOA 2024年初在上海首發(fā),到9月底全新LS6上市開通全國無圖城市NOA,在這個過程中經歷過技術方案的切換,從原來的高精地圖方案切換成輕地圖或者無圖,這個技術方案的變更非常大,挑戰(zhàn)也非常大,八個月的周期,我們完成了全國無圖的開通。從結果來看,雙方的合作達到了預期目標,也證明早期決策是非常正確的。
關于主機廠如何平衡與開發(fā)商的關系,整車企業(yè)要不要做全棧,行業(yè)里有各種各樣的聲音。在早期的經典汽車時代,日本豐田、本田都是自研自造。后期,部分零配件自研團隊成為獨立的公司,開始做零部件。我們現在講的汽車產業(yè)鏈和產業(yè)協同都是在這個時期形成。這就有點像三國時代,分分合合,分久必合,合久必分。我們認為,如何能夠快速迭代,達到市場預期,就是最好的方案。
用端到端做L4是不是偽命題?
郭輝:從智己的角度來看,我們搭建的是全級別的智駕平臺,支撐IM AD的智駕系統(tǒng)快速迭代。所以我們從一開始就選擇了數據驅動這一條路。我們的L2、L3、L4采取了共平臺開發(fā)策略,共享數據池和一段式端到端大模型。我們也是全國首個同時具備L2、L3、L4智能駕駛量產能力的品牌。
我們的理解是從L2到L3、L4,在技術上有相同的部分,也有不同的部分。我們剛才講的是技術上的相同部分,在硬件架構上L2++、L3、L4完全可以做增量。舉例,在今天L2++智能輔助駕駛上,現在是12個攝像頭,加上三個毫米波雷達,加上一個激光雷達,增加冗余的攝像頭,可以滿足L3級自動駕駛需求。如果到L4級自動駕駛,需要增加三個激光雷達,當然也包括執(zhí)行器要做一些增量配置,控制器的冗余配置也要做增量。此外,在架構上,還要做算法和安全增強,來做增量,我們有著非常清晰的路徑。反過來說,L2++輔助駕駛,以及L3和L4級自動駕駛在技術上也有不同的部分,以L3級自動駕駛為例,核心是做好高速高架場景。L4級自動駕駛要求會更高,包含城區(qū)場景下能夠脫手脫眼。從技術路徑上,我們也會有不同,比如加更多的安全增強,這都是在合作中要考慮的。
曹旭東:補充一點,有一個說法L2++做得越好,距離L4越遠,完全是偽概念,這個偽概念是曾經一小部分L4公司為了增加自己的所謂技術壁壘創(chuàng)造出來的概念,已經被證偽了?,F在說的人已經不多了,甚至做L4的公司不好意思提這個說法了。
Q:智己在L3-L4方向上,是否參與了標準的制定?
王康:隨著IM AD在自動駕駛行業(yè)里分量和地位不斷提升,影響力不斷擴大。很多國家相關部門、國家級檢測機構均跟我們進行了高頻交流,包括去年L3準入等行業(yè)標準的起草,我們都有深度參與。我們不僅要聚焦產品,同時也希望為中國自動駕駛不斷向前發(fā)展,多做點貢獻。
Q:智己的技術特點和競品有什么不同?
郭輝:在智能化賽道,核心抓手是智能駕駛,可以認為它是技術底座。對于智己來講,我們的品牌優(yōu)勢是靈蜥數字底盤。就以我們的“云臺車身”為例,依托智駕系統(tǒng)對環(huán)境的精準感知,能夠識別大曲率的彎道,對底盤進行智能調整,讓乘客獲得舒適平穩(wěn)的駕乘體驗。這是典型的跨域融合的例子,數字底盤也會用到智駕感知能力,同時在人駕情況下提供舒適的駕駛體驗。這個例子說明了,我們可以把數字底盤和智能駕駛的優(yōu)勢融合在一起。當然,前提是我們的智駕技術要非常優(yōu)秀,要在第一梯隊,要有突出的表現。
賀錦鵬:補充一下,比如我們有靈蜥數字底盤,在城市開啟高階智駕,遇到調頭工況時會用到靈蜥數字底盤的智慧四輪轉向,讓調頭更輕松,實現更小半徑的調頭,我們認為智駕體驗是否讓用戶感到舒適,有沒有頓挫、均要有好的底盤來做“手腳,眼、腦”的協調工作,只有做到這樣,才能算是真正好用的智能駕駛。
Q:智己LS6上市一個月表現怎么樣?Model Y要改款了,你們擔心嗎?
李微萌:訂單超三萬多。這個月交付量會達到八千左右,下個月破萬。中國品牌合圍Model Y,合力把它拉下神壇,肯定是中國品牌最開心的事情。中國品牌各自把自己的看家本領拿出來,互相促進變得更好,讓消費者有更大的獲益。