自2023年8月,特斯拉在美國推出端到端智駕系統「FSD V12測試版」后,端到端就成為了汽車行業最火爆的話題。隨著華為、小鵬、蔚來、理想等企業的跟進,國內幾乎每個廠商都會在發布會上花費很大的篇幅來宣傳自家的端到端有多么強大。撇開營銷手段不談,“端到端”到底是什么意思?它對于智駕又有什么意義呢?今天我們就來給大家解讀這個問題!
在端到端智能駕駛系統還未量產之前,各家的智駕都采用了模塊式方案。簡單來說,模塊式智駕就是一個流水線,主要有感知、預測、規劃、控制四個流程。首先,感知部分的任務就是把車輛的雷達、攝像頭等傳感器的數據進行處理,然后分析車輛周圍物體的具體位置、道路軌跡,以及辨別它們到底是行人、自行車、轎車、還是卡車等。
緊接著,感知模塊就會把以上的信息傳給預測模塊,預測模塊會根據以上的信息分析周邊交通參與者下一步的運動狀態,比如周圍的車輛接下來是要轉彎、直行、還是停車等。通過進一步分析后,預測模塊會提供一條或者多條本車接下來可參考的行駛路徑以及車速。
隨后預測模塊又把本車的道路行駛方案發給規劃模塊,規劃模塊會根據車輛自身狀態、導航等信息來決定車輛接下來該具體怎么做。等到規劃模塊確認好行駛路徑和速度后,就將命令傳遞給控制模塊,最后再由控制模塊去計算和操作車輛的方向盤、剎車以及油門。一個看似簡單的智駕功能,就是通過以上步驟實現的。
通過以上介紹不難看出,模塊式智駕把簡單的駕駛行為分解為多個步驟,而且每一步的邏輯都嚴絲合縫。在車企和供應商看來,模塊式智駕本身是個非常好的方案,因為不同的團隊可以負責相應的模塊,發揮分工合作的優勢,從而把智駕從概念迅速變為裝車量產狀態。
其次,模塊式智駕有一套職能和責任都非常清晰的系統框架,因此當智駕系統在使用中發現BUG的時候,車企和供應商都能立即找到BUG的具體原因,并通過OTA迅速修復。比如車輛在高速行駛時出現了誤剎車,那么通過數據分析,車企就可以知道故障是因為感知模塊的數據有誤,還是預測、規劃模塊給出了錯誤的判斷。
雖然模塊式智駕便于量產和修復BUG,但是要想讓它能像人一樣控制車輛,就需要學習諸多的交通規則和駕駛經驗,而這一切都要靠工程師們事先去定義規則,也就是把交通規則和人的駕駛經驗變成一行行軟件代碼。
但是光靠工程師寫代碼就能把現實中所有的駕駛場景都覆蓋嗎?當然是不可能的!關于這個問題,業內就有一個經典的案例,如果你在兩側停滿車的狹窄道路駕駛車輛,此時道路一側突然飄來一個氣球,那么一般的邏輯會認為,道路一側可能會有小孩躥出來,所以此時車輛應該立即剎車。但同樣的場景放在高速上,如果智駕系統仍舊采取立即剎車的方式控制車輛,那很可能演變為一場追尾事故。換言之,工程師如果沒有針對這類駕駛場景事先定義好規則,比如高速檢測到氣球后系統不剎車,那么智駕系統遇到類似場景就會產生安全風險。
按照小鵬汽車的說法,一個比較穩定的量產智駕系統,大約有10萬條規則。而如果智駕系統要接近人一樣的水平,大約需要人工編寫10億條規則。對于軟件工程開發來說,這幾乎是一件不可能完成的事情。正因如此,我們可以看到傳統智駕系統在日常使用中或多或少會出現各種錯誤,以至于駕駛者不得不進行干預。
基于以上原因,專注于自動駕駛的車企一直在想辦法解決傳統智駕需要預設規則的問題,于是便有了端到端。所謂的端到端,其實就是將傳統的感知-預測-規劃-控制這些子模塊全部神經網絡化,也就是用先進的算法模型取代了傳統的算法和人工編寫的規則。
因此在工作流程上,端到端與傳統的模塊式有著較大的不同。傳統模塊式的工作順序是感知-預測-規劃-控制依次進行的,而端到端的順序是傳感器數據(雷達、攝像頭)-神經網絡-駕駛參數(方向盤、油門、剎車),也就是說,傳統的感知、預測、規劃、以及控制模塊的工作全部由神經網絡完成。
從工作流程可以看到,端到端中的核心技術就是神經網絡,而與神經網絡最息息相關的技術就是AI了。這兩年,AI在語音、文字、圖片、以及視頻領域表現出了強大的性能,大家應該也體會到了。當神經網絡應用到汽車上之后,就意味著人們可以不斷地訓練智駕系統,從而使它學習適應更復雜的駕駛環境。
因此在功能層面,端到端最大的變化就是系統具有自主學習的能力,這是傳統模塊式智駕不具備的功能。如此一來,在處理各種意想不到的真實駕駛場景時,端到端可以通過神經網絡計算得出合適的規則,而不需要人工事先編寫好規則,這也就為智駕應對現實中無窮無盡的駕駛場景提供了解決方案。比如之前不具備端到端功能的特斯拉FSD V11版本,一共編寫了30多萬行代碼,而采用端到端的FSD V12版本,直接把30多萬行代碼刪減到了2000行,但FSD V12的表現卻比V11更接近人類駕駛員。
從理論上看,端到端確實是一個非常理想的技術,但是在實際操作中,端到端也沒有那么可靠。這是因為現階段人們對神經網絡的理解依舊不夠清晰透徹,因此人們也把神經網絡稱為“黑盒”。如上圖所示,在白盒狀態下我們非常清楚系統輸入/輸出之間的邏輯因果關系,但輸入信息經過黑盒時,人們無法解釋輸入的信息為什么會變成輸出的信息。
比如當智駕系統出現明顯的邏輯錯誤時,在模塊式系統上車企可以非常迅速找到問題出在哪個模塊,然后人工編寫一個新的規則。但在端到端系統上,車企并不知道復雜的神經網絡中哪一個參數或者結構存在問題。
正因如此,基于神經網絡打造的端到端智駕系統,有時候它能在很復雜的場景中給出合理的規則,但有時又會犯十分低級的錯誤,比如分不清紅綠燈,于是有人就把端到端形容為:“上限很高,下限很低”。考慮到端到端在實際應用中存在一些風險,所以華為、小鵬推出的端到端智駕系統并非完全靠自主學習,二者的端到端系統依然有很多人工編寫的規則來為智駕系統兜底。
從技術發展趨勢來看,端到端肯定是未來高階智駕的方向,但由于人們對于神經網絡的了解還不夠透徹,所以現階段各家端到端的表現依舊與理想中的水平有一定差距。另外,相比現有的模塊式智駕系統,端到端的神經網絡算法模型的聰明與否,極度依賴海量的真實數據來訓練,只有經過海量數據訓練,神經網絡才能從小模型變成好用的大模型,這意味著高階智駕在開發階段需要巨大的算力和數據投入,因此無形中提高了智駕的門檻。正因如此,才會有車主反饋自己的車升級端到端智駕后,反而不如過去好用了,這就是大模型訓練的陣痛期。考慮到現實中各家的端到端在訓練上存在較大的差異,這意味著將來不同品牌智駕系統的性能差距可能會逐漸被拉大。