并非標(biāo)準(zhǔn)答案
相比其他車企每次在新品發(fā)布會(huì)上相對(duì)正式地談?wù)撟约旱闹悄芑瘧?zhàn)略,理想汽車每次都會(huì)單開(kāi)一個(gè)訪談,來(lái)面對(duì)面溝通自己對(duì)智能輔助駕駛的思考。
去年,理想汽車針對(duì)國(guó)內(nèi)特殊的交通環(huán)境,比如很多車道和區(qū)域都具備動(dòng)態(tài)可變性,也會(huì)有潮汐車道和可調(diào)車道,提出智駕模型不僅需要很好的決策規(guī)劃,更需要常識(shí)和邏輯推理能力。
為此,理想比較創(chuàng)新地提出了“系統(tǒng)一”和“系統(tǒng)二”的概念模型,引發(fā)了廣泛的討論和激辯。
而今,理想汽車推出VLA,即“視覺(jué)-語(yǔ)言-行動(dòng)”模型,能用這么短時(shí)間做到技術(shù)上再次創(chuàng)新,李想也坦言是”踩著巨人的肩膀”。
他表示,“DeepSeek給了我們一個(gè)巨大的推動(dòng)力。原本計(jì)劃在年底完成的基座模型,因DeepSeek的開(kāi)源提前了九個(gè)月完成基礎(chǔ)設(shè)施建設(shè)?!?/p>
VLA并非理想首創(chuàng)
雖然說(shuō)理想汽車將VLA以更大的傳播度帶到了大眾視野,但VLA并非是理想汽車行業(yè)首創(chuàng)。
如果溯源的話,VLA最早由DeepMind于2023年提出,應(yīng)用在機(jī)器人領(lǐng)域,旨在通過(guò)視覺(jué)、語(yǔ)言與動(dòng)作的端到端整合,實(shí)現(xiàn)AI與物理世界的交互。
去年9月,元戎啟行也公開(kāi)提出了VLA模型,將其定義為“端到端2.0版本”。而且元戎啟行CEO周光表示,“這套系統(tǒng)上來(lái)以后城區(qū)智駕才能真正達(dá)到好用的狀態(tài)”。
今年,智平方在機(jī)器人領(lǐng)域推出的GOVLA(全域全身VLA)模型,即具備從桌面到開(kāi)放環(huán)境,從單臂到全身協(xié)同,從簡(jiǎn)單任務(wù)到長(zhǎng)程推理能力的“視覺(jué)-語(yǔ)言-行動(dòng)”模型,也進(jìn)一步體現(xiàn)了VLA的先進(jìn)性。
因此,有人提出2025是VLA元年。那VLA究竟是什么,又有什么魔力能夠成為這么多企業(yè)的嚴(yán)選路徑呢?
這不得不提到之前的“智駕香餑餑”,即“端到端”。眾所周知,端到端是通過(guò)海量數(shù)據(jù)訓(xùn)練出來(lái)的大模型,但其本質(zhì)上是一個(gè)“黑盒子”,讓我們沒(méi)有辦法理清為何系統(tǒng)做出某種決策,這就導(dǎo)致其可解釋性很差,進(jìn)而可能引發(fā)一些安全上的隱患。有其當(dāng)其遇見(jiàn)一些罕見(jiàn)未知場(chǎng)景時(shí),模型的決策將變得不可預(yù)測(cè),以致于車輛可能出現(xiàn)一些危險(xiǎn)行為。
為了彌補(bǔ)這一點(diǎn),VLM模型應(yīng)運(yùn)而生,也就是理想去年推出的“系統(tǒng)一”+“系統(tǒng)二”,但端到端+VLM的技術(shù)架構(gòu)也有一些弊端。
首先,由于端到端和VLM是兩個(gè)不同的模型,運(yùn)行于不同的頻率內(nèi),這也導(dǎo)致整體的聯(lián)合訓(xùn)練和優(yōu)化是非常困難的。并且,VLM是基于LLM大模型而來(lái),其數(shù)據(jù)源來(lái)自于海量的圖文數(shù)據(jù),這就導(dǎo)致VLM對(duì)于3D空間的理解先天不足。
除此之外,還有一些客觀原因,比如說(shuō)Orin-X和Thor- U的內(nèi)存帶寬和算力趕不上服務(wù)器GPU,這時(shí)候再去做一些推理預(yù)測(cè),就顯得格外吃力。
有了這些問(wèn)題,就會(huì)有新的解決方案來(lái)應(yīng)對(duì),而這個(gè)新的方案,就是VLA(與VLM看上去僅有一個(gè)字母的差異)。
VLA:能夠自己思考的模型
VLA是視覺(jué)語(yǔ)言動(dòng)作大模型,將空間智能、語(yǔ)言智能和行為智能統(tǒng)一在一個(gè)模型里,那么,模型就可以更全面地理解物理世界。比如說(shuō),在自動(dòng)駕駛中,VLA不僅能識(shí)別紅綠燈,還能理解其語(yǔ)義內(nèi)容,如“紅燈需停車”,并生成對(duì)應(yīng)的剎車動(dòng)作。
同時(shí),VLA也引入了類人推理邏輯,具備語(yǔ)言、CoT(Chain of Thought,思維鏈)推理能力,能了解多重路況信息,在和其他車輛不斷博弈中,做出安全的最優(yōu)解。
為了實(shí)現(xiàn)這一功能,理想汽車不僅需要喂給模型大量高清的 2D、3D 圖像數(shù)據(jù),以及與交通相關(guān)的文字資料,還有很多對(duì)世界的理解語(yǔ)義。比如,將導(dǎo)航的地圖、車輛對(duì)導(dǎo)航地圖的理解、看到導(dǎo)航人類做了一個(gè)什么判斷等等全部放進(jìn)去。
這個(gè)過(guò)程就相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識(shí),需要一個(gè)好的基本功。
接下來(lái),就會(huì)進(jìn)入后訓(xùn)練,這時(shí)會(huì)向模型投入Action數(shù)據(jù),也就是汽車行駛時(shí)的各種操作和周圍環(huán)境變化的數(shù)據(jù)。有了這些數(shù)據(jù),基礎(chǔ)模型就升級(jí)成 VLA 司機(jī)大模型。
這個(gè)模型還具備“思維發(fā)散”的能力,能自主預(yù)判接下來(lái)的行駛軌跡和環(huán)境變化,這也提升了其在復(fù)雜交通環(huán)境中的博弈能力。
之后會(huì)進(jìn)入強(qiáng)化訓(xùn)練階段,類似于人類在社會(huì)中實(shí)際開(kāi)車練習(xí),通過(guò)收集人類反饋,比如說(shuō)什么情況下司機(jī)會(huì)接管,目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適,對(duì)齊人類價(jià)值觀,甚至超越人類駕駛水平。
而李想也透露下一步的計(jì)劃,當(dāng)技術(shù)逐步落地后,降低成本也將成為其重要目標(biāo)。
寫在最后
雖然大家都說(shuō)汽車行業(yè)很卷,但卷不是目的,好才是目標(biāo)。
在智能輔助駕駛的宣傳逐漸降溫后,人們?cè)诠蠢展适逻@件事上,也更加謹(jǐn)慎了。
但另一方面,技術(shù)仍在冰面下悄然演進(jìn),技術(shù)路徑有共識(shí),但也絕非毫無(wú)多元色彩。就像今天聊到的VLA,從愿景來(lái)看,確實(shí)有可能讓智能輔助駕駛變得更加可靠,以及更加安全。
保持敬畏,亦保持期待,請(qǐng)相信智能輔助駕駛的發(fā)展會(huì)更穩(wěn),以及更有信心。
本文作者為踢車幫 晞貝