2025年5月7日,理想汽車在“理想AI Talk第二季——理想VLA司機(jī)大模型,從動(dòng)物進(jìn)化到人類”線上活動(dòng)中,推出VLA(Vision-Language-Action Model,視覺語言行動(dòng)模型)司機(jī)大模型,理想汽車董事長兼CEO李想分享了對(duì)于人工智能的最新思考,VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn),以及對(duì)于創(chuàng)業(yè)和個(gè)人成長的見解。
李想將AI工具劃分為信息工具、輔助工具和生產(chǎn)工具三個(gè)層級(jí)。目前多數(shù)人使用的 AI僅為信息工具,存在大量無效信息。而目前的L2、L2+組合駕駛輔助仍處于輔助工具階段,仍需人類參與。理想汽車的VLA司機(jī)大模型則致力于成為交通領(lǐng)域的專業(yè)生產(chǎn)工具,這意味著未來,VLA將會(huì)是像人類司機(jī)一樣工作的司機(jī)大模型,大幅提升效率與質(zhì)量。
VLA的發(fā)展是經(jīng)歷了三個(gè)階段的進(jìn)化的過程,而非突變。第一階段,2021年自研依賴規(guī)則算法和高精地圖的輔助駕駛類似 “昆蟲動(dòng)物智能”。第二階段,自2023年起研究,并于2024年正式推送的端到端+VLM輔助駕駛接近“哺乳動(dòng)物智能”,但存在局限性。
在端到端的基礎(chǔ)上,到第三階段,VLA司機(jī)大模型將開啟“人類智能”階段,它能通過3D和2D視覺組合,完整地感知物理世界。同時(shí),VLA擁有完整的腦系統(tǒng),具備語言和思維鏈推理能力,可理解并執(zhí)行行動(dòng),符合人類的運(yùn)作方式。
在訓(xùn)練過程中,VLA模擬人類學(xué)習(xí)駕駛的過程,分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練。預(yù)訓(xùn)練通過大量視覺和語言數(shù)據(jù),訓(xùn)練出云端VL基座模型并轉(zhuǎn)化為端側(cè)模型。后訓(xùn)練加入動(dòng)作數(shù)據(jù),讓模型具備在復(fù)雜交通環(huán)境中的博弈能力。強(qiáng)化訓(xùn)練則通過基于人類反饋的強(qiáng)化學(xué)習(xí)和世界模型訓(xùn)練,使模型更加安全、舒適,符合人類駕駛習(xí)慣。最終,以“司機(jī)Agent(智能體)”形態(tài)呈現(xiàn)的VLA司機(jī)大模型,支持用戶用自然語言溝通,簡單指令由端側(cè)處理,復(fù)雜指令經(jīng)云端解析后處理。
除了提升專業(yè)能力,VLA司機(jī)大模型還需解決安全性和模型黑盒的問題。模型能力越強(qiáng),越需要職業(yè)性約束,以確保能力下限。為了保障VLA司機(jī)大模型能夠?qū)崿F(xiàn)職業(yè)司機(jī)般的安全和舒適,避免學(xué)習(xí)加塞等違規(guī)行為,理想汽車在強(qiáng)化訓(xùn)練環(huán)節(jié)投入大量資源,通過組建超100人的超級(jí)對(duì)齊團(tuán)隊(duì),為司機(jī)Agent注入職業(yè)素養(yǎng),確保其安全駕駛。同時(shí)打造世界模型,結(jié)合重建和生成路徑,覆蓋所有交通要素,利用仿真能力有效驗(yàn)證現(xiàn)實(shí)問題,破解模型黑盒難題。
人工智能時(shí)代,扎實(shí)的基本功比走捷徑重要。理想汽車在輔助駕駛技術(shù)上,自研底層推理引擎,讓不同芯片能夠通過量化的方式運(yùn)行端到端+VLM的輔助駕駛方案,并實(shí)現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運(yùn)行同等規(guī)模的VLA司機(jī)大模型。此外,借助 DeepSeek開源技術(shù),理想汽車在語言能力研發(fā)上節(jié)省大量時(shí)間和成本,同時(shí)加大投入打造自研模型,還開源自研的汽車操作系統(tǒng)——理想星環(huán)OS回饋社會(huì)。
李想在活動(dòng)中還分享了創(chuàng)業(yè)與個(gè)人成長的感悟。他認(rèn)為創(chuàng)業(yè)雖充滿挑戰(zhàn),但積極的心態(tài)至關(guān)重要,應(yīng)將挑戰(zhàn)視為成長的機(jī)遇。在個(gè)人成長方面,關(guān)注自我、接受自身優(yōu)缺點(diǎn)并注重成長,同時(shí)重視親密關(guān)系,相互支撐共同進(jìn)步。
理想汽車在智能駕駛領(lǐng)域不斷創(chuàng)新,VLA司機(jī)大模型的推出是其重要的里程碑。未來,理想汽車將繼續(xù)挑戰(zhàn)成長極限,為行業(yè)發(fā)展和用戶體驗(yàn)創(chuàng)造更多價(jià)值,引領(lǐng)智能駕駛行業(yè)邁向新的發(fā)展階段。
本文作者為踢車幫 余天