天天综合天天爱天天做_а√天堂www在线а√天堂视频_国产精品美女久久久久_波多野42部无码喷潮在线_中文字幕乱码人妻一区二区三区

<big id="86yxi"></big><tr id="86yxi"><ruby id="86yxi"></ruby></tr>

<dfn id="86yxi"></dfn><center id="86yxi"></center>

理想汽車MindVLA：自動駕駛技術里程碑

凹凸萬事屋 2025-03-31 16:00:20

0

文｜金融街老李

隨著人工智能快速發(fā)展，變革是今年汽車產(chǎn)業(yè)的主旋律，3月18日，理想汽車發(fā)布了下一代自動駕駛架構(gòu)MindVLA，這項整合空間智能、語言智能與行為智能的視覺-語言-行為大模型，標志著自動駕駛技術進入了一個新的發(fā)展階段。

理想汽車下一代自動駕駛技術的發(fā)布，順應了發(fā)展潮流，今天老李就和大家一起聊聊，為什么說MindVLA是自動駕駛技術的里程碑？ MindVLA對于行業(yè)發(fā)展有什么意義？理想汽車又是如何在變革中引領產(chǎn)業(yè)重構(gòu)的？

技術里程碑

當前，汽車智能駕駛正在快速市場化，根據(jù)中汽中心發(fā)布的數(shù)據(jù)，2025年一季度，中國L2級及以上輔助駕駛滲透率已突破65%，城市NOA功能覆蓋城市數(shù)量較去年同期增長超200%，可以說，相比低空飛行和具身智能這兩大產(chǎn)業(yè)，智能汽車已經(jīng)真正實現(xiàn)了規(guī)?；?。

過去，汽車行業(yè)自動駕駛技術更多依賴于機器的采集、處理和執(zhí)行，但我們從底層邏輯的層面講，汽車只有按照人類的駕駛邏輯實現(xiàn)的自動駕駛，才是真正的自動駕駛。今年以來，隨著人工智能技術在自動駕駛領域的深度應用，自動駕駛技術出現(xiàn)了跨越式的發(fā)展。

隨著理想汽車最新發(fā)布了MindVLA自動駕駛系統(tǒng)，老李認為，自動駕駛技術出現(xiàn)了一個新的方向——智能體，憑借人工智能與自動駕駛的深度融合，正在改寫行業(yè)競爭規(guī)則，老李認為，后續(xù)會有更多的企業(yè)會沿著理想汽車的路徑開展自動駕駛技術研發(fā)，顯然，理想汽車走在了行業(yè)最前列。

什么是MindVLA？

基于端到端+VLM雙系統(tǒng)架構(gòu)的最佳實踐，及對前沿技術的敏銳洞察，理想自研VLA模型——MindVLA。MindVLA是視覺-語言-行為大模型，是機器人大模型的新范式，它將空間智能、語言智能和行為智能統(tǒng)一在一個模型里。MindVLA賦予模型強大的3D空間理解能力、邏輯推理能力和行為生成能力，讓自動駕駛能夠感知、思考和適應環(huán)境。

MindVLA打破自動駕駛技術框架設計的傳統(tǒng)模式，使用能夠承載豐富語義，且具備出色多粒度、多尺度3D幾何表達能力的3D高斯（3D Gaussian）這一優(yōu)良的中間表征，充分利用海量數(shù)據(jù)進行自監(jiān)督訓練，極大提升了下游任務性能。

理想從0開始設計和訓練了適合MindVLA的LLM基座模型，采用MoE混合專家架構(gòu)，引入Sparse Attention（稀疏注意力），實現(xiàn)模型稀疏化，保證模型規(guī)模增長的同時，不降低端側(cè)的推理效率。基座模型訓練過程中，理想加入大量3D數(shù)據(jù)，使模型具備3D空間理解和推理能力。為了進一步激發(fā)模型的空間智能，理想加入了未來幀的預測生成和稠密深度的預測等訓練任務。

LLM基座模型獲得3D空間智能的同時，還需要進一步提升邏輯推理能力。理想訓練LLM基座模型學習人類的思考過程，讓快慢思考有機結(jié)合到同一模型中，并可以實現(xiàn)自主切換快思考和慢思考。為了把NVIDIA Drive AGX的性能發(fā)揮到極致，MindVLA采取小詞表結(jié)合投機推理，以及創(chuàng)新性地應用并行解碼技術，進一步提升了實時推理的速度。至此，MindVLA實現(xiàn)了模型參數(shù)規(guī)模與實時推理性能之間的平衡。

MindVLA利用Diffusion將Action Token解碼成優(yōu)化的軌跡，并通過自車行為生成和他車軌跡預測的聯(lián)合建模，提升在復雜交通環(huán)境中的博弈能力。同時Diffusion可以根據(jù)外部條件，例如風格指令，動態(tài)調(diào)整生成結(jié)果。為了解決Diffusion模型效率低的問題，MindVLA采用Ordinary Differential Equation（常微分方程）采樣器，實現(xiàn)了2-3步就能完成高質(zhì)量軌跡的生成。面對部分長尾場景，理想建立起人類偏好數(shù)據(jù)集，并且創(chuàng)新性地應用RLHF（基于人類反饋的強化學習）微調(diào)模型的采樣過程，最終使MindVLA能夠?qū)W習和對齊人類駕駛行為，顯著提升安全下限。

MindVLA基于自研的重建+生成云端統(tǒng)一世界模型，深度融合重建模型的三維場景還原能力與生成模型的新視角補全，以及未見視角預測能力，構(gòu)建接近真實世界的仿真環(huán)境。源于世界模型的技術積累與充足計算資源的支撐，MindVLA實現(xiàn)了基于仿真環(huán)境的大規(guī)模閉環(huán)強化學習，即真正意義上的從“錯誤中學習”。過去一年，理想自動駕駛團隊完成了世界模型大量的工程優(yōu)化，顯著提升了場景重建與生成的質(zhì)量和效率，其中一項工作是將3D GS的訓練速度提升至7倍以上。

理想還通過創(chuàng)新性的預訓練和后訓練方法，讓MindVLA實現(xiàn)了卓越的泛化能力和涌現(xiàn)特征，其不僅在駕駛場景下表現(xiàn)優(yōu)異，在室內(nèi)環(huán)境也展示出了一定的適應性和延展性。

MindVLA用戶價值

看到這里，很多朋友會問，MindVLA到底能給用戶帶來什么，答案很簡單，和所有的自動駕駛技術一樣，MindVLA終極目標是讓汽車實現(xiàn)真正的自動駕駛，不同的是，MindVLA賦能的車不再只是一個駕駛工具，而是一個能與用戶溝通、理解用戶意圖的智能體，能夠聽得懂、看得見、找得到，一個真正意義上的司機Agent，按照老李的理解，實際上MindVLA賦能的車是一個能夠理解人類意圖的智能機器人。

所謂“聽得懂”，是說用戶可以通過語音指令改變車輛的路線和行為，例如用戶在陌生園區(qū)尋找超市，只需要通過理想同學對車輛說：“帶我去找超市”，車輛將在沒有導航信息的情況下，自主漫游找到目的地，車輛行駛過程中，用戶還可以跟理想同學說開太快了、應該走左邊這條路等等，汽車就能夠按照駕駛員的意圖執(zhí)行這些指令，而在傳統(tǒng)的自動駕駛中，這些是無法實現(xiàn)的。

“看得見”是指MindVLA具備強大的通識能力，傳統(tǒng)的自動駕駛車輛只能識別汽車、行人等一般的障礙物，無法實現(xiàn)像人類一樣精準的識別文字并進行理解，MindVLA賦能的車輛能夠像人類一樣認識星巴克、肯德基等不同商店招牌，當用戶在陌生地點找不到車輛時，可以拍一張附近環(huán)境的照片發(fā)送給車輛，擁有MindVLA賦能的車輛能夠搜尋照片中的位置，并自動找到用戶。

“找得到”意味著車輛可以自主地在地庫、園區(qū)和公共道路上漫游，其中典型應用場景是，用戶在商場地庫找不到車位時，可以跟車輛說：“去找個車位停好”，車輛就會利用強大的空間推理能力自主尋找車位，即便遇到死胡同，車輛也會自如地倒車，重新尋找合適的車位停下，整個過程不依賴地圖或?qū)Ш叫畔?，完全依賴MindVLA的空間理解和邏輯推理能力。

看到這里，大家就會明白為何老李在說MindVLA是下一代的自動駕駛技術，因為和傳統(tǒng)的自動駕駛相比，MindVLA更像是一個接近人類的智能體。

產(chǎn)業(yè)的重構(gòu)

對汽車行業(yè)而言，像iPhone 4重新定義了手機，MindVLA也將重新定義自動駕駛，對于人工智能領域而言，汽車作為物理人工智能的最佳載體，未來探索出物理世界和數(shù)字世界結(jié)合的范式，將有望賦能多個行業(yè)協(xié)同發(fā)展。

在老李看來，并不是所有的車企都能夠?qū)崿F(xiàn)這一輪的轉(zhuǎn)型，這背后需要龐大的資金、人才和技術的支撐。理想汽車每年研發(fā)投入超100億元、近半數(shù)資金聚焦AI領域，理想構(gòu)建了覆蓋智能駕駛、理想同學、智能工業(yè)及智能商業(yè)的四維體系，形成“軟件定義硬件、數(shù)據(jù)驅(qū)動進化”的新型產(chǎn)業(yè)范式。正如李想所言，理想汽車不是在做汽車的智能化，而是將人工智能汽車化，這種以AI為核心驅(qū)動力的企業(yè)基因，在智能化競爭中勢必占據(jù)先發(fā)優(yōu)勢。

理想汽車的實踐，不僅為中國汽車產(chǎn)業(yè)實現(xiàn)“彎道超車”提供范本，更在全球AI競賽中標注出新的坐標，成為加速技術發(fā)展貢獻了重要力量?？梢韵嘈牛磥?， MindVLA將為更多行業(yè)賦能，理想汽車也將成為全球領先的人工智能企業(yè)。

相關資訊

<rt id="tp6uk"><dl id="tp6uk"></dl></rt>

<big id="tp6uk"></big>