深度解讀特斯拉2026 AI戰略:打通自動駕駛與Optimus的神經世界模擬器
摘要:本文依據2026年ScaledML大會上特斯拉AI軟件副總裁Ashok Elluswamy披露的統一AI戰略,包含特斯拉神經世界模擬器、端到端架構、生成式
卡內基國際和平基金會11月發布的報告聚焦中國對具身智能的戰略布局與實踐
摘要:卡內基國際和平基金會 2025 年報告顯示,中國將具身智能(AI 驅動、多模態交互的硬件系統)列為長期戰略,區別于美西方側重大型語言模型的路徑。其核心目標
Robotnik RB-WATCHER巡檢安防機器人AI集成全解析:視覺識別+任務管理雙引擎,賦能工業級智能巡檢
摘要:Robotnik 旗下 RB-WATCHER 自主移動巡檢安防機器人深度集成 AI 視覺識別模塊與機器人管理系統(RMS),通過人員檢測、熱異常識別、基礎
MADRA:面向風險感知具身規劃的多智能體辯論框架
摘要:本文提出無訓練的 MADRA 多智能體辯論風險評估框架,通過集體推理提升具身智能體安全感知;設計分層認知協作規劃架構,構建 SafeAware-VH 家庭
AerialMind:面向無人機場景的多目標跟蹤研究
摘要:本文構建首個無人機場景大規模指代多目標跟蹤(RMOT)基準 AerialMind,提出 COALA 半自動化標注框架降低成本;設計 HawkEyeTrac
磁懸浮機器人:AI驅動非接觸操縱,亞毫米精度重塑工業裝配革命,Industry4.0核心技術突破
摘要:磁懸浮機器人融合磁懸浮技術與深度強化學習,實現 “無物理接觸” 自動化裝配:亞毫米級定位精度、污染率降低 99%,適配微芯片 / 重型部件等多場景,破解傳
Levi Unema:從汽車工程師到深海機器人領航者,跨界打造海底探索技術核心
摘要:電氣工程師 Levi Unema 從汽車制造跨界深海機器人領域,參與 NOAA 的 Deep Discoverer 等 ROV 設計與操控,創立 Deep
首爾國立大學突破可折疊機器人結構瓶頸:FoRoGated交錯折紙結構實現緊湊存儲+高強度部署,單電機驅動適配多場景應用
摘要:首爾國立大學 Cho Kyu-Jin 教授團隊研發 FoRoGated(Foldable-and-Rollable corruGated)交錯折紙結構,發
武漢理工大學RGMP框架突破人形機器人操縱瓶頸:87%泛化成功率+5倍數據效率,幾何推理賦能跨場景適配
摘要:中國武漢理工大學研發 RGMP(遞歸幾何先驗多模態策略)框架,為人形機器人帶來操縱技術革新 ——87% 未知場景泛化成功率,數據效率較擴散策略等 SOTA
LEARN:面向資源受限多無人機的端到端學習式空中導航框架
摘要:本文提出 LEARN 輕量級強化學習框架,適配資源受限納米無人機(Crazyflie),僅依賴 ToF 傳感器與 168MHz 單核嵌入式控制器,零樣本遷
基于約束的多智能體路徑規劃算法分析:保守/激進約束的分類與性能對比
摘要:本文將多智能體路徑規劃(MAPF)約束分為保守型(CBS)與激進型(CBSw/P),基于混合網格 - 路網表示,分析不同分辨率、拓撲結構下兩類約束的搜索行
CFG-Bench:面向具身智能體的細粒度動作認知評估基準
摘要:本文提出 CFG-Bench 基準,基于物理交互、時序因果、意圖理解、評估判斷四層認知框架,構建含 1368 個視頻、19562 組問答的數據集;評測主流
Cook and Clean Together:面向具身智能體并行任務執行的運籌學驅動 3D 接地任務調度方法
摘要:本文提出 ORS3D 任務(融合運籌學與 3D 空間接地的具身任務調度),構建含 6 萬復合任務的 ORS3D-60K 數據集;設計 grant 模型,通
The Horcrux:具身AI系統中面向獎勵篡改檢測與緩解的可機械解釋任務分解方法
摘要:本文提出可機械解釋的任務分解(MITD)架構,通過 Planner、Coordinator、Executor 分層模塊分解任務,結合注意力瀑布圖等可視化工
IndustryNav:動態工業導航中具身智能體空間推理的探索
摘要:本文提出 IndustryNav 動態工業導航基準,基于 Unity 構建 12 個含動態物體 / 人員的高保真倉庫場景;設計零樣本導航管線與碰撞率 /
METIS:面向靈巧操作的多源第一視角訓練集成式視覺-語言-動作模型
摘要:本文提出 METIS 視覺 - 語言 - 動作(VLA)模型,構建多源第一視角數據集 EgoAtlas(統一人機動作空間),提取運動感知動力學特征,整合推
GPR-OdomNet:基于差異與相似性驅動的探地雷達里程計估計網絡(面向機器人定位)
摘要:本文提出 GPR-OdomNet 網絡,提取探地雷達(GPR)連續 B 掃描圖像的差異與相似性特征,精準估計機器人移動的歐氏距離;在 CMU-GPR 數據
SPEAR-1:基于 3D 理解突破機器人演示數據限制的規模化方法
摘要:本文提出 SPEAR-VLM(3D 感知視覺語言模型)和 SPEAR-1 機器人基礎模型,為預訓練 VLM 注入 3D 空間推理能力,僅用 1/20 的機
結合長上下文Q-Former與多模態LLM的機器人確認生成與動作規劃
摘要:本文提出長上下文 Q-Former 與文本條件化方法,解決現有多模態模型僅處理短視頻片段、語言信息抽象化的問題;基于 YouCook2 烹飪數據集驗證,該
多模態大語言模型的空間推理:任務、基準與方法綜述
摘要:本文從認知視角構建空間推理任務分類體系,梳理文本、視覺 - 語言、具身場景下的基準數據集與評估指標,分析訓練式、推理式兩類提升空間推理能力的方法,揭示當前
3D測試時縮放框架:突破上下文限制,提升大模型推理與具身學習能力
摘要:3D 測試時縮放框架,整合上下文、批次、輪次三維縮放,突破大模型上下文長度限制,在 IMO、CPHO、IOI 等難題上提升推理精度,還可結合人類反饋拓展至
EyeVLA:可主動變焦旋轉的機器人眼球,突破固定相機視覺感知局限
摘要:本文研究的EyeVLA 機器人眼球系統,通過層級動作編碼、偽標簽數據生成及強化學習,實現語言指令驅動的主動視覺感知,兼顧寬區域覆蓋與細粒度細節獲取,真實場
Mantis:基于解耦視覺前瞻的通用視覺-語言-動作模型,賦能機器人精準執行指令
摘要:Mantis 視覺-語言-動作(VLA)模型,通過解耦視覺前瞻(DVF)解決動作監督稀疏問題,結合漸進式訓練和自適應時間集成策略,在 LIBERO 基準測
機器狗也能 “透視”?仿生窺視技術讓機器人看穿遮擋物,實現實時高清視覺感知
摘要:傳統機器視覺受限于小光圈相機的大景深特性,前景遮擋會完全遮蔽背景目標,而 3D 視覺、主動傳感器等替代方案存在計算量大、分辨率低等問題。由林茨約翰內斯·開
自動駕駛與具身AI的統一解決方案:跨領域具身智能基礎模型MiMo-Embodied
MiMo-Embodied 是首個開源跨領域具身基礎模型,統一自動駕駛與具身 AI 任務,覆蓋 29 個基準(17 個具身 AI+12 個自動駕駛),多階段訓練策略實現 SOTA 性能,支撐場景感知、軌跡規劃等實際應用。
第一視角下的通用手運動預測框架Uni-Hand:多模態融合與下游任務賦能新范式
Uni-Hand 是第一視角通用手運動預測框架,融合 RGB、點云、文本多模態輸入,通過雙分支擴散預測 2D/3D 手中心與關節軌跡及交互狀態,SOTA 性能支撐機器人操作、動作識別等下游任務,適配工業與輔助技術場景。
制造業安全多模態聊天機器人:RAG 驅動的知識庫設計、基準開發與評估
本文提出 RAG 驅動的制造業安全多模態聊天機器人,整合 OSHA 法規與設備手冊構建知識庫,開發 3 類設備安全基準數據集,24 種 RAG 配置評估后最優方案準確率 86.66%、延遲 10.04 秒、單查詢成本 0.005 美元,適配工業 5.0 人機協作場景。
可擴展事件驅動控制的神經形態架構:基于RWTA的統一控制范式
本文提出 RWTA(回彈贏家通吃)神經形態架構,統一離散決策與連續調節,通過分層設計(肌肉驅動 + 協調 + 監督控制)實現可擴展事件驅動控制,蛇形機器人實驗驗證其步態生成與障礙規避能力。
LLM驅動的3D場景物體關節化ArtiWorld: 從剛性資產到交互仿真的自動化方案
ArtiWorld 是一款 LLM 驅動的 3D 物體關節化 pipeline,能從場景描述中識別可關節化物體,通過 Arti4URDF 融合點云和 LLM 生成 URDF 模型,保留原始幾何形狀,支持模擬與真實場景,賦能機器人交互仿真。
機器人移動障礙物的路徑規劃新方法:兩階段局部最優約束位移方法
本文提出兩階段局部最優約束位移方法,通過 “重疊階段規劃軌跡 + 位移階段優化障礙物位置”,解決 MCD、MCR 等問題,支持圓 / 多邊形等多種形狀障礙物,機器人可高效找到可行路徑。
賦能機器人情感來自適應人機交互:社交焦慮的多模態數據集收集協議
本文提出一套社交焦慮多模態數據集收集協議,通過 Furhat 機器人與 WoZ 方法,同步采集 70 + 參與者的音頻、視頻、生理信號及上下文數據,支持情感自適應人機交互系統研發。
機器人的計劃溝通策略研究:讓機器人少饒舌說重點,讓用戶更快懂目標
本文提出基于信息增益的機器人計劃溝通策略,通過二階心理理論建模用戶先驗知識,相比傳統順序溝通,讓用戶僅需 20% 計劃信息即可 85% 命中機器人目標,大幅提升人機交互效率。
VLA模型安全評估與靶向攻擊框架AttackVLA:機器人自主系統的安全防線與漏洞警示
AttackVLA 是首個 VLA 模型安全統一評估框架,覆蓋模擬與真實場景,實現對抗 / 后門攻擊的標準化測評;創新 BackdoorVLA 靶向攻擊,誘導機器人執行指定長序列動作,平均成功率 58.4%,為 VLA 安全防護提供關鍵參考。
智能機器人感知與自主融合(LLM+3D 視覺)的全面綜述與未來方向
本文全面綜述 LLM 與 3D 視覺融合的核心技術、應用場景與挑戰,涵蓋定位接地、動態場景理解、多模態融合等關鍵方向,梳理標桿數據集與指標,為機器人自主感知系統研發提供完整技術路線。
前饋式超分辨率3D重建框架SRSplat:從稀疏低分辨率圖像還原高清3D場景
SRSplat 是首個前饋式超分辨率 3D 重建框架,通過 “參考畫廊 + RGFE 模塊 + TADC 模塊”,從稀疏低分辨率圖像中重建高分辨率 3D 場景,兼顧實時性與精度,跨數據集泛化能力領先。
任務感知的3D場景級Affordance分割框架TASA:融合2D引導與幾何細化的精準交互區域定位
TASA 是任務感知的 3D 場景級 Affordance 分割框架,通過 VLM 驅動的 2D 引導幀選擇與 3D 幾何細化,解決傳統方法依賴 2D 投影、效率低的問題,mAP 提升至 23.2,效率達 3.37 倍,實現精準交互區域定位。
VLM驅動的PoI導航框架PIGEON:讓機器人在未知環境精準找物不迷路
PIGEON 是面向未知環境的對象導航框架,通過 VLM 驅動 PoI 選擇與快照記憶復用,結合 RLVR 訓練,零 - shot 遷移性能領先,兼顧決策智能與執行效率,實現機器人精準高效找物。
圖像視頻快速推理分割框架FastReasonSeg:讓邊緣設備也能跑的高效智能分割
FastReasonSeg 是支持圖像視頻的快速推理分割框架,通過數字孿生解耦感知與推理,兩階段蒸餾保留多步推理能力,0.6B 模型超越 20 倍參數模型,7.79FPS+2.1GB 內存實現邊緣設備實時部署。
