围绕手物交互世界模型的五大子方向
构建导航与操作一体化的世界模型,解决长程动作生成与连续指令理解不足问题。
构建统一的动作理解与生成模型,解决指令泛化与动作-视觉对齐问题。
融合视觉、语言与空间感知,解决具身场景下交互级4D认知与语义解析问题。
从多模态多视角输入预测几何结构,解决高动态场景的快速重建问题。
以自我中心感知实现自主导航,解决未知复杂环境下定位与决策问题。