Fully-Conditional Hand-Object Interaction World Model (HMI Lab, ZGCA, built on the Zhongguancun Academy foundational program, in collaboration with HMI Lab, PKU)

Research Directions

Five sub-directions around embodied interaction world models

Build a unified world model for navigation and manipulation, addressing weak long-horizon action generation and instruction understanding.

Build a unified action understanding and generation model to address instruction generalization and action-vision alignment.

Fuse vision, language, and spatial perception to tackle interaction-level 4D cognition and semantic understanding.

Predict geometry from multimodal inputs to enable fast reconstruction in dynamic scenes.

Use egocentric perception for autonomous navigation, solving localization and decision-making in complex environments.