为了刻画视频生成模型迈向稳健世界模型的演进路径,本文首先从其内部表示入手,重点审视状态(state)的构建:将「状态」视为对环境当前配置的充分统计量,并以此为核心把历史信息有机融入统一表示中。通过将长期背景提炼并沉淀到这种状态表示里,模型才能在更长时程下维持一致的记忆与连贯的模拟。