MBZUAI 研究员推出 PAN:支持长程交互式模拟的通用世界模型

MBZUAI 研究员推出 PAN:支持长程交互式模拟的通用世界模型

大多数文本生成视频(Text-to-Video)模型在根据提示词生成一段剪辑后便停止了,它们并不具备随时间推移、根据输入指令持续存在的内部世界状态。来自 MBZUAI(穆罕默德·本·扎耶德人工智能大学)基础模型研究所的新模型 PAN 旨在填补这一空白。它作为一个通用世界模型,能够根据历史状态和自然语言指令,以视频形式预测未来的世界状态。


从视频生成器进化为交互式世界模拟器

MBZUAI 研究员推出 PAN:支持长程交互式模拟的通用世界模型

PAN 被定义为一个通用的、可交互的长程世界模型。它维护一个代表当前世界的内部潜状态(Latent State),当接收到诸如“向左转并加速”或“将机械臂移向红色方块”等自然语言指令时,它会更新该状态。随后,模型将更新后的状态解码为一段短视频,展示该指令导致的后果。这一循环周而复始,使得同一个世界状态可以在多个步骤中不断演化。

这种设计使 PAN 能够支持开放域、动作条件的模拟。它可以针对不同的动作序列推演“反事实”的未来。外部智能体可以将 PAN 作为模拟器进行查询,对比预测的未来图景,并基于这些预测选择最优动作。


GLP 架构:分离“发生的事”与“视觉呈现”

PAN 的底层采用了生成式潜状态预测( Generative Latent Prediction, GLP )架构。GLP 将世界动力学与视觉渲染分离。首先,视觉编码器将图像或视频帧映射到潜世界状态中;其次,基于大语言模型的自回归潜动力学骨干网络根据历史和当前动作预测下一个潜状态;最后,视频扩散解码器从该潜状态中重建出相应的视频片段。

PAN 中,视觉编码器和骨干网络基于 Qwen2.5-VL-7B-Instruct 构建。语言骨干网络处理世界状态历史、动作以及学习到的查询令牌(Query Tokens),输出下一个世界状态的潜表示。这些潜变量存在于 VLM(视觉语言模型)的共享多模态空间中,有助于将动力学扎根于文本和视觉之中。

视频扩散解码器则适配自 Wan2.1-T2V-14B(一个用于高保真视频生成的扩散变换器)。研究团队利用流匹配(Flow Matching)目标训练该解码器,使用 1000 个去噪步骤和校正流(Rectified Flow)公式。


Causal Swin DPM 与滑动窗口扩散

如果只是简单地将单次视频模型串联(仅以最后一帧为条件),会导致长程推演中出现局部不连贯和质量迅速下降的问题。PAN 通过 Causal Swin DPM 解决了这一挑战,该模型通过块级因果注意力增强了移窗去噪过程。

解码器在滑动时间窗口上运行,该窗口持有两个处于不同噪声水平的视频帧块。去噪过程中,一个块从高噪声变为清晰帧并移出窗口,新的噪声块则从另一端进入。块级因果注意力确保后方的块只能关注前方的块,而不会关注未见的未来动作。这保持了块与块之间的平滑过渡,减少了长程误差累积。

此外,PAN 为条件帧添加了受控噪声,而非使用完美的清晰帧。这抑制了与动力学无关的偶然像素细节,促使模型关注稳定的结构,如物体和布局。

MBZUAI 研究员推出 PAN:支持长程交互式模拟的通用世界模型

通用世界模型训练栈与数据构建

PAN 的训练分为两个阶段。

  1. 第一阶段: 研究团队将 Wan2.1 T2V 14B 适配为 Causal Swin DPM 架构。他们在 960 块 NVIDIA H200 GPU 上进行训练,使用了 FlashAttention3FlexAttention 内核。
  2. 第二阶段:GLP 目标下,将冻结的 Qwen2.5 VL 7B Instruct 骨干网络与视频扩散解码器集成。模型学习查询嵌入和解码器,以确保预测的潜变量与重建视频保持一致。

训练数据来自广泛的公共视频源,涵盖日常活动、人机交互、自然环境和多智能体场景。研究团队对视频进行了精细过滤,并使用深度、时间扎根的描述符对视频剪辑进行了重新标注,强调动作和因果事件。


基准测试:动作忠实度、长程稳定性与规划

研究团队从动作模拟忠实度、长程预测、模拟推理与规划三个维度对模型进行了评估。对比对象包括 WAN 2.1Cosmos 1/2V-JEPA 2 以及 KLING(可灵)、MiniMax(海螺)和 Gen-3 等商业系统。

  • 动作模拟忠实度: PAN 在智能体模拟方面达到了 70.3% 的准确率,在环境模拟方面达到 47%,综合得分 58.6%,超越了大多数商业模型。
  • 长程预测: PAN 在过渡平滑度(53.6%)和模拟一致性(64.1%)指标上均超过了包括 KLINGMiniMax 在すす内的所有基准模型。
  • 模拟推理与规划:PAN 作为 OpenAI-o3 智能体循环内部的模拟器时,其逐步模拟准确率达到 56.1%,位居开源世界模型之首。
MBZUAI 研究员推出 PAN:支持长程交互式模拟的通用世界模型

通用世界模型核心要点

  • 架构融合: PAN 实现了 GLP 架构,将基于 Qwen2.5-VL 的潜动力学骨干与基于 Wan2.1 的扩散解码器结合,统一了潜世界推理与写实视频生成。
  • 稳定性增强: Causal Swin DPM 机制引入了块级因果去噪,稳定了长程视频推演,减少了时间漂移。
  • 双阶段训练: 在 960 块 H200 GPU 上完成了从解码器适配到 GLP 栈联合训练的过程。
  • 高质量数据: 采用了经过精细清洗和密集时间重标注的大规模视频-动作对数据集。
  • 性能领先: 在动作忠实度、长程预测和模拟规划方面均取得了开源领域的最优结果( SOTA ),并具备与顶尖商业系统竞争的实力。

总结评价

PAN 的重要意义在于它利用生产级组件(如 Qwen2.5-VLWan2.1 )使 Generative Latent Prediction 变得具有可操作性。它展示了视觉语言骨干网络配合扩散视频解码器,可以作为一个实用的世界模型,而不仅仅是一个纯粹的生成工具。

AI前沿AI工具测评AI热点快讯文章

sora2崩了?像素果AI依然稳定运行

2026-1-29 13:55:04

AI产品图生视频文生视频视频视频编辑

Captions

2025-4-2 16:40:31

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索