📖 产品简介
MolmoMotion 是 Allen AI(艾伦人工智能研究所)2026/6/18 开源的**语言引导 3D 运动预测模型**,基于 Allen AI 自家的 **Molmo 2 视觉骨干**。**输入 = 视频帧 + 3D 点标记 + 文字指令**,**输出 = 未来数秒的 3D 轨迹预测**。提供两个变体:**自回归版本**(按时间步逐步生成,速度慢但精度高)+ **流匹配版本**(一次性生成完整轨迹,速度快)。
配套发布 **MolmoMotion-1M 数据集**——**116 万条真实视频**带 3D 点标注与文字指令,是当前最大规模的「语言引导 3D 运动」公开数据集。模型、数据集、基准测试**全部开源**——延续 Allen AI「**纯学术 + 完全开放**」的一贯风格。
这类模型直接服务于:**机器人轨迹规划**(让机器人按自然语言指令运动)、**自动驾驶预测**(预测其他车辆 / 行人未来轨迹)、**AR / VR 中的运动锚定**、**视频内容生成的物理一致性**。
⚡ 核心功能
- 语言引导 3D 运动预测:视频 + 3D 点 + 文字指令 → 未来数秒的 3D 轨迹预测
- Molmo 2 视觉骨干:基于 Allen AI 自家 Molmo 2 多模态骨干,对视频帧的理解能力顶级
- 自回归 + 流匹配双变体:自回归版精度高,流匹配版速度快,按场景选用
- MolmoMotion-1M 数据集:配套开源 116 万视频 + 3D 标注 + 文字指令,是同赛道最大公开数据集
- 完全开源:模型 / 数据集 / 基准测试全部开源,纯学术 + 开放
- Allen AI 出品:Paul Allen 创立、AI2 旗下的非盈利研究所,学术严谨度顶级
🎯 适合谁用
以下类型的用户会特别受益于 MolmoMotion:
- 机器人轨迹规划:自然语言指令 → 3D 运动
- 自动驾驶预测:他车 / 行人未来轨迹估计
- AR / VR 中的物体运动锚定
- 视频生成的物理一致性约束(用作判别器或后处理)
- 学术研究:3D 运动预测的 SOTA 基线
- 动画 / 游戏:自然语言驱动的角色运动生成
✅ 优点亮点
- MolmoMotion-1M 116 万视频是赛道最大公开数据集
- 自回归 + 流匹配双变体覆盖不同场景
- Allen AI 完全开源是学术良心
- Molmo 2 骨干保证视觉理解能力
- 对机器人 / 自动驾驶 / AR 三大方向直接利好
💰 价格与方案
**完全开源 + 免费**(GitHub + HuggingFace)。**模型推理 / 训练算力**自付。**MolmoMotion-1M 数据集**自由下载用于学术与商业研究。
📝 总结与建议
MolmoMotion 是 2026/6/18 3D 运动预测赛道的关键开源成果——**语言引导 + 双变体 + 116 万数据集 + 完全开源**让它成为机器人、自动驾驶、AR / VR 团队的 SOTA 基线。如果你做物理世界 AI(特别是涉及预测未来轨迹的场景),MolmoMotion 几乎是无脑值得评估的工具;如果你只做 2D 视觉 / 文本任务,可以跳过;如果你做 3D 生成 / 重建(而非运动预测),仍以 Meshy、ABot-Earth、Genie 等为主。