📖 产品简介

MolmoMotion 是 Allen AI（艾伦人工智能研究所）2026/6/18 开源的**语言引导 3D 运动预测模型**，基于 Allen AI 自家的 **Molmo 2 视觉骨干**。**输入 = 视频帧 + 3D 点标记 + 文字指令**，**输出 = 未来数秒的 3D 轨迹预测**。提供两个变体：**自回归版本**（按时间步逐步生成，速度慢但精度高）+ **流匹配版本**（一次性生成完整轨迹，速度快）。

配套发布 **MolmoMotion-1M 数据集**——**116 万条真实视频**带 3D 点标注与文字指令，是当前最大规模的「语言引导 3D 运动」公开数据集。模型、数据集、基准测试**全部开源**——延续 Allen AI「**纯学术 + 完全开放**」的一贯风格。

这类模型直接服务于：**机器人轨迹规划**（让机器人按自然语言指令运动）、**自动驾驶预测**（预测其他车辆 / 行人未来轨迹）、**AR / VR 中的运动锚定**、**视频内容生成的物理一致性**。

⚡ 核心功能

语言引导 3D 运动预测：视频 + 3D 点 + 文字指令 → 未来数秒的 3D 轨迹预测
Molmo 2 视觉骨干：基于 Allen AI 自家 Molmo 2 多模态骨干，对视频帧的理解能力顶级
自回归 + 流匹配双变体：自回归版精度高，流匹配版速度快，按场景选用
MolmoMotion-1M 数据集：配套开源 116 万视频 + 3D 标注 + 文字指令，是同赛道最大公开数据集
完全开源：模型 / 数据集 / 基准测试全部开源，纯学术 + 开放
Allen AI 出品：Paul Allen 创立、AI2 旗下的非盈利研究所，学术严谨度顶级

🎯 适合谁用

以下类型的用户会特别受益于 MolmoMotion：

机器人轨迹规划：自然语言指令 → 3D 运动
自动驾驶预测：他车 / 行人未来轨迹估计
AR / VR 中的物体运动锚定
视频生成的物理一致性约束（用作判别器或后处理）
学术研究：3D 运动预测的 SOTA 基线
动画 / 游戏：自然语言驱动的角色运动生成

✅ 优点亮点

MolmoMotion-1M 116 万视频是赛道最大公开数据集
自回归 + 流匹配双变体覆盖不同场景
Allen AI 完全开源是学术良心
Molmo 2 骨干保证视觉理解能力
对机器人 / 自动驾驶 / AR 三大方向直接利好

💰 价格与方案

**完全开源 + 免费**（GitHub + HuggingFace）。**模型推理 / 训练算力**自付。**MolmoMotion-1M 数据集**自由下载用于学术与商业研究。

📝 总结与建议

MolmoMotion 是 2026/6/18 3D 运动预测赛道的关键开源成果——**语言引导 + 双变体 + 116 万数据集 + 完全开源**让它成为机器人、自动驾驶、AR / VR 团队的 SOTA 基线。如果你做物理世界 AI（特别是涉及预测未来轨迹的场景），MolmoMotion 几乎是无脑值得评估的工具；如果你只做 2D 视觉 / 文本任务，可以跳过；如果你做 3D 生成 / 重建（而非运动预测），仍以 Meshy、ABot-Earth、Genie 等为主。

MolmoMotion 新增