世界首个AI多人游戏全面开源

项目介绍

技术架构

  • 单人世界模型架构
    • 动作嵌入模块:将动作转换为嵌入向量。
    • 去噪网络:基于之前的帧和动作嵌入生成新的帧。
    • 上采样器(可选):增加输出的细节和分辨率。
  • 多人游戏架构
    • 动作嵌入模块:接收两个玩家的动作,输出共同动作的嵌入向量。
    • 去噪网络:基于之前的帧和两个玩家的动作嵌入,同时生成两个玩家的帧。
    • 上采样器:接收两个帧,同时计算上采样版本。
  • 视角处理:将两个玩家的视角沿着通道轴堆叠,使模型在每一层都能同时处理两个玩家的视角。
  • 上下文扩展:为了捕捉车辆的相对运动,对之前的帧和操作进行了稀疏采样,提供最近的4帧,然后每隔4帧取1帧,共取4帧,以捕捉车辆的相对运动。
  • 训练方法
    • 采用课程学习,将预测时间从0.25秒增加到15秒。
    • 采用分页方式进行自回归预测,以解决显存挑战。

数据集与训练

  • 数据集来源:使用《Gran Turismo 4》(GT赛车4)游戏数据。
  • 数据收集
    • 利用游戏内的回放系统,从两名玩家的角度录制比赛。
    • 通过计算机视觉技术,从HUD元素中提取玩家的按键输入。
  • 自动数据生成
    • 使用B-Spec模式,通过脚本向B-Spec发送随机指令,触发比赛并记录回放镜头。
    • 尝试使用OpenPilot的Supercombo模型控制车辆,但最终坚持使用B-Spec进行数据生成。

项目意义

  • 技术突破:解决了多个AI智能体在同一世界中感知、互动和协作的难题。
  • 成本优势:训练成本低,仅需1500美元,且能在普通PC上运行。
  • 未来展望:为多智能体系统、AI合作助手和未来的模拟训练平台提供了重要的技术基础。

项目评价

  • 该项目受到了多位行业专家的高度评价,被认为是AI生成世界中缺失的一环。
  • 它不仅是一个游戏领域的突破,更是AI理解“同一个世界”的关键一步,为未来的AGI(通用智能)发展提供了重要的技术支持。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...