返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

谷歌DeepMind深夜放核弹:世界模型Genie 3登场,重新定义“生成式AI”

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 19:10 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">刚刚谷歌 DeepMind 宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多样化交互式环境,给出文本提示,Genie 3 可以生成动态世界,可以以每秒 24 帧的速度实时导航,并以 720p 的分辨率保持几分钟的一致性

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Genie 3将首先以有限研究预览的形式,向一小部分学者和创作者开放 Genie 3,以收集关键反馈

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">Genie 3 的突破

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">DeepMind 在模拟环境领域已有十余年的深厚积累。从训练能玩转即时战略游戏的 AI,到为机器人开发开放式学习环境,这些研究都指向了一个共同的目标:构建强大的世界模型。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">与前代模型(如 Genie 1/2)和视频生成模型(如 Veo 2,Veo 3对直觉物理学的深刻理解)相比,Genie 3 是第一个允许实时交互的世界模型,同时与 Genie 2 相比,其一致性和真实感也得到了提升

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;padding: 0.25em 0.5em;color: rgb(63, 63, 63);word-break: keep-all;background: rgba(0, 0, 0, 0.05);">
特性
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;padding: 0.25em 0.5em;color: rgb(63, 63, 63);word-break: keep-all;background: rgba(0, 0, 0, 0.05);">
Genie 2
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;padding: 0.25em 0.5em;color: rgb(63, 63, 63);word-break: keep-all;background: rgba(0, 0, 0, 0.05);">
Veo
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;padding: 0.25em 0.5em;color: rgb(63, 63, 63);word-break: keep-all;background: rgba(0, 0, 0, 0.05);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">Genie 3
分辨率
360p
720p 至 4K
720p
领域
3D 环境
通用
通用
控制方式
有限键盘/鼠标
视频级描述
实时导航;可提示的世界事件
互动时长
10-20 秒
8 秒
数分钟
互动延迟
非实时
不适用
实时

核心能力

模拟世界的物理特性:Genie 3 对物理规律有深刻理解,能逼真地模拟水流、光影变化以及复杂的环境互动,例如直升机在悬崖瀑布边小心翼翼地机动

模拟自然世界:从冰川湖畔充满生机的生态系统,到幻想世界中可爱的毛茸茸生物在彩虹桥上跳跃,Genie 3 能将想象力转化为可探索的现实

动画和小说建模::可以发挥想象力,创造奇幻的场景和富有表现力的动画角色

探索不同地域与历史场景:模型能超越地理和时间的限制,带领用户探索不同地点和历史时代,无论是身穿翼装飞越雪山,还是置身于历史悠久的古城

突破实时性能的极限:实现高度的可控性和实时交互性,在每一帧的自回归生成过程中,模型必须考虑先前生成的随时间增长的轨迹。例如,如果用户在一分钟后重新访问某个位置,则模型必须引用一分钟前的相关信息。为了实现实时交互性,这种计算必须每秒进行多次,以响应新用户输入的到来

长时程环境一致性:为了让人工智能生成的世界身临其境,它们必须在很长一段时间内保持物理上的一致性。然而,自动回归生成环境通常比生成整个视频更难的技术问题,因为不准确之处往往会随着时间的推移而累积,Genie 3 环境在几分钟内基本保持一致,视觉记忆可以追溯到一分钟前,Genie 3 生成的世界更加动态和丰富,因为它们是根据用户的世界描述和作逐帧创建的

可提示的世界事件 (Promptable World Events):除了导航输入之外,Genie 3 还支持一种更具表现力的基于文本的交互形式,称之为可提示的世界事件 。可提示的世界事件可以改变生成的世界,例如改变天气条件或引入新的物体和角色,从而增强导航控制的体验,这种能力还增加了反事实或“假设”场景的广度,代理可以使用这些场景从经验中学习来处理意外情况

赋能具身智能体研究

Genie 3 的终极目标之一是为具身智能体(Embodied Agent)提供一个无限丰富的训练场。DeepMind 已将其与通用智能体 SIMA进行结合测试。研究人员可以为 SIMA 设定一个目标(如在面包房里找到工业搅拌机),SIMA 则通过向 Genie 3 发送导航指令来尝试完成任务。Genie 3 像一个真正的世界一样,根据 SIMA 的行为实时反馈结果,从而让智能体在海量的what if场景中学习和成长

当前的局限性

Genie 3目前存在的局限性:

行动空间有限:智能体的直接行动范围仍受限制

缺乏多智能体模拟:难以精确模拟多个独立智能体之间的复杂互动

地理精度不足:无法完美复现实世界的地理位置

文本渲染较差:除非在初始提示中指定,否则生成的文本通常模糊不清

互动时长有限:目前支持数分钟的连续互动,而非数小时


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ