Google Veo 3.1 发布: 全解析

显示全部楼层

大半夜的， Google 把 Veo 3.1 发了

和 Sora 一样，生成的视频，也都自带声音

能生成 720p 和 1080p 的 8 秒视频

在内容质量质量、物理效果、真实性和提示词遵循方面，都很表现卓越

声音与内容，也结合的很好

并且充满创意

除此之外，本次升级，还带来了三项功能:

这东西，可以通过 Gemini API 直接调用

也可以在https://aistudio.google.com/中使用

但在这之前，你需要先 setup 一个付费账户

https://console.cloud.google.com/billing/create

三个新能力，都挺实用

视频扩展

假如之前生成了一段滑翔伞起飞的视频，8秒结束了

现在可以直接接着做: "让滑翔伞缓慢下降"

模型会从上一段的最后1秒(24帧)开始，继续生成

首尾帧

给两张图，前一张: 姜黄色猫咪开红色敞篷车，在法国里维埃拉海岸

后一张: 车从悬崖上起飞

中间的过程，模型自己补

图片引导

最多上传3张参考图，可以是:

模型会在生成的视频里保持这些元素的外观

举个例子，先上传一条深海安康鱼

再来一套粉色公主裙

提示词写「制作一个搞笑卡通版的鱼，穿着服装游泳并挥舞魔杖」

出来的就是: 安康鱼穿着公主裙的动画

只有API: 目前你只可以通过 API（或者 AI Studio）来访问

生成速度: 最快11秒，高峰时可能要6分钟

视频保留: 生成的视频在服务器上只存2天，要下载就趁早

安全过滤: 所有视频都会过滤，违规的提示词直接被拦，生成的视频自带 SynthID 水印(Google 的AI内容标识)

音频问题: 有时候安全过滤会阻止视频生成，但不收费

Veo 3.1 这次把原生音频、扩展、帧控制这几个能力打包，速率限制也优化了

让我们把目光转向 OpenAI，看他们接下来怎么发