阿里突然开源Live Avatar！虚拟人进入“无限续帧时代”

显示全部楼层

过去一年，AI 视频生成的战场上，大家都在追逐“更逼真、更像真人”的短视频效果。

但阿里联合多所高校开源的Live Avatar，却悄悄把方向盘打向了另一个维度：

不是做更好看的视频，而是做“能一直播下去”的虚拟人。

这件事的意义，比你想象得大得多。

为什么 Live Avatar 是一个时代分水岭？

我们先说一句可能会被引用很久的话：

Live Avatar 不是一个模型，它是“虚拟人基础设施”的雏形。

为什么这么说？

因为它第一次在一个系统里同时解决了虚拟人领域最难的三件事：

实时（20 FPS）
高保真（14B 扩散模型）
无限时长（10000 秒以上不崩）

这三件事，过去从来没有一个系统能同时做到。

你可以把它理解为：

Sora 的画质 + VASA-1 的实时性 + EMO 的口型同步 + 无限续帧能力

而且是开源的。

Live Avatar 到底厉害在哪里？

下面我用最通俗但最专业的方式，把它的技术亮点讲清楚。

亮点一：20 FPS 实时生成，扩散模型第一次“跑得起来”了

传统扩散模型的问题你肯定知道：

慢
更慢
再加点采样就卡死

但 Live Avatar 用了两招，把 14B 模型跑成了“实时”：

① 分布匹配蒸馏（Distribution Matching Distillation）

把原本几十步的扩散采样压缩到4 步。

这不是简单粗暴的“减少步数”，而是：

让 4 步的分布逼近 50 步的效果。

② 时间步强制流水线并行（Timestep-forcing Pipeline Parallelism）

把扩散的每一步拆开，丢到不同 GPU 上并行跑。

结果就是：

5 张 H800 → 20 FPS → 真·实时虚拟人。

这意味着什么？

意味着虚拟人可以“跟你对话”，不是“等你说完再生成”。

亮点二：无限时长生成，虚拟人不再“越播越崩”

虚拟人行业最痛的痛点是什么？

不是画质，而是：

播 5 分钟还行，播 50 分钟就开始变脸。

Live Avatar 用了三项黑科技解决这个问题：

① Rolling RoPE：防止身份漂移

RoPE（旋转位置编码）本来是给语言模型用的。
Live Avatar 把它“滚动更新”，让模型永远知道“现在是第几帧”。

效果：

脸不会越播越不像本人。

② Adaptive Attention Sink：防止分布漂移

长时间生成会让模型“忘记自己长什么样”。
AAS 会动态替换参考帧，让模型始终保持在正确的分布上。

效果：

颜色不崩、光照不乱、风格不漂。

③ History Corrupt：防止误差累积

模型会在 KV Cache 里注入噪声，让它学会“容错”。

效果：

动作不会越播越僵，表情不会越播越怪。

这三项技术组合在一起，就是：

虚拟人第一次可以“无限续帧”而不崩坏。

亮点三：与 Qwen3-Omni 结合，虚拟人第一次有了“灵魂”

Live Avatar 本身负责“身体”。 Qwen3-Omni 负责“思考”。

两者结合意味着：

虚拟人能听懂你说话
能实时回答
能实时做表情
能实时生成视频

这不是“视频生成”。这是实时交互式虚拟人。

你可以把它理解为：

一个永不疲倦、永不下播、永不情绪失控的 AI 主播。

Live Avatar 的真正意义：虚拟人从“内容”变成“系统

过去的虚拟人是什么？

一段视频
一个短片
一个 demo

Live Avatar 把虚拟人变成了：

一个实时系统
一个可持续运行的引擎
一个可以接入业务的基础设施

这意味着什么？

意味着虚拟人第一次可以：

24 小时直播
实时客服
实时讲课
实时导购
实时主持
实时陪伴

而且成本比真人低几个数量级。

为什么说 Live Avatar 是“下一代虚拟主播”的起点？

因为它解决了虚拟主播的三大致命问题：

痛点	传统虚拟人	Live Avatar
实时性	延迟高、卡顿	20 FPS 实时
稳定性	播久必崩	10000 秒不变脸
成本	需要大量人工	全自动、可接入 AI 代理

未来的虚拟主播会是什么样？

一个 AI 代理 + 一个 Live Avatar 引擎 + 一个直播间。

主播不需要睡觉，不需要吃饭，不需要休息。

直播间永远在线，永远带货，永远赚钱。

这不是科幻，这是 2026 年以后的现实。

Live Avatar 的底层逻辑：不是“生成视频”，而是“生成时间”

这是我认为最值得写进教科书的一句话：

Live Avatar 的核心不是生成视频，而是生成“连续的时间”。

视频只是时间的载体。虚拟人真正的难点不是画质，而是：

时间的连续性
身份的一致性
行为的稳定性

Live Avatar 解决的正是“时间”这个维度的问题。

这就是为什么它是基础设施，而不是模型。

未来三年，Live Avatar 会改变什么？

我给你三个判断，未来会被验证：

① 直播行业会出现“AI 24 小时主播”

真人主播会变成“品牌 IP”， AI 主播负责“全天候带货”。

② 每个 App 都会有自己的“虚拟客服”

不再是冷冰冰的文本窗口，而是一个能看见、能说话、能互动的虚拟人。

③ 虚拟人将成为“AI 代理的身体”

AI 代理负责思考， Live Avatar 负责呈现。

这会是下一代交互方式。

最后

iPhone 不是第一台智能手机，但它定义了智能手机的未来。

Live Avatar 也不是第一个虚拟人模型，但它定义了虚拟人的未来：

实时、流式、无限时长、可交互、可接入业务。

这是 AI 的时代，一切改变都来的太快。