阿里重磅发布ChatAnyone！实时AI人物视频生成框架

显示全部楼层

概述

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。

采用高效分层运动扩散模型和混合控制融合生成模型，能实现高保真度和自然度的视频生成，支持实时交互，适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。ChatAnyone支持风格化控制，可根据需求调整表情风格，实现个性化动画生成。

抽象

实时交互式视频聊天肖像越来越被认为是未来的趋势，特别是由于文本和语音聊天技术取得的显着进步。然而，现有方法主要侧重于实时生成头部运动，但难以产生与这些头部动作相匹配的同步身体运动。

此外，对说话风格和面部表情的细微差别进行精细控制仍然是一项挑战。为了解决这些限制，我们引入了一种新的框架，用于风格化的实时肖像视频生成，实现从说话的头部到上半身互动的富有表现力和灵活的视频聊天。我们的方法包括以下两个阶段。

第一阶段涉及高效的分层运动扩散模型，该模型基于音频输入考虑显式和隐式运动表示，这可以通过风格控制以及头部和身体运动之间的同步生成各种面部表情。

第二阶段旨在生成以上半身运动为特色的人像视频，包括手势。我们将显式的手控信号注入发生器中，以产生更详细的手部动作，并进一步进行面部细化，以增强人像视频的整体真实感和表现力。

此外，我们的方法支持在 4090 GPU 上以高达 30fps 的速度高效、连续地生成最高 512 × 768 分辨率的上半身人像视频，并支持实时交互式视频聊天。实验结果表明，我们的方法能够制作具有丰富表现力和自然上半身运动的人像视频。

方法

提出了一种高效的分层运动扩散模型，用于音频到运动的表示，基于输入音频分层生成面部和身体控制信号，同时考虑显性和隐性运动信号以实现精确的面部表情。此外，引入了细粒度表情控制，以实现表情强度不同的变化，以及从参考视频中实现的风格化表情迁移，旨在产生可控和个性化的表情。

混合控制融合生成模型旨在用于上半身图像生成，该模型利用显式关键点进行直接和可编辑的面部表情生成，同时引入基于显式信号的隐式偏移来捕捉不同头像风格上的面部变化。我们还注入显式手部控制，以实现更准确和逼真的手部纹理和动作。此外，采用面部细化模块来增强面部逼真度，确保高度表达和逼真的肖像视频。

构建了一个可扩展的实时生成框架，用于交互式视频聊天应用，该框架可以通过灵活的子模块组合适应各种场景，支持从头部驱动动画到带有手势的上半身生成的各种任务。此外，我们还建立了一个高效的流式推理管道，在 4090 GPU 上以最大 512 × 768 的分辨率实现 30fps，确保实时视频聊天中的流畅和沉浸式体验。

音频驱动的上半身动画

我们可以生成极具表现力的音频驱动的上半身数字人视频，支持不同的场景，无论是否有手。

音频驱动的 Talking Head 动画

我们可以获得高度准确的口型同步结果，并生成富有表现力的面部表情和自然的头部姿势。

音频驱动的风格化动画

我们可以为风格化的角色生成音频驱动的结果，同时还支持创建极具表现力的歌唱视频。

双主机 AI 播客演示

我们还可以生成双主机播客，实现 AI 驱动的对话。

交互式演示

我们的方法在 4090 GPU 上实现了 30fps 的实时生成，支持交互式视频聊天的实际应用。

应用场景

虚拟主播与视频会议：用于新闻播报、直播带货、视频会议中的虚拟形象。

内容创作与娱乐：生成风格化动画角色、虚拟演唱会、AI 播客等。

教育与培训：生成虚拟教师形象、培训模拟中的虚拟角色。

客户服务：生成虚拟客服形象，提供生动的解答和互动。

营销与广告：生成虚拟代言人形象、互动性强的广告内容。