03-SOLAMI算法简介
LLM代理框架可以处理规划任务,但对于低级操作任务,基于LLM构建的端到端视觉语言动作(VLA)模型显示出卓越的性能。作者认为,数字化身本质上是具有虚拟人形化身的机器人。因此,构建一个用于与用户进行社交互动的VLA模型是一个有前景的方向。
在本文中,作者实现了一个端到端的社交VLA模型SOLAMI。该模型建立在仅使用解码器的LLM骨干上,将用户语音和运动的输入处理成离散表示,并生成响应的语音和运动令牌,然后将其解码为角色的语音和动作。这种建模方法可以有效地学习跨运动和语音模式的角色行为模式,并提供低延迟。
尽管已经有许多与人类社会行为相关的数据集,但全面的多模态交互数据集仍然很少。因此,作者引入了一种数据合成方法,该方法利用现有的文本运动数据集以低成本自动构建多模态交互数据。利用其广泛策划的主题(5.3 K)、统一处理的运动数据库(46 K)和迭代脚本细化管道,作者开发了SynMSI,这是一个包含6.3 K个多回合多模式对话项目的数据集。为了评估该方法的有效性,作者开发了一个VR界面,用户可以在其中与各种3D角色进行沉浸式交互。定量实验结果和用户研究分析表明,该方法能够以较低的延迟产生更精确、更自然的社交互动体验。
总而言之,1)作者提出了一种新的VLA架构,用于模拟角色的行为系统,从而实现沉浸式的社交互动;2) 作者设计了一个专用的数据合成流程,可以用来自动生成大规模多模态交互式数据集SynMSI;3)创建了一个沉浸式VR界面,用户可以通过语音和动作与各种角色互动。上图展示了SOLAMI算法的整体训练流程。整个训练过程包含三个阶段。
上图展示了SynMSI数据集生成过程。该合成流程由4个步骤组成。首先,基于众多与角色相关的主题和最先进的LLM,作者为多模式对话生成文本脚本。然后,利用大规模运动数据库,检索出最合适的运动并相应地优化语音脚本。最后,作者采用TTS/语音克隆来生成特定字符的语音。该方法使其能够仅使用现有的运动数据集创建各种角色的多模态交互数据。
从数据来源的角度来看,作者收集的数据有三个来源:互联网视频、沉浸式VR平台和现有的不完整运动捕捉数据集。
上图展示了VR接口的架构细节。该VR项目由Quest 3客户端和服务器组成。Quest客户端用来捕获用户身体运动和语音并将其传输到服务器。然后,服务器根据所选方法生成角色的语音、身体动作和面部混合形状参数。最后,将响应发送回Quest客户端用来驱动角色。
上图展示了SOLAMI与一个SOTA的基线算法的定性比较结果,以及VR体验的用户工作流。通过观察与分析,我们可以发现:该社交VLA模型在SynMSI数据集上采用端到端策略进行训练,可以准确地感知用户语音和运动输入中嵌入的语义信息,并随后生成自然连贯的响应。上表展示了该算法与多个SOTA的方法(LLM+Speech、AnyGPT、DLP)在SynMSI数据集上面的多项指标评估结果。通过观察与分析,我们可以发现:与其它模型相比,全参数的SOLAMI模型在多项评估指标上都获得了最佳的得分,与其它基线算法拉开了较大的差距!
增加输入模态:对于二元社交互动,使用用户的身体动作和语音作为输入就足够了。然而,当考虑多人交互或涉及环境和对象的交互时,视频或动态3D场景可能是更好的选择;收集更多数据:合成数据集SynMSI能够提供令人满意的用户评估结果。然而,收集实际二元交互的实时数据可以使该模型生成更精确和自然的肢体语言和语音,同时还支持双工流对话,类似于body of Her或GLM-4-Voice。交叉实施:使用统一的SMPL-X模型来表示角色的运动,不可避免地会给不同角色的交叉实施带来挑战。虽然一定程度的错误和错位可能不会阻碍社交语言交互中的信息交换,但这种表示显然缺乏对细粒度任务(例如握手、对象操作)的通用性。长期短期设计:尽管SOLAMI展示了实时交互的有效建模,但其架构在扩展社交交互过程中遇到了计算冗余、遗忘和训练困难等挑战。一个有前景的探索方向(如快速和缓慢思考)是将长期记忆、知识和技能与短期实时互动相结合。这种方法可以确保交互质量,同时减少计算开销并简化训练过程;利用更高效的学习方法:尽管数据集SynMSI试图收集大规模的运动数据,但人体运动固有的长尾分布导致一些行为的发生频率非常低。特别是,3D角色签名动作的数据量本身是有限的。虽然像GPT-3这样的模型已经证明了非凡的少镜头学习能力,但目前在数字人类领域所需的数据密集型训练是不可持续的。