VITA：腾讯开源交互式多模态大型语言模型，支持全模态、无障碍交流，可随时打断

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">一、引言

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">近年来，随着大型语言模型（LLMs）的飞速发展，多模态大型语言模型（MLLMs）逐渐崭露头角，其中以GPT-4为代表的模型展现了卓越的多模态能力和自然的人机交互体验。然而，开源界在这一领域仍显不足，鲜有模型能同时达到高度多模态处理和自然交互的标准。本文介绍了VITA，首个开源的多模态大型语言模型，该模型能够同时处理视频、图像、文本和音频，并具备先进的多模态交互体验。VITA以Mixtral 8×7B为基础，通过双语指令调优、多模态对齐和指令调优等多阶段训练，实现了对多种语言和模态的深刻理解与交互。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">VITA也是首个能够同时处理四种模态并与交互无缝集成的开源大模型。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">二、VITA的主要特点

多模态处理能力

基础模型扩展：VITA从Mixtral 8×7B出发，首先扩展了其中文词汇，使其能够熟练处理中英文双语环境。这一步骤通过收集高质量的双语文本语料库进行指令调优实现。
多模态对齐：为了将文本特征空间与视频、图像和音频对齐，VITA收集了大量高质量的多模态数据，并通过多阶段训练过程，将各个模态的编码器与LLM连接起来，使其能够处理多模态输入。
强大基础能力：VITA在多模态基准测试中表现出色，证明了其在多语言、视觉和音频理解方面的强大基础能力。
先进的多模态交互体验

非唤醒交互：传统音频交互需要预设唤醒词或按钮，而VITA通过设计额外的状态标记和相应的训练数据，实现了自动过滤背景噪音，无需唤醒词即可交互。
音频中断交互：用户可以在模型生成输出时通过音频中断，模型会立即暂停当前生成，并响应最新的查询。这种交互方式极大地提升了用户体验，使得人机交互更加自然流畅。

双工部署方案

部署架构：VITA采用双工部署方案，一个模型负责生成当前音频查询的响应，另一个模型持续监测环境，以便在检测到新查询时立即响应。这种架构确保了模型能够高效处理多个并发请求，并支持中断和恢复功能。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">三、VITA的训练过程

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">VITA的训练过程主要包括三个阶段：LLM指令调优、多模态对齐和多模态指令调优。

LLM指令调优

双语扩展：将Mixtral 8×7B的词汇量从32,000扩展到51,747，以支持中文处理。这一步骤不仅提升了模型的中文表达能力，还减少了相同文本下的令牌数量，提高了推理效率。
指令调优：使用500万条合成双语文本语料库对模型进行指令调优，使其能够更准确地理解并执行双语指令。

多模态对齐

视觉编码器：采用InternViT-300M-448px作为视觉编码器，对图像和视频进行特征提取。对于高分辨率图像和视频，采用动态打片策略以捕获更多局部细节。
音频编码器：使用专门的音频编码器对音频信号进行处理，并将其与文本特征空间对齐。
多模态连接：通过多阶段训练过程，将各个模态的编码器与LLM连接起来，实现多模态输入的无缝处理。

多模态指令调优

数据构建：收集并构建了一系列多模态指令调优数据，包括来自多个开源数据集的图像、视频和音频数据。这些数据涵盖了多种场景和问题类型，为模型提供了丰富的训练素材。
状态标记：引入状态标记来区分不同类型的输入查询，如有效查询音频、噪声音频和文本查询等。这使得模型能够自动识别并响应不同类型的输入。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">四、VITA的交互设计

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">VITA的交互设计以用户为中心，致力于提供自然流畅的多模态交互体验。通过非唤醒交互和音频中断交互等功能，用户可以在无需预设唤醒词或按钮的情况下与模型进行交互。同时，双工部署方案确保了模型能够高效处理多个并发请求，并支持中断和恢复功能。这些设计使得VITA在人机交互方面取得了显著进步。

五、VITA的应用前景

VITA作为首个开源的多模态大型语言模型，具有重要的研究价值和应用前景。它不仅为开源社区提供了一个探索多模态理解和交互的先锋模型，还为后续研究提供了宝贵的经验和基础。随着技术的不断发展和完善，VITA有望在更多领域得到应用和推广，为人工智能技术的发展注入新的动力。

六、结论

VITA项目通过构建交互式多模态大型语言模型，为用户提供了更加丰富和沉浸式的交互体验。它在多模态数据收集与处理、多模态对齐与融合以及交互式训练与优化等方面取得了显著进展，为多模态人工智能技术的发展做出了重要贡献。虽然VITA仍面临诸多挑战，但其创新的技术方案和广阔的应用前景使得它值得进一步关注和探索。