链载Ai

标题: 腾讯版GPT-4o开源平替方案:VITA [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 腾讯版GPT-4o开源平替方案:VITA

简介

VITA是腾讯优图实验室在交互式全模态大语言模型方面的一次新探索。近年来,大语言模型(LLM)和多模态大语言模型(MLLM)的快速发展给人工智能领域带来了巨大变革。特别是GPT-4等模型展现出的强大多模态能力和自然交互体验,为MLLM的实际应用奠定了基础。然而,开源社区在这一领域还存在明显的差距。为了推动开源MLLM的发展,来自腾讯优图实验室等机构的研究人员提出了VITA模型,这是首个开源的能够同时处理视频、图像、文本和音频的多模态大语言模型,并且具备先进的多模态交互体验。

VITA模型的主要特点和创新点包括:

  1. 全模态处理能力: VITA可以同时处理视频、图像、文本和音频四种模态的输入,实现了真正的全模态融合。

  2. 双语理解: VITA在英语和中文两种语言上都具备出色的理解和生成能力。

  3. 自然交互体验: VITA引入了无唤醒交互和音频打断等创新交互功能,大幅提升了人机交互的自然度。

  4. 开源可用: VITA完全开源了模型、训练代码和推理部署框架,为开源社区提供了宝贵的资源。

项目主页:

https://vita-home.github.io/

论文地址:

https://arxiv.org/abs/2408.05211

代码仓库:

https://github.com/VITA-MLLM/VITA (截至2024年8月25日,尚未上传正式代码),静待花开~

VITA

在创新交互方面,VITA模型在多模态交互具体有两项重要创新:

  1. 无唤醒交互 传统的语音助手需要唤醒词(如"Hey Siri")来激活,这在实际使用中并不自然。VITA通过引入状态token,教会模型自动识别输入音频的类型,从而实现了无需唤醒词的自然交互。模型能够自动过滤背景噪音和非查询人声,只对有效的查询音频做出响应。

  2. 音频打断交互 在传统系统中,模型生成输出时无法接受新的输入。VITA采用了双工方案来解决这一问题:部署两个VITA模型,一个负责生成对当前查询的响应,另一个持续监控新的输入。当用户打断并提出新问题时,生成过程会暂停,模型立即响应最新的查询。这大大提高了交互的自然度和效率。

Fig 1:VITA的交互。传统音频交互需要预定义的唤醒词,例如,每次你提问时说“嗨!Siri∼”,或者一个按钮来控制输入问题音频(限制1)。当模型生成输出时,人机交互总是被阻塞,因为先前的系统只能按顺序响应输入查询(限制2)。相比之下,一方面,与先前的方法不同,其中音频、文本和视觉总是分开的,VITA支持这些模态端到端。另一方面,VITA对多模态交互做出了两点贡献。非唤醒交互:VITA自动过滤背景噪音,如非查询人声,从而消除了唤醒词和按钮的需求。音频中断交互:如果用户用另一个问题打断,生成过程会暂停,模型会立即响应最新的查询。

以下主要介绍VITA模型的核心架构、训练数据和训练流程。

模型架构

VITA的模型架构如下Fig 2所示。

Fig 2:VITA能够处理纯文本/音频形式的输入,以及视频/图像结合文本/音频的输入。此外,我们为不同的查询输入设置不同的状态令牌。<1>对应于有效的查询音频,例如“世界上最大的动物是什么?”,我们期望模型给出回应。<2>对应于嘈杂的音频,例如环境中有人叫我去吃饭,我们期望模型不回复。<3>对应于查询文本,即用户以文本形式提出的问题。在训练阶段,我们试图教会模型自动区分不同的输入查询。在部署阶段,通过<2>我们可以实现非唤醒交互。基于此,我们进一步引入了一种双工方案用于音频中断交互。两个模型同时运行,生成模型负责处理用户查询。当生成模型开始工作时,另一个模型监视环境。如果用户用另一个有效的音频查询打断,监视模型会汇总历史上下文来回应最新的查询,同时生成模型暂停并转为监视状态,即两个模型交换身份。

VITA模型以Mixtral 8×7B作为语言模型的基础,通过三个主要阶段的训练来实现其多模态和交互能力:

  1. 双语指令微调 研究人员首先扩展了Mixtral 8×7B的词表,将词表大小从32,000扩展到51,747,以增强其中文理解能力。随后使用500万条高质量的双语文本语料进行指令微调,使模型在中英文上都具备出色的表现。

  2. 多模态对齐 在这一阶段,研究人员致力于缩小文本与其他模态(视频、图像、音频)之间的表示差距。他们采用了InternViT-300M-448px作为视觉编码器,通过动态分块策略来处理高分辨率图像输入。对于视频,根据长度采样4-16帧进行处理。研究人员收集了大量高质量的多模态数据用于训练,包括图像描述、问答、OCR和图表理解、视频描述和问答等多个任务。

  3. 多模态指令微调 在最后阶段,研究人员构建了精心设计的多模态指令数据集,教导模型遵循文本或音频指令来理解图像或视频。他们还引入了状态标记来区分不同类型的输入查询,为后续的多模态人机交互奠定基础。

Fig 3:VITA的训练流程。第一阶段通过扩大词汇表并利用高质量的双语文本语料库对Mixtral 8×7B语言模型进行 指令微调 ,从而使其熟练掌握中文和英文。第二阶段 多模态对齐 ,将各个encoder与LLM连接起来,以处理各种模态。通过大量高质量的多模态数据,将文本特征空间与视频、图像和音频的特征空间对齐。最后一阶段多模态指令微调,使得模型遵循文本或音频指令以理解图像或视频。此外,专门设计的状态token用于区分输入query的类型,从而促进随后的多模态人机交互。

训练数据和方法

研究人员为VITA收集和构建了大量高质量的训练数据:

  1. 图像相关任务:使用了ShareGPT4V、Allava-Caption、ShareGTP4o-Image等数据集,并补充了中文图像描述数据。

  2. 图像问答:采用LLaVA-Mixture-sample、Lvis-Instruct、ScienceQA等数据集,并生成了额外的中文问答数据。

  3. OCR和图表任务:使用Anyword-3M、ICDAR2019-LSVT、ICDAR2017-RCTW、Open-Chart等数据集,并生成了补充数据。

  4. 视频任务:使用ShareGemini数据集进行视频描述,并重新标注了Video-ChatGPT和VideoChat2的数据用于视频问答。

  5. 纯文本数据:从500万条纯文本数据中采样80万条,以维持模型的文本理解能力。

在数据处理方面,研究人员采用了数据拼接策略,将纯文本和图像数据的上下文长度统一为6000个token,以提高训练效率。

多模态对齐

视觉模态

Fig 4:不同的文本数据直接拼接到6K个token。图像首先被分成多个局部patches,然后不同的图像-文本对被对应拼接起来。视频数据直接逐帧采样作为输入,无需拼接。通过这种方式,可以统一不同训练batch中的数据长度,从而提高训练效率。

拼接不同的数据带来了两个好处:

- 支持更长的上下文长度,使得从单图像问答扩展到多图像-问答交互成为可能,从而实现更灵活的输入形式和延长的上下文;
- 提高了计算效率,因为视频帧通常包含大量视觉词元。通过拼接图像-问题对,我们在训练批次中保持了词元数量的平衡,从而提高了计算效率。此外,我们发现使用拼接数据训练的模型在性能上与未拼接数据的模型表现相当。

音频模态

多模态指令微调

在这一阶段,对模型进行指令微调,以增强其文本、音频指令的遵循能力。

训练数据

训练流程

根据上述构建的 QA 对,模型需要区分三种类型的query:

基于这些query类型,设计了三种状态token <1>、<2> 和 <3>。在训练阶段,在答案的开头插入对应的状态token,使模型能够灵活处理不同的交互行为。具体如下:

在训练过程中,视觉和音频编码器保持冻结状态,而连接器与 Mixtral 8×7B 一起进行训练。

部署和工程优化

为了实现VITA的高效交互功能,研究人员进行了大量的工程优化:

  1. 双工部署方案:同时部署两个VITA模型,一个负责生成响应,另一个持续监控环境输入。

  2. 多模态vLLM适配:优化了vLLM框架以支持VITA的多模态处理需求。

  3. 状态token设计:引入不同的状态标记来区分有效查询音频、噪声音频和查询文本,实现无唤醒交互。

  4. 历史上下文聚合:在音频打断时,模型能够聚合历史上下文来响应最新查询。

非唤醒交互

非唤醒交互意味着模型可以在不需要唤醒词或按钮的情况下被激活,并对环境中的用户音频问题做出回应。部署过程必须满足以下要求:

对于第一个要求,现有的语音活动检测(VAD)可以提供帮助。VITA 使用 SileroVAD ,该系统经过大规模语料库训练,涵盖超过 6,000 种语言, 并且能够在各种背景噪声下表现良好。对于第二个要求,利用第 前文介绍的状态token <2>。这使模型能够自动区分输入音频是否为有效query。如果输入为非query类型,模型将直接终止推理,从而仅对query类型的输入作出响应。

音频中断交互

音频中断交互允许用户随时用新问题打断模型的生成过程。为实现这一点,部署环境必须满足以下要求:

评估

从语言、音频、多模态这3个方面的表现来衡量VITA的最终效果。语言方面,使用的评测集:C-EVAL、AGIEVAL、MMLU 和 GSM8K;音频方面,使用的评测集:Wenetspeech 和 Librispeech;多模态方面,使用的评测集:MME 、OCRBench、HallusionBench 和 Video-MME。具体评估结果,这里就不赘述了,感兴趣的小伙伴们可以看原文。

总结

VITA作为一个开源的全模态交互式大语言模型,具有重要的学术和实践意义:

  1. 推动开源MLLM发展:VITA是首个同时支持视频、图像、文本和音频处理的开源MLLM,为开源社区提供了宝贵的参考。

  2. 探索自然交互:VITA在无唤醒交互和音频打断方面的创新,为提升MLLM的交互体验指明了方向。

  3. 促进多模态融合:VITA展示了如何在一个统一的框架内实现多模态信息的端到端处理。

  4. 开放研究资源:VITA的完全开源为后续研究提供了重要的基础设施。

尽管VITA在多模态理解和交互方面取得了显著进展,但与闭源模型如GPT-4o相比仍存在差距。研究团队指出,未来的工作方向包括:

  1. 进一步提升模型的多模态理解能力,特别是在复杂场景和长文本理解方面。

  2. 增强模型的推理和创造能力,使其能够处理更加开放和具有挑战性的任务。

  3. 优化交互体验,探索更多创新的人机交互方式。

  4. 提高模型的效率和部署友好性,使其更易于在实际应用中落地。

  5. 持续扩展训练数据和任务类型,使模型具备更广泛的知识和技能。

总的来说,VITA代表了开源多模态大语言模型的一个重要里程碑。它不仅在技术上推动了MLLM的发展,更为开源社区探索自然、智能的人机交互开辟了新的方向。随着VITA的持续优化和社区的共同努力,我们有理由期待在不久的将来,开源MLLM能够在功能和性能上真正媲美甚至超越闭源商业模型,为人工智能的普及和应用带来更多可能。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5