链载Ai

标题: VITA:腾讯开源交互式多模态大型语言模型,支持全模态、无障碍交流,可随时打断 [打印本页]

作者: 链载Ai    时间: 8 小时前
标题: VITA:腾讯开源交互式多模态大型语言模型,支持全模态、无障碍交流,可随时打断

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">一、引言

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">近年来,随着大型语言模型(LLMs)的飞速发展,多模态大型语言模型(MLLMs)逐渐崭露头角,其中以GPT-4为代表的模型展现了卓越的多模态能力和自然的人机交互体验。然而,开源界在这一领域仍显不足,鲜有模型能同时达到高度多模态处理和自然交互的标准。本文介绍了VITA,首个开源的多模态大型语言模型,该模型能够同时处理视频、图像、文本和音频,并具备先进的多模态交互体验。VITA以Mixtral 8×7B为基础,通过双语指令调优、多模态对齐和指令调优等多阶段训练,实现了对多种语言和模态的深刻理解与交互。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">VITA也是首个能够同时处理四种模态并与交互无缝集成的开源大模型。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;">二、VITA的主要特点

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;" class="list-paddingleft-1">
  1. 多模态处理能力






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5