链载Ai

标题: 【PPT 讲稿 笔记】张俊林:多模态大模型:系统、趋势与问题 [打印本页]

作者: 链载Ai    时间: 昨天 10:09
标题: 【PPT 讲稿 笔记】张俊林:多模态大模型:系统、趋势与问题

大纲

  1. 多模态大模型概述

它是为了让模型能够理解人类意图,遵循产品需求,执行相应任务。因此,总结来说,多模态大模型最核心的五个部分,这五个系统都具有其独特性。


首先,Fuyu-8B的最大特色是其极简的模型结构。如图所示,该模型通过将图片分割成多个patch,并将每个patch打平作为输入。这种设计省去了传统视觉模型中的encoder和adapter两个组件,而是采用了一个线性映射层,直接将图片的patch转换为特征向量。这种简化使得模型结构异常简单,同时保持了良好的性能,是目前可见的最简单的有效模型之一。

LLaVA 1.5的特点在于其典型性。正如我之前提到的,所展示的初始架构图也是从LLaVA 1.5中提取的。目前,LLaVA系列已更新至 6版本,无论是LLaVA 1.5还是 6,都是当前效果最佳的开源模型之一。关于架构图的详细说明,它展示了每个组件的具体用途。例如,视觉编码器采用的是Clip。Clip的主要功能有两个:一是从视觉角度提取特征,以理解图片内容,实现语义理解;二是进行语义对齐,即将图片的语义映射到文本语义中。Clip作为对比学习训练的模型,通过文本接口确保相同语义的距离相近,不同语义的距离较远。因此,使用Clip不仅实现了视觉特征的提取,还完成了文本语义空间的对齐。此外,Adapter采用了一个简单的MLP映射,其作用是将图片语义映射到文本空间的语义。综上所述,LLaVA 1.5典型性强,是其主要特点。接下来,请问,

Qwen-QL是目前开源的中文多模态模型中效果最好的之一。其最大特点是采用了三阶段训练过程。大多数多模态模型通常采用两阶段训练,即第一阶段和第三阶段。第一阶段进行预训练,使用现成的文本大模型进行训练。第三阶段进行微调,主要调整Adapter和文本模型的参数,以使大模型能够更好地理解和回答问题。而Qwen-QL的第二阶段则引入了多任务学习,包括文本任务、图像理解任务和文图任务等,如OCR识别,这使得模型在处理文图交织的数据时更为灵活,不局限于严格的文图对齐,例如博客文章中的图文结合。这一特点是Qwen-QL效果出众的关键所在。

上海人工智能实验室推出的系统,我认为非常有代表性。在后续的讲解中,我将详细介绍其结构,例如右侧的蓝圆图,首先展示的是高清图像。高清图像通常指的是分辨率为48x48的图像,而低清图像则是224x224。该系统首先使用低清图像作为输入,然后通过高清模型处理,将高清图像切割成多个patch,并输入到Visual Encoder中。第一个关键点是支持高清图像的训练。第二个关键点是“mov”的含义,即使用多个Visual Encoder共同提升特征的上传。这种多Visual Encoder的集成非常重要。接下来是文本大模型的部分,其结构与之前提到的类似,但在处理方式上有所不同。我认为这项工作做得非常好,因为它不仅处理了上述两个关键点,而且与其他工作相比,其处理方式更为独特,不会将不同的处理步骤混合在一起。第二部分,我们将讨论发展趋势。

所谓的基础发展区,指的是在现阶段构建一个优秀的多模态大模型时,需要优先考虑的几个关键因素。其中,最重要的是高清图像处理。如果只能选择一个基础选项进行优化,那么应该选择高清处理,因为这是目前所有多模态技术中提升最大的。具体来说,高清图像的输入是必须的,但这些图像的大小可能不同,解决方法是将其切割成相同大小的patch。这样,输入的patch保持高清,然后通过视觉编码器处理,考虑到相对位置编码的问题,再输入到大型模型中。至于视觉特征与文本的结合方式,实际上并不重要,关键在于高清图像处理及其他几个重要因素。

我刚才也提到了,这里有一个例子,他将不同的Visual Encoder拆分开来,使其更加形象化。具体来说,在这个领域,他不仅使用了DINO-V2,还使用了Clip。两者结合,提取特征后进行融合。那么为什么这种多Visual Encoder的集成能够奏效呢?你可以思考一下,它之所以有效,只能说明这些视觉特征信息是互补的。因此,这种方法才能奏效,对吧?

再进一步思考,为什么Clip和DINO-V2能够互补?这也不难理解。Clip的作用是将图像与文本对齐,而DINO-V2则是一个纯图像系统,不具备对齐功能,它纯粹提取图像的语义特征。因此,这两者实际上是互补的。这就是为什么大家会采用这种方式。

但反过来看,我认为这只是一个临时方案。也就是说,在当前阶段,使用多个不同的Visual Encoder进行互补,只能说明目前最好的Visual Encoder还不够完善。如果我们有一个理想的Visual Encoder,它应该能够吸收不同模型的优点。因此,这肯定是一个临时方案。我相信,一年之后,一定会出现一个更先进的Visual Encoder。

对于研究方向,我建议可以探索如何用一个统一的Visual Encoder来实现多模型的集成。多模型集成永远不是最佳选择,无论是哪个领域,都是如此。因此,这是一个重要的趋势。

所谓系里头的文图语义对齐,是指在文本与图像之间建立细粒度的语义对应关系。例如,文本描述“猫在追逐一个纸筒”对应的图像中,需要明确指出哪只猫是文本中的“猫”,以及“纸筒”在图像中的具体位置。通过精确标注,如将文本中的“猫”与图像中橙色框出的猫对应,以及将“纸筒”与图像中相应的区域对应,可以增强多模态模型的图像理解能力。此外,对于动作如“touching”,可以通过框选动作发生的区域来具体化。这种精确的文图对应关系设计,对于提升多模态模型的能力具有显著效果。通过训练模型,使其学习到文本与图像之间的对应关系,可以进一步提高模型的性能。这种标注工作虽然复杂,但一旦完成,将极大地促进模型的应用效果。

阿里千问曾提及此事,其重要性不容忽视。在训练多模态大模型时,不能仅依赖文图对齐数据。原因在于,我们已构建了一个核心的文本大模型。若仅使用文图对齐数据,可能会削弱文本模型的能力。这是由于新数据的引入需要调整模型参数。若选择冻结参数,则另当别论。但通常情况下,为了优化模型性能,仍需对文本部分进行调整。

但是一旦使用这种数据进行训练,必然会导致灾难性遗忘,即文本理解和推理能力的下降。因此,为了缓解这一问题,需要采用文图非严格对齐的数据,正如我之前所举的例子,其目的正是为了减轻大型文本模型中的灾难性遗忘问题。这一点至关重要。刚才已经介绍了几个相关方向,我们再简要回顾一下。

这个问题首先在于,第一个问题是关于多模态大模型的视觉感知能力是否强大。我认为答案是肯定的,非常强。但如果说多模态大模型有一个最大的弱点,那就是视觉感知错误,大约35%的错误来源于此。这意味着模型在处理视觉输入的编码时存在问题,可能是清晰度不足或出现错误,这是一个严重的问题。第二个问题是,

中国的大模型在处理图片中物体空间关系的能力较差。例如,Gemini GPT4V模型在判断物体位置时出现错误,如判断矛球在人物的左侧,实际上应为右侧。同样,在判断乔丹左侧的人物时也出现错误。这表明,当前的大模型在理解上下左右等空间关系方面存在明显不足。然而,这一问题相对容易解决,主要可以通过增加包含明确空间关系的数据来改善。例如,在图片和文本中明确标注物体间的左右关系,以此来训练模型。我认为,这主要是因为模型在这方面的训练数据不足。总的来说,这个问题是可以通过增加相关数据来解决的。

这种模型能否真正理解图片的语义呢?实际上是相当困难的。如果我们把模型理解图片的能力分为浅层的“表面”和深层的“深度”,你会发现它在“表面”层面上表现尚可。

所谓surface指的是,当你看到一张图片时,能够识别出图片中的人物、事件以及他们的穿着等表面信息。然而,许多图片蕴含着更深层次的意义。以漫画为例,漫画通常不是表达表面的信息,而是传达更深层的语意。在这幅漫画中,一个小孩在豪华的房间内读书,而另一个贫穷的小孩则在窗外,同样手持一本书。这幅漫画的深层含义是,无论贫富,每个人都应该有机会学习。这项研究对东门海大漠进行了测试,以评估其在表面理解和深层图片理解方面的能力。测试结果显示,即使是表现最好的模型,如GPT4V,与人类的表现仍存在巨大差距。这表明,尽管模型在表面理解上有所进步,但在深层语意的理解上仍有待提高。

但是,对于深度学习模型,如94、55、93、63等,与人类的表现差距在30到40分之间。再看开源模型,其表现通常也远不如人类。因此,我们可以得出结论,目前大多数模型在深度理解图像信息方面表现不佳。

这就是视觉数理推理能力。它强不强?现在可以得到的结论是,即使是专门研究这个问题,其能力也不强。例如,给出一个问题,要求通过图像输入来回答。这个问题是:函数的最大局部值在哪里?很明显,红色曲线是该函数的导数。通常,只需找出导数与x轴的交点,即2或3,这些点对应函数的最大值或最小值。然后测试了三个模型:GPT4V、GeminiPro和SPHINXMoE。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5