一文搞懂多模态视觉大模型（CLIP和SAM）

显示全部楼层

多模态视觉大模型（Large Vision models）通过融合不同模态（如图像、文本）的信息实现更接近人类认知的智能。CLIP（Contrastive Language-Image Pre-training）和SAM（Segment Anything Model）作为代表性模型，分别从跨模态理解和图像分割方向推动了技术发展。

一、视觉大模型

什么是视觉大模型（Large Vision models）？视觉大模型是基于深度学习技术，特别是基于Transformer架构的模型，用于处理和分析图像数据。这些模型通过海量数据的训练，能够自动提取图像中的特征信息，进而实现图像分类、目标检测、图像分割等复杂任务。

图像分类：将图像划分为预定义的类别之一。例如，识别图像中的物体是猫、狗还是其他动物。
目标检测：在图像中定位并识别出多个物体及其类别。这通常涉及在图像上绘制边界框来指示物体的位置。
图像分割：将图像分割成不同的区域或对象，通常是在像素级别上进行。这可以是语义分割（区分不同类别的对象）或实例分割（区分同一类别的不同实例）。

Large Vision Models(LVMs): Examples, Use Cases & Challenges

视觉大模型的场景应用有哪些？视觉大模型已经在自动驾驶、智能安防、医学影像分析等领域展现出巨大的潜力。例如，百度文心UFO 2.0、华为盘古CV视觉大模型等都在实际应用中取得了显著成效。

这些模型通过针对特定任务的微调（Fine-tuning）和迁移学习（Transfer Learning）策略，实现了对复杂场景的准确识别和处理。

一、微调（Fine-tuning）

在视觉大模型中，微调技术的主要目的是使模型能够适应新的、具体的视觉任务或领域，而无需从头开始训练一个全新的模型。

选择预训练模型：选择一个在大规模数据集（如ImageNet）上预训练好的视觉大模型，这些模型通常具备强大的特征提取能力和良好的泛化性能。
准备新任务数据集：收集并处理与特定视觉任务相关的数据集，这些数据集用于在微调过程中训练模型，以使其适应新的任务需求。
设置微调参数：根据任务特性和模型特点，设置合适的微调参数，如学习率、批处理大小、训练轮次等。
进行微调训练：在新任务数据集上对预训练模型进行进一步训练，通过调整模型权重和参数来优化模型在新任务上的性能。

二、迁移学习（Transfer Learning）

迁移学习是将在一个任务上学到的知识迁移到另一个相关任务中，利用在大规模数据上预训练的模型来改善在小规模数据上的任务性能。今年大火的知识蒸馏就是一种迁移学习方法。

Transferring Vision-Language Models for Visual Recognition: A Classifier Perspective | International Journal of Computer Vision

二、CLIP 和 SAM

什么是CLIP（Contrastive Language-Image Pre-training）？CLIP（对比语言-图像预训练）是一种基于对比学习的多模态模型，通过大规模的图像-文本对数据集进行预训练，学习图像和文本之间的匹配关系。
CLIP模型将图像和文本编码到同一向量空间中，使得相似的图像和文本在空间中距离更近，从而实现了跨模态的语义理解和检索。
图像-文本对数据集驱动图像和文本两种模态数据进行跨模态对齐，从而学习图像-文本的映射关系，实现图像-文本多模态融合。

什么是SAM（Segment Anything Model）？SAM（分割一切模型）是一个由Meta AI（Facebook AI Research）发布的图像分割模型，旨在通过用户提示（如点击、画框、掩码、文本等）从图像中分割出特定的对象。

该模型具有零样本泛化的能力，即能够分割图像上的视觉对象，即使这些对象没有在训练集中出现过。

零样本泛化能力：SAM能够处理并分割出图像中未曾在训练集中见过的对象，这种能力在图像分割领域尚属首次。

灵活的提示输入：用户可以通过多种形式的提示（点、边界框、文本等）来指导模型进行分割，这使得模型在应用中更加灵活和便捷。

高效的模型结构：SAM模型由图像编码器、提示编码器和掩码解码器组成，能够在浏览器中快速（约50毫秒）根据提示预测掩码。

大规模多样化的数据集：为了训练SAM模型，Meta AI构建了一个名为SA-1B的大规模图像分割数据集，包含1100万张图片以及10亿个Mask图。