我要投稿

一文彻底搞懂多模态 - 视觉大模型

发布日期：2024-09-26 07:20:42 浏览次数： 4238 作者：架构师带你玩转AI

Large Vision models

视觉大模型（Large Vision models）在图像理解和生成领域展现出了巨大的潜力和价值。CLIP和SAM作为通用图像理解模型的代表，分别通过跨模态匹配和精确分割技术推动了图像理解领域的发展。而Stable Diffusion作为通用图像生成模型的代表，则以其高效、稳定的图像生成能力为图像创作和艺术设计等领域带来了全新的可能性。

接下来分两部分：通用图像理解模型、通用图像生成模型，一起来学习视觉大模型CLIP、SAM和Stable Diffusion。

Large Vision models

一、通用图像理解模型

什么是通用图像理解模型？通用图像理解模型是指一类能够处理和理解广泛图像内容，执行多种图像理解任务的计算机视觉模型。如CLIP和SAM，它们分别通过跨模态匹配和精确分割技术，实现了对图像的高效理解和应用。

图像分类：将图像划分为预定义的类别之一。例如，识别图像中的物体是猫、狗还是其他动物。
目标检测：在图像中定位并识别出多个物体及其类别。这通常涉及在图像上绘制边界框来指示物体的位置。
图像分割：将图像分割成不同的区域或对象，通常是在像素级别上进行。这可以是语义分割（区分不同类别的对象）或实例分割（区分同一类别的不同实例）。

什么是CLIP（Contrastive Language-Image Pre-training）？CLIP（对比语言-图像预训练）是一种基于对比学习的多模态模型，通过大规模的图像-文本对数据集进行预训练，学习图像和文本之间的匹配关系。

CLIP模型将图像和文本编码到同一向量空间中，使得相似的图像和文本在空间中距离更近，从而实现了跨模态的语义理解和检索。

CLIP

图像-文本对数据集驱动图像和文本两种模态数据进行跨模态对齐，从而学习图像-文本的映射关系，实现图像-文本多模态融合。-- 架构师带你玩转AI

什么是SAM（Segment Anything Model）？SAM（分割一切模型）是一个由Meta AI（Facebook AI Research）发布的图像分割模型，旨在通过用户提示（如点击、画框、掩码、文本等）从图像中分割出特定的对象。

SAM

该模型具有零样本泛化的能力，即能够分割图像上的视觉对象，即使这些对象没有在训练集中出现过。

零样本泛化能力：SAM能够处理并分割出图像中未曾在训练集中见过的对象，这种能力在图像分割领域尚属首次。
灵活的提示输入：用户可以通过多种形式的提示（点、边界框、文本等）来指导模型进行分割，这使得模型在应用中更加灵活和便捷。
高效的模型结构：SAM模型由图像编码器、提示编码器和掩码解码器组成，能够在浏览器中快速（约50毫秒）根据提示预测掩码。
大规模多样化的数据集：为了训练SAM模型，Meta AI构建了一个名为SA-1B的大规模图像分割数据集，包含1100万张图片以及10亿个Mask图。

SAM

二、通用图像生成模型

什么是通用图像生成模型？通用图像生成模型是一类基于深度学习技术的生成式模型，它们的主要目的是学习图像数据的分布，并据此生成新的、多样化的图像样本。包括图像生成、图像编辑、图像修复、图像增强等。

通用图像生成模型

什么是Stable Diffusion？Stable Diffusion是一种先进的图像生成模型，属于Diffusion模型的一种。它采用了更加稳定、可控和高效的方法来生成高质量图像。

神经网络算法 - 一文搞懂扩散模型Diffusion Models

神经网络算法 - 一文搞懂DiT（Diffusion Transformer）

Stable Diffusion通过文本编码器的文本嵌入、潜空间采样、U-Net网络的逐步去噪生成，以及VAE解码器的图像解码，实现从文本描述到高质量图像的生成。

Stable Diffusion

Stable Diffusion模型结构主要由变分自编码器(VAE)、U-Net神经网络和文本编码器(CLIP Text Encoder)三个核心部分组成，通过潜空间中的信息逐步处理和文本条件引导，实现高质量图像的生成。

Stable Diffusion

文本编码器（CLIP Text Encoder）：

文本编码器是Stable Diffusion模型的重要组成部分，它负责将输入的文本描述转换为数值表示，即文本嵌入（Text Embeddings）。
在Stable Diffusion中，文本编码器通常采用的是CLIP模型中的Text Encoder部分。CLIP模型是一个基于对比学习的多模态模型，能够理解和比较文本与图像之间的相似度，使得生成的图像能够与输入的文本描述相匹配。

变分自编码器（VAE, Variational Autoencoder）：

VAE在Stable Diffusion中主要用于图像的压缩和恢复。它包含编码器（Encoder）和解码器（Decoder）两个部分。
编码器负责将输入的高维图像数据压缩到低维的潜空间（Latent Space）中，生成潜空间特征（Latent Features）。解码器则负责将潜空间特征重新映射回原始的高维图像空间，生成最终的图像输出。

U-Net网络：

U-Net是Stable Diffusion中用于图像生成的核心网络。它接收文本嵌入向量和潜空间特征作为输入，通过逐步去噪（Denoising）的过程生成最终的图像。
U-Net网络结构具有对称性，包含编码器和解码器两个部分。编码器部分逐步降低特征图的分辨率并提取高级特征，解码器部分则逐步恢复特征图的分辨率并生成最终的图像。