谷歌视觉语言模型PaLI-3问世，参数仅5B，更小、更快、更强

2023.10.17

在多模态（视觉语言）大模型领域，拼参数赢性能的同时，追求参数更小、速度更快、性能更强是另一条研究路径。

图片来源：由无界 AI生成

在大模型时代，视觉语言模型（VLM）的参数已经扩展到了数百甚至数千亿，使得性能持续增加。与此同时，更小规模的模型仍然很重要，它们更易于训练和服务，更加环境友好，并为模型设计提供更快的研究周期。

在该领域，谷歌研究院在去年推出了一个名为 PaLI（Pathways Language and Image）的模型。作为一个多模态大模型，PaLI 的关键结构之一是复用大型单模态基干进行语言和视觉建模，在语言方面复用 13B 参数的 mT5-XXL，在视觉方面复用 2B 参数的 ViT-G 和 4B 参数的 ViT-e。当时 PaLI 实现了优于多数新旧模型的性能。

此后谷歌继续专注于更小规模的建模，并于近日提出 PaLI-3，这是 PaLI 系列的第三代模型。通过一个仅有 5B 参数的预训练基线模型，他们优化了训练方法，并在多个 VLM 基准上实现了有竞争力以及新的 SOTA 结果。

该方法主要由三部分组成，分别是在 web 规模的图像文本数据上对图像编码器的对比预训练、用于 PaLI 多模态训练的改进后的混合数据集，以及更高分辨率的训练。

作者来自谷歌研究院、谷歌DeepMind和谷歌云。

论文地址：https://arxiv.org/pdf/2310.09199.pdf

下图为 5B PaLI-3 模型概览，其中通过对比预训练的 2B SigLIP 视觉模型，图像被单独地编码成了视觉 token。接着与 query 一起，这些视觉 token 被传递给了 3B 编码器 - 解码器结构的 UL2 Transformer，它生成了预期答案。在这样的设置下，与之前 PaLI 模型中单个分类预训练的模型，对比预训练的模型提供了明显更有用的 token。

效果怎么样呢？PaLI-3 在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA，包括 RefCOCO 数据集上的 8 个视觉定位文本理解任务和参考表达分割任务。PaLI-3 也在一系列分类视觉任务上有出色的表现。

此外研究者还专门做了消融实验以与分类预训练的 ViT 基线模型比较，并进一步确认了预训练视觉编码器在有噪声 web 规模的图像文本数据上的可行性，从而成为在分类数据上进行训练的优先替代方案。

除了 5B PaLI-3 模型之外，研究者还利用最近提出的 SigLIP 方法，构建了一个参数扩展到 2B 的 SOTA 多语言对比视觉模型。

模型介绍

架构

在更高的层面，PaLI-3 的架构遵循了 Chen et al. (2023b;a)：ViT 模型将图像编码为 token，并与问题、提示和指令等文本输入一起被传递到编码器 - 解码器结构的 transformer，从而生成文本输出。

先看视觉组件。研究者使用 SigLIP 训练方法，从对比预训练的 ViT-G/14 模型（参数约为 2B）初始化出 PaLI-3 的视觉基干。简而言之，他们训练了图像嵌入 ViT-G/14 模型和文本嵌入 transformer 模型来分别嵌入图像和文本，这样一来，使用图像和文本嵌入点积的 sigmoid 交叉熵的二元分类器，能够准确地分类各自的图像和文本是否相互对应。

这类似于 CLIP 和 ALIGN，但更加高效、可扩展和稳健。同时这种方法是为了预训练 ViT 图像嵌入组件，因此当将 ViT 插入到 PaLI 时，文本嵌入 transformer 会被丢弃。

再来看完整的 PaLI 模型。ViT 图像编码器的输出在池化之前形成了视觉 token，并线性地映射和添加到嵌入的输入文本 token。接着这些 token 被传递到了预训练的 3B UL2 编码器 - 解码器模型，从而生成文本输出。该模型的文本输入通常包含有描述任务类型的提示，并为该任务编码必要的文本输入。

训练

训练过程包含多个阶段。

阶段 0：单峰预训练。图像编码器按照 SigLIP 训练协议，图像编码器的训练分辨率为 224×224 ；文本编码器 - 解码器是一个 3B UL2 模型，按照 Tay 等人描述的混合降噪程序进行训练。

阶段 1：多模态训练。将图像编码器与文本编码器 - 解码器相结合，然后，将这个组合得到的 PaLI 模型在多模态任务和数据上进行训练，此时，图像编码器保持冻结，分辨率还是 224×224。通过对文本质量进行启发式过滤，并使用 SplitCap 训练目标，再次从 WebLI 数据集派生出主要的混合组件。

阶段 2：提升分辨率。高分辨率输入是一种被广泛接受的提高性能的方法，这既是因为可以感知图像中的更多细节，也是因为通过增加序列长度来提高模型能力。本文通过解冻图像编码器来提高 PaLI-3 的分辨率，将检查点保持在 812×812 和 1064×1064 分辨率。

谷歌视觉语言模型PaLI-3问世，参数仅5B，更小、更快、更强

加⼊OKEx全球社群

相关推荐