复制成功

分享至

主页 > 数字货币 >

模型越大,性能越好?苹果自回归视觉模型AIM:没错

2024.01.18

原文来源:机器之心

模型越大,性能越好?苹果自回归视觉模型AIM:没错

图片来源:由无界 AI生成

视觉模型,同样遵循「参数越多性能越强」的规律?刚刚,一项来自苹果公司的研究验证了这个猜想。

过去几年,大规模预训练模型在 NLP 领域取得了成功,这类模型可以通过几个示例解决复杂的推理任务,也可以按照指令进行推理。

众所周知的是,预训练模型能取得成功的一个理论基础是,随着容量(即参数量)或预训练数据量的增加,模型能够不断提升性能。

这很自然地引发了研究者们的联想:使用自回归目标对 Transformers 进行缩放的成功是否仅限于文本?

在最新的一篇论文《Scalable Pre-training of Large Autoregressive Image Models》中,苹果的研究者提出了自回归图像模型(AIM),探讨了用自回归目标训练 ViT 模型是否能在学习表征方面获得与 LLMs 相同的扩展能力。

模型越大,性能越好?苹果自回归视觉模型AIM:没错
  • 论文链接:https://arxiv.org/pdf/2401.08541.pdf
  • 项目地址:https://github.com/apple/ml-aim
  • 先说结论:研究者发现,模型容量可以轻松扩展到数十亿个参数,并且 AIM 能够有效利用大量未经整理的图像数据。

    他们利用包括 ViT、大规模网络数据集和 LLM 预训练最新进展在内的工具集,重新审视了 iGPT 等自回归表征学习方面的前期工作,此外还引入了两处架构修改,以适应视觉特征的自回归预训练。

    首先,研究者并没有像 LLM 通常那样将自注意力限制为完全因果关系,而是采用了 T5 中的前缀注意力。这一选择使得能够在下游任务中转向完全双向的注意力。其次,研究者使用了参数化程度较高的 token-level 预测头,其灵感来自对比学习中使用的预测头。他们观察到,这种修改大大提高了后续特征的质量,而在训练过程中的开销却很小。总体来说,AIM 的训练与最近的 LLM 训练类似,而且不依赖于监督式或自监督式方法所需的任何 stability-inducing 技术。

    随后,研究者对一系列模型展开了研究,这些模型的参数从 600M 到 7B 不等,都是使用 20 亿带许可的未编辑图像进行预训练的。如图 1 所示,以 15 个图像识别基准的平均准确率来衡量,AIM 模型在与模型规模的关系上表现出很强的扩展性,容量越大的模型下游性能越好。更重要的是,验证集上的目标函数值与后续冻结特征的质量之间存在相关性。这一观察结果证明,自回归目标足以满足视觉特征的训练要求。此外,随着对更多图像进行训练,研究者还观察到了下游性能的持续改善,且没有饱和的迹象。总体而言,这些观察结果与之前关于扩展大型语言模型的研究结果是一致的。

    模型越大,性能越好?苹果自回归视觉模型AIM:没错

    但同时引起注意的是,本文实验所使用的模型规模有限,是否能在更大参数量级的模型上验证此规律,有待进一步探索。

    方法概览

    本文的训练目标遵循应用于图像 patch 序列的标准自回归模型。更准确地说,图像 x 被分割为 K 个不重叠 patch x_k 组成的网格 k ∈ [1, K],这些 patch 共同形成 token 序列。

    研究者假设所有图像的序列顺序是固定的,因此除非另有说明,他们默认使用光栅(行优先)排序。给定上述顺序,一张图像的概率可以被分解为 patch 条件概率的乘积。

    模型越大,性能越好?苹果自回归视觉模型AIM:没错

    预测损失。研究者的训练目标自然会产生某些损失变体,每个变体对应分布 P (x_k | x_

    架构

    在骨干选择上,研究者采用了 Vision Transformer(ViT)架构。为了扩展模型容量,他们遵循语言建模中的常见做法,优先考虑扩展宽度而不是深度。下表 1 展示了 AIM 的设计参数,包括它的宽度和深度以及数据量、每个模型容量的优化方案。

    模型越大,性能越好?苹果自回归视觉模型AIM:没错

    AIM 整体模型架构如下图 2 所示。

    模型越大,性能越好?苹果自回归视觉模型AIM:没错

    免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier