模型上下文长度达到10000000，又一批创业者完蛋了？

2024.02.26

文章来源：硅星人Pro

作者：油醋

图片来源：由无界AI生成

没有疑问，Gemini 1.5 Pro的隆重推出被Sora抢了风头。

社交平台X上OpenAI介绍Sora的第一条动态，现在已经被浏览了超过9000万次，而关于Gemini 1.5 Pro热度最高的一条，来自谷歌首席科学家Jeff Dean，区区123万人。

或许Jeff Dean自己也觉得郁闷。Gemini 1.5 Pro和Sora共同发布的一周后，他在X上点赞了沃顿商学院副教授Ethan Mollick认为人们对大模型的注意力发生了偏差的观点。

Ethan Mollick几乎是教育界最早公开推崇生成式AI的人之一，他在2023年2月公开呼吁学生应该都应该开始用ChatGPT写论文。而这一次他的观点是，考虑到大模型在图像生成方面所体现出的有限价值，它实在是引起了过多的讨论了。

“对于大模型的实验室来说，图像生成更像是一个聚会上的节目......做为内核的LLM才是价值所在。但社交媒体更乐于分享照片。”

——没说的是，社交媒体也更乐于分享Gif，以及视频。

人类是视觉动物，所以Sora才会这么抢眼。或许我们太高估了Sora，又太忽视了Gemini 1.5 Pro。

Gemini 1.5 Pro展现出的众多能力中有一点很特殊，它已经是一个具备处理视频语料输入的多模态大模型。Sora能将文字扩展成视频，Gemini 1.5 Pro的野心是把理解视频的能力开放出来。在对模型能力的考验上，很难说后者就弱于前者。

这背后的基础性工作在上下文输入长度上。Gemini 1.5 Pro的上下文长度达到1M Token，这意味着一小时的视频、3万行代码或者JK·罗琳把小说从《哈利波特与魔法石》写到《哈利波特与凤凰社》，远高于包括GPT、Claude系列在内的目前市面上所有的大模型。而谷歌甚至透露，1M Token并不是极限，谷歌内部已经成功测试了高达10M Token的输入，也就是说，它已经能一口气看完9个小时的《指环王》三部曲。

上下文长度抵达10M Token到底意味着什么，等到Sora带来的激情稍褪，人们逐渐回过味儿来。

X、Reddit......越来越多的讨论场开始关注到10M Token所展现出的可能性，其中最大的争议在于，它是否“杀死”了RAG（Retrieval Augment Generation，检索增强生成）。

大模型从概念走向商业应用的过程中，本身的问题逐渐暴露，RAG开始成为贯穿整个2023年最火热的技术名词。

一个被普遍接受的描述框架给这项技术找到了最精准的定位。如果将整个AI看作一台新的计算机，LLM就是CPU，上下文窗口是内存，RAG技术是外挂的硬盘。RAG的责任是降低幻觉，并且提升这台“新计算机”的实效性和数据访问权限。

但本质上这是因为这台“新计算机”仍然又笨又贵，它需要更多脑容量、需要了解更具专业性的知识，同时最好不要乱动昂贵又玻璃心的那颗CPU。RAG某种程度上是为了生成式AI能够尽早进入应用层面的权宜之计。

10M Token的上下文输入上限，意味着很多RAG要解决的问题不成问题了，然后一些更激进的观点出现了。

曾构建了评测基准C-EVAL的付尧认为，10M Token杀死了RAG——或者更心平气和的说法是，长文本最终会取代RAG。

这个观点引发了巨大讨论，他也随后对这个看起来“暴论”式的判断所引发的反对观点做了进一步解释，值得一看。

其中最重要的，是长文本相比于RAG在解码过程中检索上的优越性：

“RAG只在最开始进行检索。通常，给定一个问题，RAG会检索与该问题相关的段落，然后生成。长上下文对每一层和每个Token进行检索。在许多情况下，模型需要进行即时的每个Token的交错检索和推理，并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。

针对RAG支持1B级别的Token，而目前Gemini 1.5 pro支持的上下文长度是1M的问题：

“确实如此，但输入文档存在自然分布，我倾向于相信大多数需要检索的案例都在百万级以下。例如，想象一个处理案例的层，其输入是相关的法律文件，或者一个学习机器学习的学生，其输入是三本机器学习书籍——感觉不像1B那么长，对吗？”

“大内存的发展并不意味着硬盘的淘汰。”有人持更温和的观点。

出于成本和效率上的考虑，超长文本输入在这两方面显然并不成熟。因此哪怕面对10M Token的上下文输入上限，RAG仍然是必须的，就像我们时至今日仍然没有淘汰掉硬盘。

如果将上下文的窗口设定为1M，按现在0.0015美元/1000token的收费标准，一次请求就要花掉1.5美元，这么高的成本显然是无法实现日常使用的。

时间成本上，1M的上下文长度在Gemini 1.5 Pro的演示实例中，需要60秒来完成结果的输出——但RAG几乎是实时的。

付尧的观点更倾向于——“贵的东西，缺点只有贵”。

模型上下文长度达到10000000，又一批创业者完蛋了？

加⼊OKEx全球社群

相关推荐