复制成功

分享至

主页 > 比特币 >

卷完参数后,大模型公司又盯上了“长文本”?

2023.10.12

原文来源:光锥智能

作者:郝鑫

卷完参数后,大模型公司又盯上了“长文本”?

图片来源:由无界 AI‌生成

4000到40万token,大模型正在以“肉眼可见”的速度越变越“长”。

长文本能力似乎成为象征着大模型厂商出手的又一新“标配”。

国外,OpenAI经过三次升级,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token(token:模型输入和输出的基本单位);OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token;LongLLaMA将上下文的长度扩展到25.6万token,甚至更多。

国内,光锥智能获悉,大模型初创公司月之暗面发布智能助手产品Kimi Chat可支持输入20万汉字,按OpenAI的计算标准约为40万token;港中文贾佳亚团队联合MIT发布的新技术LongLoRA,可将7B模型的文本长度拓展到10万token,70B模型的文本长度拓展到3.2万token。

据光锥智能不完全统计,目前,国内外已有OpenAI、Anthropic、Meta、月之暗面等一大批顶级的大模型技术公司、机构和团队将对上下文长度的拓展作为更新升级的重点。

卷完参数后,大模型公司又盯上了“长文本”?

毫无例外,这些国内外大模型公司或机构都是资本市场热捧的“当红炸子鸡”。

OpenAI自不必说,大模型Top级明星研究机构,斩获投资近120亿美元,拿走了美国生成式AI领域60%的融资;Anthropic近期风头正盛,接连被曝亚马逊、谷歌投资消息,前后相差不过几天,估值有望达到300亿美元,较3月份翻五番;成立仅半年的月之暗面出道即巅峰,一成立就迅速完成首轮融资,获得红杉、真格、今日资本、monolith等一线VC的押注,市场估值已超过3亿美元,而后,红杉孵化式支持,循序完成两轮共计近20亿元融资。

大模型公司铆足劲攻克长文本技术,上下文本长度扩大100倍意味着什么?

表面上看是可输入的文本长度越来越长,阅读能力越来越强。

若将抽象的token值量化,GPT-3.5的4000 token最多只能输入3000个英文单词或者2000个汉字,连一篇公众号文章都难以读完;3.2万token的GPT-4达到了阅读一篇短篇小说的程度;10万token的Claude可输入约7.5万个单词,仅22秒就可以阅读完一本《了不起的盖茨比》;40万token的Kimi Chat支持输入20万汉字,阅读一本长篇巨著。

另一方面,长文本技术也在推动大模型更深层次的产业落地,金融、司法、科研等精艰深的领域里,长文档摘要总结、阅读理解、问答等能力是其基本,也是亟待智能化升级的练兵场。

参考上一轮大模型厂商“卷”参数,大模型参数不是越大就越好,各家都在通过尽可能地扩大参数找到大模型性能最优的“临界点”。同理,作为共同决定模型效果的另一项指标——文本长度,也不是越长,模型效果就越好。

有研究已经证明,大模型可以支持更长的上下文输入与模型效果更好之间并不能直接画上等号。模型能够处理的上下文长度不是真正的关键点,更重要的是模型对上下文内容的使用。

不过,就目前而言,国内外对于文本长度的探索还远没有达到“临界点”状态。国内外大模型公司还在马不停蹄地突破,40万token或许也还只是开始。

为什么要“卷”长文本?

月之暗面创始人杨植麟告诉光锥智能,在技术研发过程中,其团队发现正是由于大模型输入长度受限,才造成了许多大模型应用落地的困境,这也是月之暗面、OpenAI等一众大模型公司在当下聚焦长文本技术的原因所在。

比如在虚拟角色场景中,由于长文本能力不足,虚拟角色会忘记重要信息;基于大模型开发剧本杀类游戏时,输入prompt长度不够,则只能削减规则和设定,从而无法达到预期游戏效果;在法律、银行等高精度专业领域,深度内容分析、生成常常受挫。

在通往未来Agent和AI原生应用的道路上,长文本依然扮演着重要的角色,Agent任务运行需要依靠历史信息进行新的规划和决策,AI原生应用需要依靠上下文本来保持连贯、个性化的用户体验。

杨植麟认为,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。“无损压缩或大模型研究的进展曾极度依赖‘参数为王’模式,该模式下压缩比直接与参数量相关。但我们认为无损压缩比或大模型的上限是由单步能力和执行的步骤数共同决定的。其中,单步能力与参数量呈正相关,而执行步骤数即上下文长度。”

如果形象化地去理解这句话,“无损压缩”就像是一位裁缝,需要把一块完整的布裁剪成合身的衣服。一开始这位裁缝的思路是要去准备各种尺寸的裁剪模板(参数),模板越多,裁剪出来的衣服也越合身。但现在的新思路是,即使模板不多,只要反复裁剪、量体裁衣也能使衣服极致合身。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier