复制成功

分享至

主页 > 数字货币 >

大模型的 2024:「天上」的技术,和「地上」的创业者

2024.02.08

文章来源:极客公园

作者:宛辰

图片来源:由无界AI生成 图片来源:由无界AI生成

2023 年,OpenAI 引领了科技圈久违的兴奋,创业者感到有奔头的同时,却也随着 AI 模型的一再进化,感受到了压力。

在春节前夕,算力、模型、应用等领域的大模型创业者,齐聚在一场创业者社群的活动上,切磋各自在不断进化的大模型中找到的空间。面对呼之欲出的 GPT-5 和 Llama3,他们也有新的思考。

站在模型层面,差异化很难,方向几乎是明确的——增强推理能力和多模态。也有技术路线的分野,比如阿里云通义实验室智能对话负责人李永彬透露,目前在思考是否能把搜索增强这样的外挂能力,做到模型里,进一步提升模型的可用性。

但站在应用层,多的是非共识和机会。比如,跑得最快的一批创业者,已经实现了一定程度的商业闭环,得出的结论甚至有些意外:「大模型含量」不宜过高。

这群下场做大模型的实干家也谈到了行业内最真实的情况。智谱 AI COO 张帆道出,今天的榜单其实不反映真实问题,GPT-4 可能连榜单前 10 名都进不了。他认为,这种情况下,2024 年一定会发生从模型为王到价值为王的变化。

百川智能联合创始人洪涛则更关心成本,他表示,一年下来苦哈哈做各种私有化项目,到底挣多少钱,其实内心没把握。在这一点上,大家也探讨了云计算厂商能否在整个行业没有商业模式之前,降低算力成本的路径,让该花的钱少一点。

大模型的 2024:「天上」的技术,和「地上」的创业者

近日,阿里云创业者社群在北京举办创业者之夜活动|阿里云

在「创业者之夜」,各位大模型的先行者分享了各自对行业的「预言」;AI 应用的创业者们,也分享了对于大模型的「焦虑」。


01、2024,大模型往哪走?


2023 年,阿里云李永彬游走于大模型业务一线。一整年忙活下来,他发现:最初,大模型让「AI 解决问题」这件事的效果从 20 分提高到 60 分,就能够惊艳所有人,但是对于很多问题,60 分和 0 分差不多。因为在一些应用场景,没办法拿 60 分的产品上线,效果到不了 90 分,客户可能也不会买单。

这也是 2023 年大模型创业者们共同的体感。从兴奋回归到理性,背后是共同的困惑——大模型还不够通用,它会不会像上一波 AI 一样,尽管展现出惊人的能力,但落到场景时仍旧需要逐个项目定制化?

大家自然就产生了 2024 年对大模型的第一个期待——通用能力进一步提升,甚至期待模型在一些复杂场景能直接做到 90 分。

这种可能性不是无迹可寻。IDEA 研究院讲席科学家张家兴认为,从目前 OpenAI、谷歌等大厂对下一代大模型的判断,大模型能解决复杂问题会成为接下来进化的方向。

大模型的 2024:「天上」的技术,和「地上」的创业者

AlphaGeometry: An Olympiad-level AI system for geometry|图片来源:DeepMind 官网

就在两周前,谷歌 DeepMind 推出的 AlphaGeometry(阿尔法几何)AI 系统,已经能在 30 道国际奥数题中做对 25 道,接近人类水平(人类金牌得主平均做对 25.9 道)。像这样能解决奥数级别的几何问题,被视为迈向更先进、更通用 AI 的重要里程碑。在 IDEA 研究院张家兴看来,「奥数就是复杂问题,问题的描述很复杂,求解过程、证明过程也很复杂」,能解决复杂问题是模型变得更通用的表现之一。

阿里云创业孵化事业部总经理李中雨认为,从 GPT-5 目前释放的信息看,模型的泛化能力在提升,解决复杂任务的能力也在提升,甚至接下来 GPT-5 可以解决 15%-20% 人类的任务。

在提升模型的通用性上,也有新思路。

一位来自模型厂商的与会者分享,最近绝大多数企业落地大模型时都会用到 RAG(搜索增强),从而将大模型和私有数据结合起来,提升模型可用性。但作为模型侧的开发者,也在探索算法创新,通过算法创新提高模型的学习能力,把像 RAG 这样的外挂知识库囊括进去,从而减少对模型数据训练的依赖。换言之,通过算法创新,以期让模型像人类学习一样,看一本书就可以理解知识,而不需要看所有书来理解一个问题。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier