复制成功

分享至

主页 > 比特币 >

GPT-4震惊四座,中国创业者激战“小模型”

2023.03.15

作者:周鑫雨

GPT-4震惊四座,中国创业者激战“小模型”

图片来源:由无界版图AI工具生成

发布ChatGPT仅三个多月后,OpenAI亲手为这场大模型热潮再添了把柴火。

北京时间3月15日凌晨,OpenAI在官网上宣告了多模态大模型GPT-4的诞生。优化了模型可支持的输入模态、文本长度等性能之外,OpenAI在GPT-4的基础上升级了ChatGPT,并一举开放了API——迭代的速度之快,令人咋舌。

在这场属于大模型的狂飙中,数字已经让人麻木。首先是模型的参数量——此前,OpenAI用GPT-3(参数量达1750亿)将大模型的参数量卷上千亿级别,但很快,谷歌在3月6日推出的多模态大模型PalM-E,则用5620亿的参数坐上了“史上最大视觉语言模型”的位置。

其次是公司狂飙的估值。全球早期项目数据服务商Dealroom的报告显示,全球生成式AI企业的估值达到总计约480亿美元,在2年里翻了6倍。

国内AI赛道升温来得晚,但企业估值飙升的速度有过之无不及——王慧文的AI公司“光年之外”,天使轮的估值达到了2亿美金。一家由某位技术大拿近期创立的大模型企业,模型demo还没影子,天使轮的估值也让其进入了亿元美金俱乐部——而在元宇宙的风口中,百万美金,似乎已经是国内创企天使轮的估值天花板。

风口中,也有一些纠结、负面的声音浮现。

3月2日晚,一篇主题为“为什么感觉欧美的AI比我们强”的贴文引起不少争议。发帖者比较了中美的AI发展环境,将欧美AI的发展视作卧薪尝胆的“精英教育”,而国内则是重商业化的“功利教育”,最后得出了一个略显绝望的结论:人的命运在子宫里就注定了,机器人也不可幸免。

GPT-4震惊四座,中国创业者激战“小模型”

主题为“为什么感觉欧美的AI比我们强”的贴文。图源:微博@陈怡然-杜克大学,贴文由其转载

当下,大模型的暴力美学对于多数企业来说,或许并非全力以赴的最好选择。算力、高质量数据,以及高密度的算法人才,这些都是上大模型牌桌所需的昂贵入场券,国内多数玩家无法在朝夕之间拥有等同OpenAI的储备。

但丰富的数据维度和广阔的应用场景,是上一波持续了10多年的互联网浪潮,留给中国创业者的富矿。近一个月以来,不少有场景、有用户数据的小企业,已经基于国内外大模型的基座,训练出适配自身业务的小模型。而一家拥有百亿参数大模型储备的公司,也自行“瘦身”,针对金融、广告等领域,推出了轻量化的模型,以进行新一轮的数据储备。

当下,用小模型打磨算法的利刃,为大模型的研发做好技术储备,或许是中国创业者在未来实现弯道超车的一条通路。


“全才”大模型 vs “专家”小模型


如何让AI更聪明、更像人,本质上是一个教育问题。

此前的很长一段时间,人们热衷于将AI送进“专科院校”,学会解决特定问题的能力——参数量往往低于百万的小模型由此诞生。比如谷歌旗下的AI公司DeepMind,让AlphaGO对上百万种人类专业选手的下棋步骤进行了进修,最终在2016年以4:1的成绩战胜围棋名将李世石。

但专科教育的弊端也很明显,小模型大多都有偏科的毛病。比如面对写营销文案时,精于图片生成的小模型就碰了壁。同时,专科的教育资源分散,每个小模型都需要分别从头进行基础训练。

作为父母的人类,大多有着培养出全才的期望。2017年,谷歌发明了一种新的教育方式:Transformer模型。

以往的“专科教育”中,AI的学习十分依赖人类对学习资料的标注和挑选,比如AlphaGO的学习资料来自于专业棋手,而非上围棋兴趣班的孩子。而Transformer训练方式的精髓在于让AI通过大量的预习,自行对不同科目的学习资料“划重点”。

用于训练的数据越多,模型预习的效果越好;参数越多,模型划出的重点也就越精确。自行划重点的教育方法解放了人类的双手,同时让AI对不同科目多管齐下,实现了跨领域的知识积累。

2018年,谷歌基于Transformer发布了首个参数过亿的基础模型BERT,并在翻译这门科目上,成绩远优于神经网络培训(比如CNN和RNN)模式下培育的模型。

自此,Transformer席卷了模型教育界,大模型的“大”,也被不少公司卷了起来。目前,100亿的参数量被业界认为是模型能力实现跃升的拐点。

大模型最为直观的优越性,在于有小模型难以企及的推理演绎能力,能理解更复杂、更广阔的场景。

除了内容生产领域外,大模型还能用在哪?移动互联网服务商APUS创始人李涛还举了一个例子:一线城市的交通拥堵,80%的问题根源不在于过多的车辆,而在于协同程度低的智慧交通系统——每个路口红绿灯的秒数设置成多少?不同路段的红绿灯如何配合?仅靠人或者小模型,这些问题难以解决。

而大模型的出现,让巨量的交通数据有了用武之地,“人最多只能根据一个路段的交通情况做出决策,而大模型能够看得更全面”。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier