复制成功

分享至

主页 > 比特币 >

大模型遭泄两月后,Meta意外变赢家

2023.05.11
大模型遭泄两月后,Meta意外变赢家

一份被意外泄露的谷歌内部文件,将Meta的LLaMA大模型“非故意开源”事件再次推到聚光灯前。

“泄密文件”的作者据悉是谷歌内部的一位研究员,他大胆指出,开源力量正在填平OpenAI与谷歌等大模型巨头们数年来筑起的护城河,而最大的受益者是Meta,因为该公司2月意外泄露的LLaMA模型,正在成为开源社区训练AI新模型的基础。

几周内,开发者与研究人员基于LLaMA搞起微调训练,接连发布了Alpaca、Vicuna、Dromedary等中小模型,不只训练成本仅需几百美元,硬件门槛也降低至一台笔记本电脑甚至一部手机,测试结果不比GPT-4差。

除了AI模型之外,FreedomGPT等类ChatGPT应用也如雨后春笋般涌现,基于LLaMa的“羊驼家族”不断壮大,这位研究员认为,Meta很可能借此形成生态,从而成为最大赢家。

事实上,人工智能的世界里,的确有一部分进入了“安卓时刻”,这个部分就是开源社区。特斯拉前AI主管Andrej Karpathy评价开源社区中的AI进化时称,他看到了“寒武纪大爆发的早期迹象”。

在AI竞速的赛道上,奔跑的不只有科技巨头,开源社区正在从小径中涌入大道,成为人工智能开发层面不可忽视的力量。


LLaMa意外开源养出 “羊驼家族”


“我们没有护城河,OpenAI 也没有。”一篇来自Google 内部的文章在 SemiAnalysis 博客传播,文章作者认为,Meta的LLaMa开源模型快速聚集起生态雏形,正在消除与GPT之间的差距,开源AI最终会打破 Google与OpenAI的护城河。

这篇文章让人重新注意到了Meta的 LLaMA 大模型,该模型代码被泄露后的2个月里意外成了开源社区训练自然语言模型的基础,还产生了诸多中小模型及应用。

时间回到今年2月24日,Meta推出大语言模型LLaMA,按参数量分为7B、13B、33B和65B四个版本。别看参数量远远不及GPT-3,但效果在AI圈内获得了一些正面评价,尤其是能在单张GPU运行的优势。

Meta在官方博客中曾称,像LLaMA这种体积更小、性能更高的模型,能够供社区中无法访问大量基础设施的人研究这些模型,进一步实现人工智能大语言模型开发和访问的民主化。

“民主化”来得异常快。LLaMA推出一周后,一位名叫llamanon的网友在国外论坛4chan上以种子文件的方式上传了7B和65B的LLaMA模型,下载后大小仅为 219GB。此后,这个种子链接被发布到开源社区GitHub,下载量超过千次。LLaMA就这样被泄露了,但也因此诞生了诸多实验成果。

最初,名叫 Georgi Gerganov 的开发者开源了一个名为llama.cpp的项目,他基于LLaMA 模型的简易Python语言的代码示例,手撸了一个纯 C/C++ 语言的版本,用作模型推理。换了语言的最大优势就是研究者无需 GPU、只用 CPU能运行LLaMA模型,这让大模型的训练硬件门槛大大降低。

正如谷歌那位研究员写得那样,“训练和实验的门槛从一个大型研究机构的全部产出降低到1个人、1晚上和1台性能强大的笔记本电脑就能完成。”在开发者的不断测试下,LLaMA已经能够在微型计算机树莓派4和谷歌Pixel 6手机上运行。

开源社区的创新热情也彻底点燃,每隔几天都会有新进展,几乎形成了一个“LLaMA(羊驼)生态”。

3月15日,斯坦福大学微调LLaMA后发布了Alpaca(美洲驼)模型,仅用了52K数据,训练时长为3小时。研究者宣称,测试结果与GPT-3.5不分伯仲,而训练成本还不到600美元,在一些测试中,Alpace与GPT-3.5的获胜次数分别为90对89。

随后,加州大学伯克利分校、卡内基梅隆大学、加州大学圣地亚哥分校的研究人员又提出新的模型Vicuna(小羊驼),也是基于LLaMa做出来的,训练成本仅300美元。

在该项目的测评环节,研究人员让GPT-4当“考官”,结果显示,GPT-4在超过90%的问题中更强倾向于Vicuna的回答,并且Vicuna在总分上达到了ChatGPT的92%。

大模型遭泄两月后,Meta意外变赢家

用GPT-4测评Vicuna与其他开源模型

短短几周,基于LLaMa构建的“羊驼家族”不断壮大。

4月3日,伯克利人工智能研究院发布了基于LLaMa微调的新模型 Koala(考拉),训练成本小于100美元,在超过一半的情况下与 ChatGPT 性能相当;5月4日,卡内基梅隆大学语言技术研究所、IBM 研究院与马萨诸塞大学阿默斯特分校的研究者们,推出了开源自对齐语言模型Dromedary(单峰骆驼),通过不到300行的人工标注,就能让65B的LLaMA基础语言模型在TruthfulQA(真实性基准)上超越GPT-4。

在国内,垂直医疗领域的 “羊驼家族”成员也出现了,哈尔滨工业大学基于LLaMa模型的指令微调,推出了中文医学智能问诊模型HuaTuo(华驼),该模型能够生成专业的医学知识回答。

大模型遭泄两月后,Meta意外变赢家

哈工大推出中文医学智能问诊模型HuaTuo(华驼)

基于该模型的开源创新不仅在大模型上,应用层也有多点开花之势。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier