复制成功

分享至

主页 > 数字货币 >

Anthropic找到了打败OpenAI的方法:自己也成为OpenAI

2024.03.29

文章来源:硅基GenAI

作者|张潇雪

邮箱|JessicaZhang@pingwest.com


图片来源:由无界AI生成 图片来源:由无界AI生成


最近Anthropic真是风头正盛,堪称赢麻了。

亚马逊刚刚宣布,再次对它追加27.5亿美元投资,共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元,总共豪掷超过40亿美元,成为亚马逊三十年历史上最大的对外投资,也令Anthropic从去年至今的融资额一举超过100亿美元。


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来,也一路好评无数、口碑爆棚,并在最新的Chatbot Arena排行榜上正式打败GPT-4,首次登上王位。

Claude 3打趴GPT-4,跃居用户体验榜首


我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比GPT-4厉害,还得是实际用户体验说了算。

昨天,Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。

在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后,Claude 3 超大杯Opus在群众的呼声中力压群雄,打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4,就连 Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large,位列第6名。

与此同时Google仅Gemini Pro一员大将杀入前十,来自阿里巴巴的通义千问排在第9。


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。

社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从23年5月到24年3月,Top15大模型的动态演变史,清晰展现Claude 3势如破竹的“上位”全过程。


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。

Chatbot Arena(聊天机器人竞技场)是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。

具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型A更好、B更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制,来综合评估大模型能力。

可以看出,与常见的Benchmarks跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


Chatbot Arena还放出一系列白热化的后台对战数据。

模型A在所有非平局Battle中战胜模型B的比例:


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


每一组模型组合(不包括平局)的对战次数:


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


公布这一结果的LMSYS Org认为,更让人印象深刻的是Claude 3 Haiku。作为全家桶中最轻量级的模型,它的用户偏好已达到与GPT-4相当的水平,综合其速度、能力和200k上下文长度,在市场上现在无人能敌。(同时也夸了一下自家伯克利团队开发的Starling-LM-7B-beta近期攀升迅速,是市面上最好的7B开源模型。)


Anthropic找到了打败OpenAI的方法:自己也成为OpenAI


免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier