Anthropic找到了打败OpenAI的方法：自己也成为OpenAI

2024.03.29

文章来源：硅基GenAI

作者｜张潇雪

邮箱｜JessicaZhang@pingwest.com

图片来源：由无界AI生成

最近Anthropic真是风头正盛，堪称赢麻了。

亚马逊刚刚宣布，再次对它追加27.5亿美元投资，共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元，总共豪掷超过40亿美元，成为亚马逊三十年历史上最大的对外投资，也令Anthropic从去年至今的融资额一举超过100亿美元。

而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来，也一路好评无数、口碑爆棚，并在最新的Chatbot Arena排行榜上正式打败GPT-4，首次登上王位。

Claude 3打趴GPT-4，跃居用户体验榜首

我们知道，每当一款新的大模型推出时，都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表，证明自己哪些参数已经赶超GPT-4。但归根结底，模型终究是给人用的，到底是不是真的比GPT-4厉害，还得是实际用户体验说了算。

昨天，Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。

在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后，Claude 3 超大杯Opus在群众的呼声中力压群雄，打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4，就连 Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large，位列第6名。

与此同时Google仅Gemini Pro一员大将杀入前十，来自阿里巴巴的通义千问排在第9。

如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议，那么经过近一个月的场下实测，Claude 3的确用实力证明了自己比GPT-4更能打，成为目前LLM争霸赛的最大赢家。

社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从23年5月到24年3月，Top15大模型的动态演变史，清晰展现Claude 3势如破竹的“上位”全过程。

对榜单不熟悉的朋友，我们先一起来看看它是怎么打分的。

Chatbot Arena（聊天机器人竞技场）是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台，通过众包方式进行匿名随机对战，评估和排名不同的语言模型。

具体规则是：用户向两个匿名模型输入同一个问题，然后对它们各自生成的答案进行评价，选择模型A更好、B更好、平手或都很差。它支持多轮对话，直到用户认定赢家。并且如果在对话过程中泄露了模型身份，那么投票将不会被计入。最终，Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制，来综合评估大模型能力。

可以看出，与常见的Benchmarks跑分不同，Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈，在实用性上更具参考价值。

Chatbot Arena还放出一系列白热化的后台对战数据。

模型A在所有非平局Battle中战胜模型B的比例：

每一组模型组合（不包括平局）的对战次数：

公布这一结果的LMSYS Org认为，更让人印象深刻的是Claude 3 Haiku。作为全家桶中最轻量级的模型，它的用户偏好已达到与GPT-4相当的水平，综合其速度、能力和200k上下文长度，在市场上现在无人能敌。（同时也夸了一下自家伯克利团队开发的Starling-LM-7B-beta近期攀升迅速，是市面上最好的7B开源模型。）

Anthropic找到了打败OpenAI的方法：自己也成为OpenAI

加⼊OKEx全球社群

相关推荐