复制成功

分享至

主页 > 数字货币 >

直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

2023.12.11

来源:量子位

直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

图片来源:由无界 AI生成

仅次于GPT-4,李开复零一万物Yi-34B-Chat最新成绩公布——

在Alpaca经认证的模型类别中,以94.08%的胜率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT!

直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

不仅如此,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。

Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。

直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

△LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。

根据11月底发布的《SuperCLUE中文大模型基准评测报告 2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

△中文SuperCLUE排行榜(发布于2023年11月28日)


对话场景实测


Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:

例如“喂”给Yi-34B-Chat如下问题:

Transformer 模型结构能不能走向 AGI ?
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

不难看出,Yi-34B-Chat的回答可以说是有理有据。

再来:

给我生成一个小红书文案,给大家安利一只豆沙色的口红。
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

回答可以说是非常符合现在小红书主流的带货风格了。

中文理解方面,我们再出一道题:

小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导:“小王,你这人真有意思。”小王:“也没什么别的意思。”领导:“那我多不好意思。”小王:“是我不好意思。”这个意思到底是什么意思?
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

可以看到,即便是在非常“绕”的中文理解方面,Yi-34B-Chat也是精准的拿捏住了。

据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。
其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier