复制成功

主页 > 数字货币 >

国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4

2024.01.16

文章来源：新智元

狂飙三个月，智谱AI的大模型全家桶震撼发布了！GLM-4性能超进化，堪称「国产GPT-4」；GLMs和GLM Store，直接对标OpenAI的GPTs。

国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4

图片来源：由无界 AI生成

今天，国内唯一一家全系对标OpenAI的公司，又搞了一个大新闻！

就在刚刚，智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。

其中，GLM-4不仅在中文能力上超过了所有竞争对手。

而且，长文本能力也一骑绝尘，实现了128K「大海捞针」全绿。

除此之外，智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store，再次对标OpenAI的GPTs！

新一代GLM-4，全面比肩GPT-4！

那么，这次新一代基座大模型GLM-4，究竟强在了哪？

与上一代ChatGLM3相比，GLM-4在综合能力上实现了全面跃升，性能提升了60%，已经逼近GPT-4。

它能够支持更长的上下文，具备更强的多模态功能，支持更快的推理，更多并发，推理成本大大降低。

同时，GLM-4也增强了智能体能力。

基础能力

从众多评测集中可以看到，GLM-4的性能提升非常明显。

相比于GPT-4，GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。

而在HumanEval数据集上，GLM-4则拿到了72分，明显超过了GPT-3.5和GPT-4的水平。

指令跟随

在IFEval评测集上，在Prompt提示词跟随（中文）方面，GLM-4达到了GPT-4 88%的水平。

在指令跟随（中文）方面，则达到了GPT-4 90%水平，大大超过GPT-3.5。

中文对齐

在模型实际应用过程中，大家更关注的，是中文的对齐能力。

在对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4在6月13日发布的版本，逼近GPT-4最新（11月6日Turbo版本）效果。

在专业能力、中文理解、角色扮演方面，GLM-4甚至超过了GPT-4的精度。

不过，在中文推理方面，GLM-4的能力还有待进一步提升。

128K长文本

此前的128K大海捞针测试，难倒了众多大模型，但GLM-4却顺利通过。

在大海捞针测试中，128K文本长度内，GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度，也就意味着，在单次提示词中，可处理文本达到了300页。

开发者再也不用担心文档太长，一次性处理不完了。

同时，模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。

多模态能力

这一次，GLM-4的文生图和多模态理解都得到增强。

全新推出的CogView3，效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上，CogView3的效果都达到DALL·E3 90%以上水平。

相对之前，CogView3的语义理解能力都得到大大增强。

「鱼眼镜头中，有一只乌龟坐在森林里。」

免责声明:数字资产交易涉及重大风险，本资料不应作为投资决策依据，亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考，不构成任何投资建议，用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群