从腾讯混元升级，看国产大模型的226天

2023.10.29

文章来源：光锥智能

文：郝鑫

编：王一粟

图片来源：由无界 AI生成

226天、7个多月后，头部的国产通用大模型已陆续突破了GPT3.5的基准线。

近日，腾讯混元大模型升级，称中文能力整体超过GPT3.5；百度发布文心大模型4.0，表示综合水平与GPT4相比已经毫不逊色；商汤“商量SenseChat2.0”测评表现均领先ChatGPT，部分已十分接近GPT4的水平；科大讯飞发布“讯飞星火”认知大模型V3.0，宣布已全面对标GPT3.5。

“国内（大模型）在GPT3.5这条线都过了，但要理性看待。所谓的超过，可能要基于各自平台和局部的指标，比如利用腾讯混元大模型在广告行业，生成的图片风格、采用率等就小胜GPT4”，腾讯机器学习平台算法负责人康战辉，在腾讯混元大模型升级媒体交流会现场的自我评价，一如既往地非常克制。

当技术逐渐拉齐，除了继续追赶GPT4的步伐，从实验室走向千行百业，一些过去曾被忽视的问题也随之浮出水面：

不计成本，大力出奇迹、扩大参数的暴力路径走不通后，如何才能用较少的成本，达到原来同等或近似的训练、推理效果？

千亿级的大模型和70亿、50亿的中小模型，通用大模型和行业模型、业务场景模型，如何才能优势最大化？

总之，走出象牙塔的大模型，需要在效果、成本支出、商业化三方面，找寻到平衡点。

以上种种问题的答案，或许能从腾讯混元大模型的此次升级中得以一窥。既从一开始的大模型框架底座层去优化设计，并提升推理、训练、数学、代码、文生图等基础能力，也在广告、游戏、会议、文档等优势业务场景实践中摸索。

与其他的大模型相比，腾讯混元是算法与工程优化两条腿走路，底层大模型的能力固然很重要，但在业务场景倒逼出来的实践，更加实用。

新增“文生图” 混元大模型迈向多模态

9月7日，2023腾讯全球数字生态大会上，混元大模型初次亮相。

仅一个月过后，腾讯混元大模型迎来重要升级。中文能力整体超过GPT3.5，其中代码能力处理水平提升超过20%，代码处理效果胜出ChatGPT 6.34%，数学能力较老版效果提升15%。

最为重要的是，此次腾讯还推出了自研混元文生图算法模型，给混元增加了“文生图”的能力。

“文生图”是混元大模型向多模态探索的第一步，也是关键的一步。据光锥智能实测，相比其他大模型，混元大模型在人像真实感、场景真实感上有比较明显的优势，同时，在中国风景、动漫游戏等场景生成上有较好的表现。

（混元大模型生成）

据腾讯混元大模型文生图技术负责人芦清林介绍，文生图算法有三个难点：

一是，能不能把想输入的文本准确地生成出来，并用图片来表达，比如能否理解中文语境中的“女娲补天”；

二是，怎样能让生成图片的构图更加合理；

三是，生成的质感和细节是否足够丰富。

为了解决以上的难点，混元从0到1自研了一个文生图模型结构。

该结构不同于市面上流行的“一步到位”模型，而是将文生图分解为了三部分，第一部分是跨模态的预训练大模型，专门做图文对齐，保障输入文字编码、解码语义准确；第二部分是基于像素空间扩散的生成主模型，通过逐步去噪，来还原图片，并生成小图；第三部分是影空间的超生模型，也是混元区别于市面上SD主流文生图的地方，把之前的小图进一步扩展成大图，保证最终生成后的纹理和质感。

腾讯官方透露，该能力已运用到了广告业务场景中，腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和26%，均高于同类模型。

与走精专路线的Midjourney相比，在广告场景下，腾讯混元众测goodcase率比Midjourney高16%，广告主测评采纳率高48%。且广告主也普遍反映，混元生成的广告素材也更接近投放的场景构图和质感要求。

除了文生图，能让“程序员干掉程序员”的代码能力的升级也是重要的一块儿，分为两个具体方向：

一方面支持自然语言和多种程序语言生成代码。

比如只需输入简单的指令“帮我用前端语言实现一个贪吃蛇”，腾讯混元便能自动生成可运行的代码，快速制作出一个贪吃蛇小游戏；还支持Python、C++、Java、Javascript等多种语言的指令生成，比如输入“用Python画红色的心形线”，腾讯混元会提供代码库选择、安装命令、绘制代码等具体操作步骤的指引。

从腾讯混元升级，看国产大模型的226天

加⼊OKEx全球社群

相关推荐