复制成功

分享至

主页 > 比特币 >

OPPO大模型,主打非自研

2023.11.01

原文来源:解码Decode

OPPO大模型,主打非自研

图片来源:由无界 AI生成

今年5月9日,发布仅3天的讯飞星火大模型就在一个评测榜单上拿了个国服第一,力压清华智谱、复旦MOSS以及百度文心一言等国产大模型,仅次于GPT-4和GPT-3.5。

本来外界对讯飞称王并无异议,但这份榜单将文心一言列在最后一名,热心网友就不乐意了。

随后发布榜单的评测机构SuperCLUE被曝光,一个仿照GLUE的国内民间组织,权威度和影响力与GLUE相去甚远,其微信账号主体属性为个人,被网友戏称为AI版李逵和李鬼。

就连讯飞的称王都被挖出来猫腻。

评测榜单发布当天,SuperCLUE官网显示信息,其测评顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员,而第二天官网就删除了此条顾问信息。

至于这个榜单本身,也被业内人士质疑其合理性,理由是没有公布评估数据以及具体的评估方式。不过SuperCLUE在8月份进行了一次评测体系、方法及变动说明的解读,算是变相回应,只不过3700道的测试题还是较SuperGLUE的2万道相去甚远。

但SuperCLUE却摇身一变,成为各种大模型PR稿里的救世主,堪称大模型界的安兔兔和鲁大师,个中内涵懂得都懂。

手机厂商也顺理成章成为了SuperCLUE的榜单常客。比如OPPO和vivo,前者登上了9月的基础能力排行榜,后者则拿下了10月的国服第一。


1 榜单的套路


在搞机圈跑分作弊早已不算秘密,2013年三星Galaxy S4就曾被曝跑分作弊,事后三星不得不向每位Galaxy S4购买者赔偿10美元。

到2018年,跑分作弊俨然已成一种行业乱象:各大手机厂商费尽心思优化跑分项目,有的甚至专门开设一个白名单,当检测到是跑分软件时,手机各方面的资源就全速运行,以此开启芯片的极限性能模式。Anandtech就曾公开点名荣耀Play跑分作弊,跑分监测机制开启和关闭的情况下,得分相差一倍。

跑分作弊映射出的一个道理是,这种人为极限性能下的分数,设备根本不可能长时间保持这样的水平,因此显得毫无意义。

而这种毫无意义的极限性能跑分,隐隐有传到大模型的迹象。

比如OPPO这次拿出来的SuperCLUE成绩,还不是总榜单,而是十大基础能力排行榜的“知识与百科”能力。

在SuperCLUE的评测方案中,“知识与百科”属于专业知识技能,包含历史地理、科学技术、文化娱乐、社会人文等众多任务。

相对来说,“知识与百科”倾向于是有标准答案的问答评测,不过即便如此后期有用户在测试OPPO大模型时,还是出现了鲁迅和周树人不是同一人的错误。

OPPO大模型,主打非自研

抛开这种低级失误,对于这种有针对性的评测,小米AI实验室大模型团队负责人栾剑此前在接受媒体采访时就给过定论,目前这些榜单绝大部分都是学科问题,而且是选择题为主,所以用它们对评估大模型的能力是有局限性的。

“如果把这些学科的知识、这些学科搜集到的试题,都拿来对大模型做增强学习,它的效果一定可以达到很好。”界面新闻就曾曝光过两种C-Eval“刷榜”方式:

一种是找数据标注员把题目做一遍,第二种是用GPT-4把题做一遍,再把答案扣下来训练大模型,这样都能在相应学科测试中获得满分。

问题的关键还在于,做这样的训练对大模型其它方面的能力可能会带来负面影响。

目前有一些开源的大模型迭代了版本之后,打榜的分数提高得很明显,但如果测试它的生成能力,比如写作水平,发现其实是有下降的。

还有一点存疑的是,大模型评测榜单的合理性。

比如今年5月SuperCLUE的榜单,文心一言在这个测评的评分是明显偏低的,甚至连一些不知名的国产小型开源模型都比不过,测试结果与实际使用体验不符。

根源在于当时SuperCLUE的测试手段是让大模型做选择题(据称是100道),而这是用来针对BERT时代的判别式AI模型,不适用于现在的这些生成式大模型。

这倒也不是SuperCLUE一家的问题。华泰证券前资深算法工程师邱震宇此前曾深入探究了市面上大模型的各类评测集,综合比较了各家榜单结果,得出的结论是现在并不存在一个公认有效的评测方式。

大模型是一个新的范式,其实一个范式除了对底层逻辑的解释,也需要有一整套的训练方法及评估方法。对大模型来说,这一整套合理的评估方法,大家还在探索中,没有公认的标准。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier