币安新任CEO首次中文AMA:
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
文章来源:新智元
都快到年底了,大模型领域还在卷,今天,Microsoft发布了参数量为2.7B的Phi-2——不仅13B参数以内没有对手,甚至还能和Llama 70B掰手腕!
图片来源:由无界 AI生成
大模型现在真的是越来越卷了!
11月OpenAI先是用GPTs革了套壳GPT们的命,然后再不惜献祭董事会搏了一波天大的流量。
谷歌被逼急了,赶在年底之前仓促发布了超大模型Gemini,卷起了多模态,甚至不惜「视频造假」。
就在今天,微软正式发布了曾在11月Ignite大会上预告的Phi-2!
凭借着2.7B的参数,「小语言模型(SLM)」Phi-2几乎打穿了所有13B以下的大模型——包括谷歌最新发布的Gemini Nano 2。
通过模型扩展和训练数据管理方面的创新,Phi-2展现了出色的推理和语言理解能力,在复杂的基准测试中,Phi-2的性能可以打平比自己大25倍的模型,甚至略占上风。
它用非常「苗条」的尺寸,获得了良好的性能。
这让研究人员和模型开发人员能够很方便地使用Phi-2进行可解释性、安全性方面的改进,并针对其他任务进行微调。
Phi-2目前已经可以通过Azure AI Studio访问。
但是值得注意的是,相比其他的开源模型基本上是基于Apache 2.0的授权协议,可以支持商用。Phi-2只能用于研究目的,不支持商用。
微软最强「小模型」来了!
大语言模型现已增长到数千亿的参数量,庞大的规模带来了强大的性能,改变了自然语言处理领域的格局。
不过,能否通过恰当的训练方法(比如数据选择等),使得小型的语言模型也能获得类似的能力?
微软的Phi-2给出了答案。
Phi-2打破了传统语言模型的缩放定律,测试成绩能够PK比自己大25倍的模型。
对于Phi-2「以小博大」的成功,微软阐述了两点关键见解:
第一点:训练数据质量对模型性能起着至关重要的作用。
作为大模型开发者的共识,微软的研究人员在此基础上更进一步——使用「教科书质量」的数据。
在发布Phi-1的时候,开发团队就提出了「教科书是你所需要的一切」(Textbooks Are All You Need)。
在本次Phi-2的开发中,团队更是将这一点发挥到了极致。
Phi-2所使用的训练数据,包含合成数据集,——专门用于教授模型常识推理和一般知识(科学、日常活动和心智理论等)。
此外,研发团队还根据教育价值和内容质量,过滤了精心挑选的网络数据,进一步扩充了训练语料库。
第二点:利用创新技术进行模型扩展。
以1.3B参数的Phi-1.5为基础,将其知识嵌入到2.7B参数的Phi-2中。这种规模化的知识转移不仅加快了训练的收敛速度,而且明显提高了Phi-2的基准分数。
上图展示了Phi-2和Phi-1.5在各项测试之中的比较(其中BBH和MMLU分别使用3次和5次CoT(Chain of Thought))。
我们可以看到,在创新技术的加持下,Phi-2的性能取得了明显提升。
96块A100练了14天
Phi-2 是一个基于 Transformer 的模型,使用1.4T个tokens进行训练(包括用于NLP和编码的合成数据集和Web数据集)。
训练Phi-2使用了96块A100 GPU,耗时14天。
Phi-2是一个基础模型,它没有通过人类反馈的强化学习(RLHF)进行对齐,也没有经过微调。
尽管如此,与经过对齐的现有开源模型相比,Phi-2在毒性(toxicity)和偏差(bias)方面有更好的表现。——这得益于采用了量身定制的数据整理技术。
上图展示了根据ToxiGen中的13个人口统计学数据,计算出的安全性分数。