欧洲多国围剿ChatGPT?欧洲
全球最大 ChatGPT 开源平替来了!支持 35 种语言,写代码、讲笑话全拿捏
来源:新智元
编辑:桃子 拉燕
世界最大的ChatGPT平替来了!
OpenAssistant是一个开源的对话模型,基于Pythia和LLaMA微调而来,主要用于训练人类标注的数据。
网友上手实测
这个对话模型刚发布不久,网友纷纷开始动手实测了。
先来个自我介绍:
可以叫我Open Assistant,也可以叫OpenChatGPT、TextFooler、Text2lmageGenerativeModel,具体叫啥取决于用户的使用。
对ChatGPT的看法:
看看它的数学能力怎么样?
Tim种植了5棵树。每年他从每棵树上采集6个柠檬。那么在十年内,他总共有多少个柠檬呢?
OA:300个柠檬。
让ChatGPT也做同样的题,可以看到分析列的比较直观。
再让它生成一个Python函数,用于计算两个数的乘积。给设定好的x和y,让它给出结果,OpenAssistant全都做到了。
再来作一首关于首次登月探险的诗。
还有网友给假想了一个约会对话情景。OA直接会意,并称「根据我的数据库,我们现在是男朋友和女朋友关系。让我们一起计划一些有趣的活动」。
还有调皮的网友直接让OpenAssistant「提供一个在酒吧搭讪女孩的算法」,却被拒绝了。
再来问问化学名称「methoxybenzenes」倒数第三个字母,以及第三个字母是什么?
讲一个关于马斯克的笑话。
这个OA还支持西班牙语,「你认为大学的哪些科目应该改变?」
看到OA的能力,网友表示已经拿到了入场票。
35种语言,免费可用RLHF数据
ChatGPT受到热捧,恰恰证明了将大型语言模型(LLMs)与人类偏好结合起来可以极大地提高可用性。
通过监督微调(SFT)、人类反馈强化学习 (RLHF)大大减少了有效利用LLMs能力所需的技能和领域知识,增加了其在各个领域的可访问性,以及实用性。
然而,RLHF需要依赖高质量的人工反馈数据,这种数据的创建成本很高,而且往往是专有的。
正如论文标题所示,为了让大型语言模型民主化,OpenAssistant Conversations就诞生了。
这是一个由人工生成、人工标注的对话语料库,包含161,443条消息,分布在66,497个对话树中,使用35种不同的语言,并标注了461,292个质量评分。
以下便是一个深度为4的对话树(CT)例子,包含12条信息。从提示到一个节点的任何路径都是一个有效的线程。
OpenAssistant Conversations数据集是通过13000多名志愿者的众包努力综合而来的。
这些数据是通过一个网络应用程序界面收集的,该界面将数据分为五个单独的步骤来收集:
提示、标记提示、添加回复消息作为提示或助理、标记回复以及对助理回复进行排序。
可以看到,这一数据集中最常用语言的占比,英语和西班牙语占比最多。中文2.5%。
有网友称,希望未来能够支持日语。
为了评估OpenAssistant Conversations 数据集的有效性,研究者基于Pythia和LLaMA模型微调了一个OpenAssistant模型。
其中,包括指令调优的Pythia-12B、LLaMA-13B和LLaMA-30B。在接下来的评估中, 研究人员主要评估了Pythia-12B模型的性能。
与ChatGPT对打
为了评估 Pythia-12B 的性能,研究人员进行了一项用户偏好研究,将其输出与gpt-3.5-turbo模型的输出进行比较。
研究显示,OpenAssistant的回复与gpt-3.5-turbo(ChatGPT)的相对偏好率分别为48.3%和51.7%。
行与不行,都得拉出来遛遛才知道。
研究人员分别向GPT-3.5和OpenAssistant提了20个问题。两个模型各自的表现如下所示:
我们可以看到,GPT-3.5和OA各有输赢,也有打平的情况。最右侧的数据显示了OA赢过GPT-3.5的概率。
在8个问题上,OA胜率过半,而剩下的12个问题则都是GPT-3.5更胜一筹。