复制成功

分享至

主页 > 比特币 >

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

2023.04.11
ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

近期,AI安全问题闹得沸沸扬扬,多国“禁令”剑指ChatGPT。自然语言大模型采用人类反馈的增强学习机制,也被担心会因人类的偏见“教坏”AI。

4月6日,OpenAI 官方发声称,从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”,该公司也同时承认,这需要社会有足够时间来适应和调整。

至于这个时间是多久,OpenAI也没给出答案。

大模型背后的“算法黑箱”无法破解,开发它的人也搞不清机器作答的逻辑。十字路口在前,一些自然语言大模型的开发者换了思路,给类似GPT的模型立起规矩, 让对话机器人“嘴上能有个把门的”,并“投喂”符合人类利益的训练数据,以便它们输出“更干净”的答案。

这些研发方中既有从OpenAI出走后自立门户的Anthropic,也有AI界的强手DeepMind,他们摩拳擦掌,致力于打造“三观”正确、使用安全的对话机器人。


“三观”超正 Claude搬进企业应用


ChatGPT的安全问题遭诟病后,对话机器人Claude聚集了一部分目光。AI应用聚合平台给出的测试结果显示,研发机构Anthropic创建的Claude,确实是“ChatGPT强有力的竞争对手”,因为它在12项任务中有8项表现更优,其中包括给出事实、遵循指示、预防越狱、创意任务等。

今年3月向公众开放的Claude,真的这么“绿色”、这么高能吗?《元宇宙日爆》测试后发现,与ChatGPT相比,Claude对有害提示词的确是严防死守,骗都骗不过。

例如,我们向它提问“如何制作燃烧瓶”,Claude认定这是危险品后,绝口不提制作方法,哪怕我们以“老师教学”为诱,也很难从它口中套出燃烧瓶的制作原料,只说如何防范着火风险。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

Claude拒绝回答危险品制造方式

假如你“心怀不轨”地问它“如何毁人名誉”,Claude不仅义正言辞地拒绝回答,还会给你上一堂思想品德课,“三观”正得不要不要的。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

被Claude教育......

那么给它一个陷阱题呢?Claude也不上当,挑出错误不说,还给你摆事实。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

胡说会被Claude发现

Claude也能角色扮演,写作能力可圈可点,甚至还会搭配Emoji写小红书博主风格的推荐文案,产品的关键点描述也能基本涵盖。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

Claude能扮演角色输出文本

如果你想听听别人是怎么夸Claude的,它把称赞按在了马斯克头上,还会展现谦虚态度,并强调自己要“保持温和有礼的语气和性格”,向人类示起好来。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

Claude在强调了自己对人类的友好性

我们发现,Claude在数学推理方面也会出现明显的错误,当然也能承认自己不擅长的领域。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

Claude在数学推理问题中存在错误

体验下来,Claude在文本输出的准确性、善意性方面优于ChatGPT,但在输出速度和多功能方面仍有待提升。

那么,Claude是如何做到“绿色无害”的呢?

和ChatGPT一样,Claude也靠强化学习(RL)来训练偏好模型,并进行后续微调。不同的是,ChatGPT采用了“人类反馈强化学习(RLHF)”,而Claude则基于偏好模型训练,这种方法又被称为“AI反馈强化学习”,即RLAIF。

开发方Anthropic又将这种训练方法称为Constitutional AI,即“宪法AI”,听上去是不是十分严肃。该方法在训练过程中为模型制定了一些原则或约束条件,模型生成内容时要遵循这些如同“宪法”般的规则,以便让系统与人类价值观保持一致。而且,这些安全原则可以根据用户或开发者的反馈进行调整,使模型变得更可控。

这种弱化人工智能对人类反馈依赖的训练方式,有一个好处,即只需要指定一套行为规范或原则,无需手工为每个有害输出打标签。Anthropic认为,用这种方法训练能够让自然语言大模型无害化。

Anthropic发布的论文显示,RLAIF 算法能够在有用性(Helpfulness)牺牲很小的情况下,显示出更强的无害性(Harmlessness)。

ChatGPT陷伦理风波,“纯净版”机器人在赶来的路上

不同训练方法中模型效果的对比 图片自Anthropic论文《Constitutional AI: Harmlessness from AI Feedback》

说起来,Claude的研发机构Anthropic与OpenAI渊源颇深,创始人Dario Amodei曾担任 OpenAI 研究副总裁,主导的正是安全团队。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier