Ripple稳定币RLUSD已获纽约金
什么是思维偏好优化(TPO)?会自我思考的AI 真的出现了
美国科技公司Meta 于10/14 携手加州大学与纽约大学,共同推出了全新的AI 训练技术「思维偏好优化」(TPO), 这项技术模仿人类思维过程,让AI 在提供答案之前进行内部思考,类似于「反思」。这一突破性技术不仅有望挑战OpenAI 等竞争者,还将为AI 助理和聊天机器人等语言工具带来更智能的交互体验。
会自我思考的AI 真的出现了
TPO 的核心功能在于让模型进行「内部思考」,像是给人工智慧加上一个「心理暂停键」,使模型在做出决策前进行内部反思。传统AI 模型通常会直接给出解答,再依据你的反馈做出一遍遍的调整,不断试错直到找到最终答案,而TPO 的创新则是让模型在生成最终答案之前,进行自我推理与内部演算,类似于逻辑思考,模拟人类在复杂问题面前的思考方式。
根据Meta 的说法,这项技术不仅能让Al 提供更具有思考性的答案,还能在市场营销、医疗健康等需要高层次推理的领域发挥巨大作用,有潜力进一步提升AI 助理、聊天机器人等语言工具的效能。
上图为TPO 回应非推理写诗指示的范例: 这个例子显示了思考如何有助于理解任务并相应地进行规划,甚至对于创意写作也是如此;绿色的思考部分不是回应的一部分。
什么是思维偏好优化(TPO)?
TPO ( Thought Preference Optimization ) 是一种突破性的训练方法,通过一种称为「强化学习」的训练方法,让模型进行多次迭代学习。在过程中,模型会生成内部思考并进行自我评估,而研究人员则只对模型的最终答案进行评估,这意味着模型能自主学习如何优化自己的推理过程,靠逻辑推导自我纠正错误。这与过去强调显示每一步推理的传统AI 模型不同,TPO 让AI 的思考过程隐藏,仅显示最终结果。
这项技术的另一大亮点是它不需要重新训练模型或大量新数据,只需基于现有的模型架构进行调整,就可以给出有创造力的回答。
AI 自我思考的代价
这项技术的目前困难,特别是在数学领域表现下降,以及缺乏对思维过程字数长度的控制,这两者均成为模型优化过程中的关键瓶颈,研究人员也坦言,若该模型无法做到限制思考长度,将会消耗大量的运算成本,如何改进这两点也将成为实验的未来方向。
全新AI 领域的突破:挑战openAI
TPO 的推出让Meta 的AI 技术更具竞争力,有望挑战目前在AI 领域领先的OpenAl。 Meta 的这一技术不仅提升了模型的准确性,还能让AI更好地理解复杂问题背后的逻辑,为开源模型的进一步创新铺平道路。对此,业界分析人士认为,TPO 将成为与OpenAI 的StrawBerry 等模型竞争的重要利器。而随着美国大选的尘埃落定,Meta 的股价也一度攀升至595 USD ,可见得大家预期川普的上任后对于科技发展影响巨大。