复制成功

分享至

主页 > 比特币 >

北大和智源团队提出训练框架 LLaMA-Rider,可让大模型自主探索开放世界

2023.11.07

据站长之家 11 月 7 日报道,北京大学和北京智源人工智能研究院的团队提出了名为 LLaMA-Rider 的训练框架,旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈 - 修改机制来实现主动探索,使模型在环境中接收反馈信息,不断调整决策,从而逐渐适应开放环境。

据悉,LLaMA-Rider 采用两阶段训练方法,首先让模型在环境中自主探索,然后将成功经验整合为监督数据集,用于模型微调,提高多任务解决的能力。实验结果显示,LLaMA-Rider 在多任务解决上表现出高采样效率和低训练代价,与强化学习方法相比具有优势。这个研究为大型语言模型在开放世界中的自主学习提供了重要思路。

原文链接

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier