腾讯发布大模型安全与伦理报告：以负责任AI引领大模型创新

2024.01.29

文章来源：腾讯研究院

图片来源：由无界AI生成

在1月24日举办的腾讯科技向善创新节2024“大模型安全与伦理专题论坛”上，腾讯发布了大模型安全白皮书《大模型安全与伦理研究报告2024：以负责任AI引领大模型创新》，并邀请业界专家进行圆桌研讨。

白皮书由腾讯朱雀实验室、腾讯研究院、腾讯混元大模型、清华大学深圳国际研究生院、浙江大学区块链与数据安全全国重点实验室联合研究撰写，对大模型发展中的安全机遇与挑战、大模型安全框架和实践做法、AI伦理和价值对齐进行了系统性梳理，并展望了大模型安全与伦理未来趋势。

专家点评：

AI技术将深刻地影响着我们工作及生活方式，如何保障人工智能安全是我们当前迫切的责任。要把这一理念转变为具体的行动需要有标准的制定，健全的安全管理机制，有效的实践经验带来的思路启发等。在该报告当中，我们把过往实践的安全积累与前沿洞察的变化融在一起，希望能够在大模型快速发展中提供一个安全视角，探明存在的问题与挑战，有哪些积极的应对措施，以及未来在整体安全，数据安全，监管立法，跨学合作方面寻找新的理念，为行业同仁提供一份参考。道阻且长，行则将至，让我们一起为AI时代奋斗，加油！
——杨勇
腾讯安全平台部负责人

随着大模型能力的不断增强和适用范围的延伸，其在金融、医疗、广告、营销等商业领域的应用，使得大模型中存在的微小安全隐患会造成巨大损害，因而大模型安全问题引起了广泛关注。此报告从大模型的发展趋势、面临的机遇与挑战出发，阐明了大模型的安全框架与实践方案，最后点明了大模型安全的未来发展趋势。报告的叙述内容层次分明，详尽地给出了大模型安全与伦理的调研与分析，可以作为大模型安全领域研究的重要参考。
——夏树涛
清华大学深圳国际研究生院教授/博导

该研究报告内容翔实全面，既介绍了大模型本身安全问题，又阐述了大模型在安全领域的应用。在此基础上，还进一步设计了大模型安全框架构建的原则和技术路径，并且展示了腾讯朱雀实验室在构建大模型安全框架上的初步实践和成果，兼顾了全面性和可操作性。该报告还对大模型的对齐与伦理等更广义安全问题进行了阐述，清晰揭示了该领域所面临的挑战和未来发展趋势。总体而言，该报告融合了学术洞察和行业实践，兼具前瞻性和可操作性，对于大模型安全领域的发展将起到积极的推动作用。我相信不论是研究人员还是工程人员，都可以从该报告中收获有价值的信息。
——吴保元
香港中文大学(深圳)数据科学学院副教授

大模型安全框架和实践

大模型安全作为一个新兴的安全领域，多家头部企业、安全团队均在积极探索潜在安全问题及风险收敛的解决方案。然而，目前行业内还未形成成熟完善的解决方案，仍处于探索阶段。为此，我们围绕大模型生产研发流程设计了大模型安全框架，从全局视角剖析大模型生产应用全生命中后期存在的安全风险问题，为大模型的研发及应用提供安全指导，致力于构建安全、可靠、稳定、可信的大模型应用。

大模型安全框架

把安全措施落实到具体的研发，训练，测试，部署发布环节是提升大模型安全的行业共识，通过对大模型安全进行多个角度的测评、安全验证分析，我们总结了以下几方面实践过程中的工作经验供行业同仁参考。

（1）Prompt安全测评。我们搭建了Prompt安全检测平台，专门用于模拟攻击者的行为，以掌握大模型在Prompt风险场景下的安全性和表现。Prompt安全测评的目的是在大模型上线前提前自动化挖掘潜在的多种原生安全风险，并在上线过程中辅助业务进行风险收敛，从而确保大模型生成的回复内容符合《生成式人工智能服务管理暂行办法》等各类法律法规。并在此基础上形成自动化攻击样本生成能力，自动化风险研判能力。

Prompt安全检测平台

腾讯发布大模型安全与伦理报告：以负责任AI引领大模型创新

加⼊OKEx全球社群

相关推荐