ChatGPT类应用服务，数据合规有特殊性吗？

2023.04.28

图片来源：由无界 AI工具生成

作者：王融，腾讯研究院首席数据法律专家

引言：以ChatGPT为代表的生成式人工智能技术正在以令人惊异的速度进化。腾讯研究院公众号陆续推出《生成式AI——数据合规的变与不变》系列文章，以开放设问方式，探讨基于大语言模型AI生态的隐私与个人信息保护等数据合规问题。讨论没有标准答案，更多提供观察视角。

上一篇链接：《大模型研发者是数据控制者么？》

本期观点摘要：

1. ChatGPT等AI应用服务商直接面向个人提供服务，收集并处理个人信息，可被视为个人信息保护合规主体——数据控制者。

2.与移动互联网APP的典型场景相比，生成式AI服务商的个人信息处理活动有其自身特征，数据合规重点也有所不同。

3.根据GDPR，欧盟数据保护机构（DPA）是监管机构，而非市场准入机构，其职责主要在指导督促企业满足数据合规要求。

4.未来真正的挑战来自于AI赋能的各类应用服务，解决新的数据安全问题需要新思维。

C端AI应用服务商是数据控制者（data controller）

并非所有的市场主体都是数据合规框架下的义务主体，需要根据技术原理、业务场景和法律规范来进一步确定。当主体身份重合时，也需基于不同业务流程匹配合规义务。基于此分析框架，我们在上一篇文章里详细论证了大模型研发者，在模型研发阶段有可能并不认定为隐私数据合规上的法律主体（data controller）。

基于同样的分析框架，我们认为面向C端个人用户提供生成式AI服务的运营者可被认定为隐私数据合规上的数据控制者。例如，当OpenAI在2022年11年面向公众发布ChatGPT应用服务，并在2个月内突破1亿用户，成为历史上增长最快的消费者应用时，作为数据控制者的身份已确定无疑。

事实也如此。从国外实践看，目前已面向个人的AI应用服务商，在数据合规部分已完整配置隐私政策和用户协议，以充分告知用户收集了哪些类型的数据，以及如何处理数据。OpenAI在隐私政策中列举了收集类型[1]；包括账户信息、通信内容、使用记录等；数据处理的目的包括但不限于：提供、改进服务，预防欺诈，网络信息安全、履行法定义务所需等。类似的，面向公众的图片生成AI服务商Midjourney 也提供了清晰明了的隐私政策[2]。国内目前虽然没有正式上线的产品，但已有部分厂商在测试版本中嵌入隐私政策。

这也就不难解释为什么数据保护机构DPA是第一批入场的监管机构。3月31日，意大利数据监管机构Garante宣布暂时禁止ChatGPT，并要求OpenAI 在20天内相关问题作出回应[3]。这是数据监管机构DPA对一项新兴应用的正常反映，但被误读为DPA可以对特定业务采取永久性措施。相反，根据欧盟GDPR，DPA虽然有天价处罚权，但其职权被严格限制在矫正性权力范围内，包括建议，警告以及暂时性的或者具有明确期限的禁令[4]。换言之，只要服务提供者满足数据合规要求，则DPA不得对其采取市场禁入措施。在其临时禁止令受到广泛批评后，4月12日，Garante释放信号：“如果 OpenAI 采取有效措施，我们准备在 4 月 30 日重新开放 ChatGPT”[5]。

生成式AI服务商数据合规的独特性

与移动互联网相比，面向个人的生成式AI应用在数据合规上有很多相似之处，包括制定隐私政策、业务协议，明确处理用户数据的合法性基础，通过隐私保护设计在信息系统中支持用户围绕其账户信息和使用服务过程中产生的个人信息的相关权利，包括查询、访问、更正、删除等。但一方面，我们更加关注其在个人信息处理活动中的独特性：

第一、收集的个人信息种类相对较少。导航软件、打车、购物等典型的移动APP为实现对用户个性化服务的闭环，需要实时收集用户较多类型的个人信息；而目前的生成式AI应用，以OpenAI和Midjourney为例，从其底层逻辑出发，其更加关注生成内容的质量，在应用服务阶段收集个人信息主要是建立用户账户体系，接受用户指令（prompt）并与之交互，因此收集的个人信息相对较少，包括账户信息（用户名、邮件）、使用记录（cookie等），如果涉及购买服务等交易，则还包括支付信息。因此，Midjourney更是以表格的形式，明确列出了不收集的用户信息种类：包括用户敏感信息，生物识别信息、地理位置信息等等。这些信息对于生成式AI应用确实也无关紧要。

第二、在更早阶段以及更广泛地采取个人信息去标识化以及匿名化措施。在提供服务过程中，生成式AI主要围绕用户账号体系及通信内容构建数据安全防护体系。以ChatGPT为例，尽管在模型训练阶段，其采集的数据源中的用户个人信息较少（且主要为公开信息），但在应用服务阶段，问答式的会话功能会产生较为敏感的通信内容，模型根据与用户通信内容（上下文环境）进一步分析并生成回复。为降低用户通信内容泄露后产生的风险，生成式AI会在更早阶段采取用户身份信息去标识化及匿名技术，或者将用户身份信息与通信内容相互分离，或者在模型生成回复内容后及时删除通信内容等安全类措施。这也是由生成式AI更关注反馈内容，而非用户行为的逻辑所决定，这与建立在用户行为特征基础上，以个性化推荐见长的移动APP有显著差异。

ChatGPT类应用服务，数据合规有特殊性吗？

加⼊OKEx全球社群

相关推荐