OpenAI 再惹祸？个人信息合规成“锁喉”难题？

2024.02.20

来源：肖飒lawyer

上个月，意大利隐私监管机构Garante出具的调查结果认为，OpenAI公司存在一项或多项违反欧盟法规的行为，ChatGPT用于收集用户数据的技术已经违反了该国的隐私法。掀起生成式人工智能热潮的ChatGPT再次陷入数据合规风波。

数据和算力是生成式人工智能的核心。数据安全是生成式人工智能合规的核心问题，在人工智能对数据日益增长的依赖性的背后，生成式人工智能秘密收集数据，对“知情同意”原则和“最小必要”原则带来了严重挑战。与此同时，生成式人工智能在运行阶段包含着巨大的数据泄露风险。这对个人信息的保护带来了严重威胁。飒姐团队今日就谈谈生成式人工智能对个人信息安全带来的挑战与合规要求。

01 语料库数据的收集与使用

根据数据来源，大致可将涉个人信息的数据分为涉及个人信息的语料库数据以及涉个人信息数据的用户上传的数据。

生成式人工智能对数据具有高依赖性，需要大量的数据满足训练要求。这决定了，生成式人工智能往往会主动收集、处理公开和非公开的数据，预训练数据的规模通常可以达到数十亿甚至上百亿个参数量。若其中存在个人信息，根据《个人信息保护法》第27条的规定，“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。”《生成式人工智能暂行管理办法》第7条也强调，“生成式人工智能服务提供者（以下称提供者）应当依法开展预训练、优化训练等训练数据处理活动，遵守以下规定：……（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形。”然而，由于数据库数据规模过于庞大，逐一获得信息主体的同意这一要求难以实现。

既然获取信息主体的同意这一条路难以走通，那直接把数据库中的个人信息删掉可以吗？这也存在困难。一方面，当前缺乏行之有效的个人信息清洗算法，存在一定的技术悖论；另一方面，数据库规模之巨大导致人工清洗数据的成本极高，且存在个人信息二次泄露的风险。有研究指出，基于命名实体识别的数据清理技术，对临床健康数据的召回率为97%(姓名)和80%(护理单元编号)。换言之，在语料库、数据库中存在个人信息的情况下，在训练阶段，个人信息的清洗效果较差，科技公司存在合规风险。飒姐团队提醒，科技公司在使用语料库数据进行训练时，应当尽量选择不包含个人信息的数据集，同时尽可能提高识别算法的准确性，对识别的个人信息进行匿名或裁剪。在审核端采取机器过滤机制加人工审核机制，也是利大于弊的合规措施。

02 用户上传信息的收集与使用

用户上传数据可分为“用户积极投喂的数据”和“用户消极投喂的数据”。所谓用户积极投喂的数据，系指用户为获得生成式人工智能的反馈而上传的特定数据。所谓用户消极投喂的数据，系指用户为使用含生成式人工智能算法的应用程序或设备的其他功能而上传的数据。

生成式人工智能的运行通常需要用户主动“投喂”一定的数据，再基于算法进行分析、反馈。在这一过程中，人机交互数据将被加以记录、存储和分析，并可能成为模型算法更迭训练的数据。但在服务提供者未尽提示义务、用户缺乏安全意识等语境下，用户投喂的数据中很可能包含用户个人外貌、住址、联系方式等个人信息。生成式人工智能复杂的服务模式与多元的应用场景加剧了这一风险。随着数字技术的发展，用户的身份与其联系方式、人脸数据、指纹等深度绑定，而生成式人工智能常会收集到大量个人信息。例如，某AI公司的知名聊天机器人程序应用范围涵盖教学、科研、金融、传媒和娱乐等众多领域，用户与其进行的聊天记录中包含大量敏感信息，如个人身份、偏好、习惯等。这些数据若落入不法之手，将导致个人隐私遭到侵犯、身份盗用、金融欺诈等风险，对用户造成直接损害。

此外，生成式人工智能的使用场景广泛，常被嵌入各大应用程序乃至设备中。例如，今年1月，某浏览器已宣布引入3大生成式AI能力，某公司已推出全球首款搭载生成式人工智能技术的智能手机。即使未使用生成式人工智能技术，用户在使用相关应用程序乃至设备时，不可避免地会将产生、上传数据，而数据中很可能存在涉嫌个人信息的内容。

OpenAI 再惹祸？个人信息合规成“锁喉”难题？

加⼊OKEx全球社群

相关推荐