复制成功

分享至

主页 > 比特币 >

大模型监管观察:英美、欧盟如何规制ChatGPT训练数据?

2023.05.09

来源:金杜研究院,作者: 宋海燕 

大模型监管观察:英美、欧盟如何规制ChatGPT训练数据?

图片来源:由无界 AI工具生成

ChatGPT,一款由美国科技公司OpenAI于2022年11月30日发布的AI聊天机器人,一经面世便引发全球热议。随着其热度不断升高,与之相关的诸多版权争议受到广泛关注,训练数据侵权问题便是其中之一。

作为语言生成式模型,ChatGPT训练数据由大量文本数据组成。目前各国对生成式AI训练数据的使用仍未单独制定成文法规定,但域外对文本与数据挖掘(Text Data Mining,后称“TDM”)技术的法律规制却具有重要借鉴意义。TDM指的是利用自动分析技术分析文本与数据的模式、趋势以及其他有价值的信息,是以计算机为基础的,从文本或数据导出或组织信息的过程。

[1]从技术原理来看,ChatGPT训练数据库的建构与TDM均以文本和数据输入为基础,二者在著作权法上具有相似意义。而在法律层面上,基于制度衔接与法律秩序稳定性的考量,针对使用主体、使用目的、使用方式、限制条件等问题,二者的法律适用应当存在一定程度上的延续与联系。因此,本文将围绕ChatGPT训练数据之合理使用展开分析,从比较法视野分析英国、欧盟、美国及中国对TDM所制定的合理使用制度,继而分析现行法律框架下ChatGPT所实施的数据挖掘行为是否具有合法性依据。


ChatGPT数据挖掘原理与侵权风险


ChatGPT是一种基于自然语言处理(NLP)的AI系统,使用了深度神经网络和自然语言处理技术来生成文本,其工作原理可分为三个阶段:数据输入——机器学习——结果输出。自然语言处理AI的训练数据通常由大量文本数据组成,当中包含了语言的各种形式和用法。

ChatGPT训练数据的使用流程[2]:

1. 数据收集:从各种来源收集原始数据。

2. 数据预处理:将原始数据进行清洗和标准化,以便后续处理和分析。

3. 数据标注:将数据进行标注,为机器学习提供训练数据。

4. 特征提取:从标注好的数据中提取特征。

5. 模型训练:对训练数据进行分析和学习。

6. 结果生成:输出生成物。

ChatGPT的训练过程中涉及到大量文本数据的使用。尽管OpenAI并未公开当前版本ChatGPT所使用的GPT-3.5语言模型数据量,但从公开数据来看,GPT-3语言模型由1750亿参数训练而成,由此迭代而来的GPT-3.5语言模型显然需要更庞大的数据量作为支撑。[3]

ChatGPT主要依赖于两种文本数据源,即用户输入内容和训练数据库。关于用户输入内容,根据《使用条款》规定,用户输入的内容将作为ChatGPT学习的文本数据之一。如果用户不同意此使用方式,可以通过邮件等方式拒绝授权而不会影响其正常使用。[4]关于ChatGPT的训练数据库,其数据来源可大致分为三种。

第一种,来源于公有领域的内容。公有领域内容指的是不属于私人所有,任何人可以不受限制地使用和加工的数据,包括本身便不受法律保护的内容及已过著作权保护期间进入公有领域的内容。

第二种,通过签订合同获得合法授权的内容,即通过与权利人签订合同从而获得有效授权,合法使用相关数据及内容。

第三种,未经授权的信息及内容。该来源指的是数据及内容本身为受著作权保护的客体,而ChatGPT在未经授权的情况下对相关内容进行挖掘使用,其获取渠道通常为利用“爬虫”技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式。

通过上述方式所构建的训练数据库,由于涉及未经授权使用受著作权保护的数据及内容,因此天然具有著作权侵权风险。

在我国现行《著作权法》框架下,ChatGPT训练数据使用过程的不同行为均可能存在著作权侵权风险。首先,在数据内容收集阶段,训练数据的使用或构成复制权侵权。数据收集的方式有两种形式,分别是将非数字格式的原内容转化为计算机可读的数据格式,即“原件扫描”,或是对他人已有数据进行访问和获取文本内容。训练数据的输入过程必然伴随着相应的复制行为。

目前学界认为,ChatGPT数据挖掘过程中的复制行为不属于因数字环境传输中“暂时的”、“在技术过程中必然发生的”,且“不具有独立经济价值”的“临时复制”情形,因此除非存在法定豁免情形,否则ChatGPT数据内容挖掘行为可能构成复制权侵权。实际上,ChatGPT在数据挖掘过程中,往往并非只将数据短暂复制于系统中,而是需要将作品数据长时间停留,继而便可能涉及到对作品的永久性复制。尽管当前各国对“临时复制”的法律性质存在争议,但对永久性复制应当归入复制权规制范围却存在共识。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier