复制成功

分享至

主页 > 比特币 >

“AI孙燕姿”背后的版权迷宫

2023.05.25

作者:朱开鑫,腾讯研究院研究员

“AI孙燕姿”背后的版权迷宫

图片来源:由无界 AI工具生成

2023年5月22日,歌手孙燕姿发表博文《我的AI》对近期大火的“AI孙燕姿”事件正式回应。“我的粉丝已经接受我是一名冷门歌手的事实,而我的AI角色成为了目前的顶流。说真的,你怎么可能打得过一个在几分钟之内就能出一张新专辑的家伙?”据报道,“AI孙燕姿”翻唱歌曲总数已经逾越1000首,远超其出道23年以来的作品总和,在B站的单曲翻唱播放量都已经接近200万。

在国外,2023年4月14日,匿名网友“幽灵创作者”(Ghostwriter)利用歌手“Drake”和“the Weeknd”的声音训练AI模型并生成了歌曲《Heart on My Sleeve》,短短两天在TikTok点击量便超过1500万。但环球唱片公司对此斥责道,“使用我们旗下歌手训练AI,既违反协议也违反版权法!”[1]在其投诉下,Spotify、YouTube、TikTok等平台纷纷下架了该歌曲。

“AI音乐好听到让人感觉很危险。”2023年4月19日,《纽约时报》记者Joe Coscarelli就上述争议撰文直言,“AI歌手看似像一只无害的百灵鸟(harmless lark),实际上加剧了音乐行业一直以来的担忧,AI模型正在大规模学习并稀释歌手创作的价值。”

2023年5月17日,美国国会召开“交互中的人工智能与版权法”听证会,美国词曲作家协会(Society of Composers & Lyricists)主席、艾美奖得主Ashley Irwin不无担忧地表示,“除非在法律和市场机制等层面出台有效的举措,生成式AI的快速应用将会直接威胁音乐创作行业的生存延续。”[2]


“AI歌手翻唱”背后的技术原理


“AI歌手”之所以能够进行歌曲翻唱,背后依靠的也是当下大火的生成式人工智能(AIGC)技术,目前这一领域主流的模型是“SO-VITS-SVC”。“SO-VITS-SVC”源于2021年6月11日发布的“VITS”的开源项目。“VITS”是一种语音合成模型,可以实现“文生音”的效果。但“VITS”模型需要海量的训练数据(数千至上万条5-10秒左右的音频),并高度依赖于人们对语料数据的文本标记,应用门槛很高。[3]

2022年8月26日,一位名为“Rcell”的B站用户在“VITS”的基础上,结合了Soft-vc(内容编码器,用来提取音频语音特征)、VIsinger(端到端的歌声合成系统,用来简化歌声合成系统的训练流程)等,开发出了“SO-VITS-SVC”模型。“SO-VITS-SVC”可以理解是一个音色转换的AI模型,仅需十几分钟的音频数据,便可以拟合成具备特定主体音色的工具。[4]

“AI歌手”便是利用“SO-VITS-SVC”训练出具备目标歌手(例如孙燕姿)音色的声学模型,并对其他歌手的歌曲(例如周杰伦的《发如雪》)进行翻唱(即音色转换)。实践中,利用“SO-VITS-SVC”模型制作一首由“AI歌手”翻唱的歌曲,主要有如下三个步骤:

第一,获取包含目标歌手的语音文件,通过UVR5等音频工具将干声(纯人声)和伴奏、合音等进行分离,并通过Audio Slicer等音频工具将干声切分为多个不超过30秒的文件,形成目标歌手的音频数据集;

第二,利用上述音频数据集对“SO-VITS-SVC”模型进行训练,获得具备目标歌手音色的应用模型;

第三,选择希望翻唱的“目标歌曲”,制作“目标歌曲”的干声文件,利用训练好的目标歌手音色模型,对干声文件进行推理预测和音色转换,得到“AI歌手”翻唱的歌曲。[5]


“AI歌手”训练涉及哪些版权主客体?


从模型训练阶段来看,各界对于AIGC版权问题的关注重点集中于,被用来训练的数据内容是否存在侵权风险。“AI歌手”及其背后的“SO-VITS-SVC”模型,训练数据集中于音乐著作权及邻接权领域,涉及的客体内容和权利主体较为复杂。

目前来看,对“AI歌手”音色模型进行训练,涉及的语音文件数据主要包括两大类:一类是目标歌手的“音乐录音制品”;另一类是目标歌手的 “普通语音制品”,包括歌手的日常对话以及采访会、发布会对话的录音文件。

第一类情形,若利用目标歌手的“音乐录音制品”进行模型训练,“音乐录音制品”属于版权法上的客体录音制品,涉及三方主体及权利。一是,特定歌曲对应的词曲作品权利人,及其享有的“著作权”;二是,演唱这一歌曲的歌手,及其享有的“表演者权”;三是,制作这一“录音制品”的录音制作者,及其享有“录音制作者权”。

第二类情形,若利用目标歌手的“普通语音文件”进行模型训练,原则上仅需获得语音文件对应的录音制作者授权。但需要注意的是,若未经许可对目标歌手的声音对话进行私自录制,可能涉及隐私、声音等人格权侵权风险。若上述录音制品涉及目标歌手演讲、脱口秀之类具有一定表演意义的内容展示,此时与第一类情形相同,仍涉及到三方面的权利及相关主体。


“AI歌手”训练可能涉及哪些版权风险?


1、数据存储阶段——“复制权”问题

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier