AIGC，内容生成巨浪已来

2023.06.20

原文：复旦商业知识

图片来源：由无界 AI‌ 生成

人类文明可以被认为是全人类生活印记的记录总和。那么，如果有一个超级大脑学习了人类记录下的全部知识，是否可以帮助我们创作出更灿烂丰富的文明？

2022年12月，入选《科学》杂志年度科学十大突破的AIGC，将这一梦想照进了现实。AIGC全称为AI-Generated Content，即生成式AI，利用人工智能技术来自动生产内容。对AIGC来说，2022年被认为是其发展速度惊人的一年。AIGC可以说是当今AI领域最火爆和充满幻想的发展方向，AIGC的发展催生了写作助手、AI绘画、对话机器人、数字人、办公室软件助理等爆款级应用，并通过人机交互形成了新的记录、学习和再创作范式。一个引人注目的问题随之浮现：AIGC会如何助推新的人工智能浪潮？

记录、学习和再创作

英雄未必起于微末，OpenAI的故事起于一群对人工智能的未来充满恐惧的创业新贵。GPT系列就像OpenAI精心准备的各种饲料所培育出的超级大脑。

成立近三年半后才打造出的GPT-2模型是OpenAI第一个真正意义上的代表作。GPT-2包含15亿参数，以800万篇Reddit论坛帖子、总计40GB文本为食，显现出文本续写的能力。比如输入《指环王》中的句子，它会生成让人无法分辨真假、剧情和原著不同，但看上去符合逻辑的续文。

OpenAI疯狂地想知道要是能吃下更多的语料，这个超级大脑会拥有何种能力，于是拥有1750亿参数的GPT-3横空出世。GPT-3光训练就消耗数千万美元，专家们把此前12年从6000万个域名中收集的新闻报道、帖子、书籍全文以及各种网页等数千亿个单词的英文资料统统喂进模型。这次GPT-3不光具备了更强大的语言生成能力，还额外掌握了出色的上下文学习能力和大量的世界知识，写诗歌、写新闻报道、回答问题、编写代码样样精通。而最新的GPT-4的数据处理、理解能力更强，它可以接收并生成25000字的文本，是之前ChatGPT的8倍。

另外，它的逻辑思考能力、图像理解能力也有了非常大的飞跃。OpenAI可能是人工智能记录、学习和再创作这一范式最坚定的践行者。根据爱丁堡大学与艾伦人工智能研究院推测，从GPT-3到GPT-3.5再到GPT-4，OpenAI内部就已经迭代了多个版本。ChatGPT基于人类反馈的强化学习进行指令微调，通过大幅下调上下文学习能力而提升了翔实的回应、公正的回应、拒绝不当问题、拒绝其知识范围之外的问题四种能力。

一路走来的 AIGC

除了以ChatGPT为代表的语言生成技术之外，AIGC还包含了图像生成、视频生成、音频生成等。AIGC漫长的发展历程，根据中国信通院发布的《AIGC白皮书》，可大致分为以下三个阶段：

早期萌芽阶段（20世纪50—90年代）：受限于科技水平，AIGC仅限于小范围实验，生成的内容真实感不强。1957年，莱杰伦·希勒(Lejaren Hiller) 和伦纳德·艾萨克森（Leonard Isaacson）通过将计算机程序中的控制变量改为音符，完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲》。1966年，约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby) 共同开发了世界上第一个机器人“伊莉莎”(Eliza)，其通过关键字扫描和重组来完成交互式任务。80年代中期，IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉”（Tangora），能够处理两万个单词。在这一阶段，AIGC仅通过学习专家编写规则进行生成，泛化能力极其有限，就像专家手中摆弄的提线木偶。

沉积积累阶段（20世纪90年代—21世纪10年代）：AIGC从实验性向实用性逐渐转变。深度学习算法、图形处理单元 (GPU)、张量处理器(TPU) 和训练数据规模等都取得了较大突破。2007年，纽约大学人工智能研究员罗斯·古德温（Ross Goodwin）装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知，撰写出世界上第一部完全由人工智能创作的小说——1 The Road。2012年，微软公开展示了一个全自动同声传译系统，通过深度神经网络（DNN）可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。在这一阶段，AIGC开始自动学习人类记录的少量数据，掌握了一定泛化能力，但受到算法瓶颈的限制，生成效果有待提升。此时的AIGC就像一只善于模仿的鹦鹉，看似像模像样实则一窍不通。

快速发展阶段（21世纪10年代至今）：自2014年起 , 随着生成式深度学习算法的提出和训练数据规模的飞速扩充 , AIGC生成内容的效果逐渐逼真直至人类难以分辨。2017年 , 微软人工智能少女“小冰”推出了世界首部完全由人工智能创作的诗集《阳光失了玻璃窗》。2018年 , 英伟达发布的StyleGAN模型可以自动生成图片 , 其生成的高分辨率图片人眼难以分辨真假。2021年 , OpenAI推出了DALL-E并于一年后推出了升级版本DALL-E-2, 用户只需输入简短的描述性文字 , DALL-E-2即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。2022年7月，开源AI绘画工具Stable Diffusion发布，使普通人也能创作专业画师级别的作品。同年8月，一幅名为《太空歌剧院》的美术作品在美国科罗拉多州博览会上获得一等奖，这幅作品正是出自AI之手。随后发布的Make-A-Video、Imagen Video和Phenaki等模型更是能以文字描述生成视频。2022年11月30日，OpenAI发布对话机器人ChatGPT，至此AIGC时代全面开启,生成内容百花齐放。

数据燃料

AIGC，内容生成巨浪已来

加⼊OKEx全球社群

相关推荐