AI 可以取代你的工作吗？从原理分析“AI 生成”图像的秘密

2023.04.01

图片来源：由无界 AI工具生成

来源：少数派

作者：Xenogeneic

作为一个非职业的摄影爱好者，我通常会在 Instagram 上面搜罗各种各样的优质图片并将其放进我的收藏夹。其中，有一位我关注了很久的德国摄影师，他的作品有很多值得我学习的地方。

在经历了一段时间因 ChatGPT 带来的职业发展焦虑后，我开始有意无意地在生活中关注 AI 相关的消息。当我回看我的收藏夹，我惊讶地发现发现自今年一月份以来，这位德国摄影师发布的大部分照片都是由 AI 生成的。而我在收藏和欣赏这些图片的时候，居然一点也没有察觉出这些图片是 AI 制作的。

图片来源：Instagram freaksplace，由 AI 生成

所以我想在这篇文章里和大家一起聊一聊 AI 图像生成的原理、过程，以及我是怎么看待 AI 图像生成这股浪潮的。

▍AI 生成图片的原理

生成与转换：AI 绘画的两大核心算法

AI 绘画的原理并不是简单地将多个图片数据拼接在一起所生成的图像。与 ChatGPT 的本质逻辑相似，AI 绘画生成图片的过程是通过对训练数据的学习，让 AI 模型能够理解和提取图像的基本特征、结构和样式。

然后，根据给定的描述或关键词，尝试在新的图像中融合和组合这些特征，以生成与输入相关的图像。完成这一任务的两种核心算法分别是生成模型和转换模型。

生成模型：生成对抗网络（GAN）

生成模型是一种能够根据给定条件生成新数据的算法。在 AI 绘画中，生成模型通常采用生成对抗网络（generative adversarial networks, GAN），其中包括两个神经网络：一个生成器和一个判别器，生成器负责生成新图像，判别器则评估生成器的性能。通过反复训练生成器和判别器，生成模型可以逐步提高生成图像的质量。

简单来说，生成器负责学习并尝试生成新的图像，而判别器则会对生成的图像进行判定。这种生成器和判别器之间的竞争与对抗关系促使生成器不断改进其生成能力，从而创造出更加逼真和高质量的图像。

除了 GAN 对抗模型以外，还有一种扩散模型（Diffusion）同样可以生成图像。

扩散模型的核心思想是通过向原始图像添加噪声，将其扩散到一个噪声图像，然后逐步从噪声图像中还原原始图像。在接受训练后，模型学会接受用户提供的文本提示，创建低分辨率图像，然后逐渐添加新细节以变成完整图像。

转换模型：卷积神经网络（CNN）

转换模型用于将输入图像转换成另一种风格的图像。在 AI 绘画中，转换模型通常采用卷积神经网络（convolutional neural network, CNN）实现。

这些模型通过学习如何将输入图像转换为特定的风格，例如梵高的星空或毕加索的风格。模型的训练通常依赖于拥有大规模图片数据的训练数据集，例如 ImageNet 和 COCO 数据集。

以 ImageNet 数据集为例，目前最新的版本是 ImageNet-21K，该数据集包含 21841 个物体类别，共有超过 2100 万张图片。其中，训练集包含超过 1400 万张图片，验证集包含超过 5 万张图片，测试集包含超过 10 万张图片。

ImageNet 的物体类别包括各种动物、物体和场景等，如动物类别包括「狗」「猫」「鸟」等，物体类别包括「汽车」「椅子」「电视」等，场景类别包括「海滩」「山脉」「公园」等。每个物体和场景类别都有大量的图片来支持模型的训练和评估，这些图片都是高分辨率的彩色图片，具有不同的角度、光照、背景等多种变化。

图像字幕技术：让 AI「看懂」图片

图像字幕技术（Image Captioning）指的是通过深度学习算法生成图像文本描述的过程。

图像字幕的过程通常涉及将图像输入神经网络，该网络提取相关的视觉特征，然后生成描述这些特征的单词序列。神经网络是在大量图像及其相应字幕的数据集上训练的，使用卷积神经网络进行图像分析，并使用递归神经网络（recurrent neural network, RNN）生成文本。

简单来说，就是让计算机「看懂」一张图片，然后自动为这张图片生成一句话的描述。神经网络会通过对图像中的物体、场景、动作等元素进行识别和分析，并利用语言模型将图像的内容转化为文本。例如，对于以下这张图片，AI 会生成类似于「一只狗在草地上奔跑」的描述。

AI 可以取代你的工作吗？从原理分析“AI 生成”图像的秘密

加⼊OKEx全球社群

相关推荐