复制成功

分享至

主页 > 数字货币 >

AIGC产业研究报告 2023——图像生成篇

2023.05.05

来源: 易观

AIGC产业研究报告 2023——图像生成篇

图片来源:由无界 AI工具生成

今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角,涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络,为各领域的应用开发者和使用者提供参考。

在本期图像生成篇中,报告从经典的GAN技术到目前主流的扩散模型展开,分析了图像质量、多样性、稳定性、可控性等模型关键能力的应用表现,以及在进行商业化落地时,来自数据、产品化、监管合规等方面的挑战和解决思路。


导语


图像作为人工智能内容生成的一种模态,一直在AIGC领域中扮演着重要角色,由于图像生成应用的广泛性和实用性,使其受到学术界和产业界相当多的关注。近年来,图像生成技术也取得了很多关键性突破,从经典的GAN技术到目前主流的扩散模型,以及在此基础上不断迭代出性能更强、生成效果更好的算法和模型,极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落地时,生成速度和稳定性的提升、可控性和多样性的增强,以及数据隐私和知识产权等问题,也需要在图像生成向各行各业渗透的过程中进行解决和探索。

本报告将聚焦于图像生成的技术发展和产业应用情况,提出影响模型应用能力的关键因素、商业化过程中的落地挑战,并展望未来的发展方向,以期为AIGC领域的应用开发者和使用者提供参考和借鉴。


定义


图像生成是指运用人工智能技术,根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同,图像生成主要包括图像合成(image composition),根据现有的图片生成新图像(image-to-image),以及根据文本描述生成符合语义的图像(text-to-image)等。

主要类型和应用领域

根据图像构成的类型,图像按照颜色和灰度的多少可以分为二值图、灰度图、索引图和RGB图,图像生成模型可实现不同图像类型的转换。

在实际应用中,模型的效果表现主要体现在生成图像的质量和图像的多样性,其在平面设计、游戏制作、动画制作等领域均有广泛的应用,另外,在医学影像合成与分析,化合物合成和药物发现等方面,图像生成也具有很大的应用潜力。

AIGC产业研究报告 2023——图像生成篇

技术发展的关键阶段

作为计算机视觉领域的重要组成部分,图像生成的技术发展大致经历了三个关键阶段:

AIGC产业研究报告 2023——图像生成篇

● GAN生成阶段:

生成对抗网络(GAN)是上一代主流图像生成模型,GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力,使生成式网络的数据愈发趋近真实数据,从而达到生成逼真图像的目的。但在发展过程中,GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。

● 自回归生成阶段:

自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验,利用Transformer结构中的自注意力机制能够优化GAN的训练方式,提高了模型的稳定性和生成图像的合理性,但基于自回归模型的图像生成在推理速度和训练成本方面的问题,使其实际应用受限。

● 扩散模型生成阶段:

对于前代模型在性能方面的局限性,扩散模型(Diffusion Model)已经使这些问题得到解决,其在训练稳定性和结果准确性的效果提升明显,因此迅速取代了GAN的应用。而对于产业应用中的大量跨模态图像生成需求,则需要结合CLIP进行,CLIP基于文本-图像对的训练方式能够建立跨模态的连接,显著提升生成图像的速度和质量。

目前,业内主流且生成效果优秀的图像生成产品主要是基于扩散模型和CLIP实现的。

主流模型实现原理及优缺点

● 主流模型解析

扩散模型(Diffusion Model)

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier