竞逐文生图大模型，百度、快手、网易“明争暗斗”

2023.10.27

原文来源：刘旷公众号

图片来源：由无界AI生成

自从进入2023年以来，AIGC技术助推了新的人工智能浪潮，AI大模型的创新应用也按下了加速键。随着AI写作、AI作曲成功在多个领域落地，AI在内容创作方面的应用也变得越来越广泛，而AI绘画作为大模型最火热的应用领域之一，近几年也取得了突破性进展。

AI绘画简单来说就是“文生图”，是指输入一些描述性语言，AI可以以此生成创意画作。AIGC 技术的飞速发展使得“文生图”模型不断实现更加良好的生成效果，得益于此，无论是百度、网易这样的互联网大厂，还是快手这样的新锐公司纷纷争相入局，试图借助“文生图”这一新事物，探索业务上的更多新可能。

快手“出其不意”

前不久有消息称，快手在推出“文生文”大语言模型“快意”（KwaiYii）之后，又在“文生图”赛道取得了新的进展，推出了自研大模型“可图”（Kolors），并且已在公司内部全面开启测试。据介绍，可图大模型能够基于开放式文本生成各类的绘画作品，它有着三大突出特点：强大的文本理解、丰富的细节刻画，以及多样的风格转化。而在可图大模型强大的图像生成能力背后，则与快手多年的积淀息息相关。

首先，快手海量的短视频素材，能为可图提供数十亿的图文训练数据。发展至今，快手上的短视频素材已经数以万计，根据这些短视频，可图可以收集到更多的数据信息，帮助大模型准确理解用户的需求，让用户通过简单描述即可生成更加多样化风格的图片。据了解，快手拥有数十亿来自开源社区和自研AI技术合成的图文训练数据，这些数据覆盖了常见的三千万中文实体概念，能更好地生成更加贴近文字描述的图片。

其次，快手较强的用户粘性，为可图的落地提供了最佳的应用场景。众所周知，快手应用的累计互关用户对数超过311亿对，同比增长近50%，日均互动（包括点赞、评论和转发等）总量达80亿次，而且AI玩评也能够极大地提升用户参与评论的积极性和满意度。不同用户画像可以丰富可图训练数据，促使可图生成更多样化的图片。因此，拥有较强用户粘性的短视频评论区，可以看做可图大模型最佳的落地应用场景之一。

最后，快手在大模型上的创新性探索，有助于可图形成差异化优势。快手研发了一个强大的中文CLIP模型，并且利用自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块，能让可图大模型更好地理解中文特色概念。不仅如此，快手还更改了去噪算法的底层公式和加噪公式，实现了单一基座模型在主体完整的前提下，可生成具有丰富细节和纹理的图片。而可图大模型也具有了基于Prompt的自动学习模型，能够生成不同的风格模版。

百度“声东击西”

在文生图领域，快手的自研大模型“可图”可谓是独具一格，作为国内领先的AI技术公司，百度的AI作画产品“文心一格”自然也备受期待。据了解，文心一格是基于百度文心大模型能力的AI艺术和创意辅助平台，它可以根据用户输入的文本描述和选择的风格，自动生成独一无二的画作。而百度文心一格之所以能对用户的作画需求实现精准理解，其中的原因自然不言而喻。

一来，文心大模型强大的语言理解能力，使文心一格对中文的理解变得更加精准。文生图技术对中文语义的理解尤为关键，而文心一格的技术基础是百度文心知识增强跨模态理解大模型，百度文心学习了海量优质图文数据，能全面提升图像生成质量和语义一致性。因此，文心一格不仅能利用知识辅助更好地理解用户的输入，并自动丰富语义细节，有效降低用户输入描述成本，还能根据不同的需求，灵活适配多种风格画作生成能力。

二来，文心大模型在技术上的深厚积淀，在一定程度上解决了文心一格在实际应用中的技术难题。众所周知，文心一格AI作图产品顺利落地，是百度依托于飞桨、文心大模型持续进行技术创新的结果。而百度的文心跨模态大模型ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型，也是目前全球参数规模最大的AI作画大模型。百度在训练大模型方面取得了长足的进步，也让文心一格有效解决了复杂概念、属性混淆等文生图领域的常见问题。

三来，文心大模型丰富的产业应用场景，有助于文心一格实现商业化快速落地。目前，文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品，并已通过飞桨开源开放平台、百度智能云等赋能工业、能源、金融、通信、媒体、教育等各行各业。而在这个基础模型职场，文心一格也能结合各个领域的、少量的任务数据，再进行训练、调优，之后就可以适用更多场景，从而进一步拓宽落地的广度，加深产业应用的深度。

网易“蓄谋已久”

竞逐文生图大模型，百度、快手、网易“明争暗斗”

加⼊OKEx全球社群

相关推荐