英伟达:帝国裂缝一条条
竞逐文生图大模型,百度、快手、网易“明争暗斗”
原文来源:刘旷公众号
图片来源:由无界AI生成
自从进入2023年以来,AIGC技术助推了新的人工智能浪潮,AI大模型的创新应用也按下了加速键。随着AI写作、AI作曲成功在多个领域落地,AI在内容创作方面的应用也变得越来越广泛,而AI绘画作为大模型最火热的应用领域之一,近几年也取得了突破性进展。
AI绘画简单来说就是“文生图”,是指输入一些描述性语言,AI可以以此生成创意画作。AIGC 技术的飞速发展使得“文生图”模型不断实现更加良好的生成效果,得益于此,无论是百度、网易这样的互联网大厂,还是快手这样的新锐公司纷纷争相入局,试图借助“文生图”这一新事物,探索业务上的更多新可能。
快手“出其不意”
前不久有消息称,快手在推出“文生文”大语言模型“快意”(KwaiYii)之后,又在“文生图”赛道取得了新的进展,推出了自研大模型“可图”(Kolors),并且已在公司内部全面开启测试。据介绍,可图大模型能够基于开放式文本生成各类的绘画作品,它有着三大突出特点:强大的文本理解、丰富的细节刻画,以及多样的风格转化。而在可图大模型强大的图像生成能力背后,则与快手多年的积淀息息相关。
首先,快手海量的短视频素材,能为可图提供数十亿的图文训练数据。发展至今,快手上的短视频素材已经数以万计,根据这些短视频,可图可以收集到更多的数据信息,帮助大模型准确理解用户的需求,让用户通过简单描述即可生成更加多样化风格的图片。据了解,快手拥有数十亿来自开源社区和自研AI技术合成的图文训练数据,这些数据覆盖了常见的三千万中文实体概念,能更好地生成更加贴近文字描述的图片。
其次,快手较强的用户粘性,为可图的落地提供了最佳的应用场景。众所周知,快手应用的累计互关用户对数超过311亿对,同比增长近50%,日均互动(包括点赞、评论和转发等)总量达80亿次,而且AI玩评也能够极大地提升用户参与评论的积极性和满意度。不同用户画像可以丰富可图训练数据,促使可图生成更多样化的图片。因此,拥有较强用户粘性的短视频评论区,可以看做可图大模型最佳的落地应用场景之一。
最后,快手在大模型上的创新性探索,有助于可图形成差异化优势。快手研发了一个强大的中文CLIP模型,并且利用自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块,能让可图大模型更好地理解中文特色概念。不仅如此,快手还更改了去噪算法的底层公式和加噪公式,实现了单一基座模型在主体完整的前提下,可生成具有丰富细节和纹理的图片。而可图大模型也具有了基于Prompt的自动学习模型,能够生成不同的风格模版。
百度“声东击西”
在文生图领域,快手的自研大模型“可图”可谓是独具一格,作为国内领先的AI技术公司,百度的AI作画产品“文心一格”自然也备受期待。据了解,文心一格是基于百度文心大模型能力的AI艺术和创意辅助平台,它可以根据用户输入的文本描述和选择的风格,自动生成独一无二的画作。而百度文心一格之所以能对用户的作画需求实现精准理解,其中的原因自然不言而喻。
一来,文心大模型强大的语言理解能力,使文心一格对中文的理解变得更加精准。文生图技术对中文语义的理解尤为关键,而文心一格的技术基础是百度文心知识增强跨模态理解大模型,百度文心学习了海量优质图文数据,能全面提升图像生成质量和语义一致性。因此,文心一格不仅能利用知识辅助更好地理解用户的输入,并自动丰富语义细节,有效降低用户输入描述成本,还能根据不同的需求,灵活适配多种风格画作生成能力。
二来,文心大模型在技术上的深厚积淀,在一定程度上解决了文心一格在实际应用中的技术难题。众所周知,文心一格AI作图产品顺利落地,是百度依托于飞桨、文心大模型持续进行技术创新的结果。而百度的文心跨模态大模型ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型,也是目前全球参数规模最大的AI作画大模型。百度在训练大模型方面取得了长足的进步,也让文心一格有效解决了复杂概念、属性混淆等文生图领域的常见问题。
三来,文心大模型丰富的产业应用场景,有助于文心一格实现商业化快速落地。目前,文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品,并已通过飞桨开源开放平台、百度智能云等赋能工业、能源、金融、通信、媒体、教育等各行各业。而在这个基础模型职场,文心一格也能结合各个领域的、少量的任务数据,再进行训练、调优,之后就可以适用更多场景,从而进一步拓宽落地的广度,加深产业应用的深度。
网易“蓄谋已久”