Transformer六周年:当年连
最全对比:生成式AI哪家强?三大顶流图片生成工具优缺点大集合,看完你就懂了
文:Tri 编辑:VickyXiao
图片来源:由无界 AI工具生成
2023年最火的关键词,大概就是AI了。
从横空出世的ChatGPT,到风靡全网的Midjourney,再到全球AI大模型混战,不到一年时间,AIGC持续大爆发,搅动着世界风云。
不论国内外,大家仿佛都找到了奔向“新世界”的船票,要么在研发AI,要么在业务+AI。可以说,AI成为了当下最确定的确定性,引领大众走向下一个AIGC时代,实现新的生产力跃迁。国内外现在出了很多关于AI的一些工具,但其实都是通过Midjourney(MJ)、Stable Diffusion(SD)与DALL-E三个主流算法延伸而来,DALL-E已升级至DALL-E2。
今天我们就来一起探究一下,这三个主流算法有什么优缺点和区别?
三大“顶流”背景介绍
Midjourney是目前搭载在Discord平台的软件,由美国一家工作室开发并于2022年3月首次亮相,短短一年的时间MJ便更新迭代至V5版本,并凭借它出图的艺术性迅速火出圈。这些爆火在社交网络的生成图,都是通过MJ生成而来。凭借惊人的渲染质量与完善的商业化模式成功吸引来大量付费用户,实现年收入一亿美元。
Stable Diffusion是由英国创业公司Stability AI与多个学术研究者和非营利组织合作开发的,可以免费使用,目前的SD的源代码和模型都已经开源,可以在Mac端pc端甚至移动设备端本地部署(对设备配置要求比较高),可以DIY模型,国内外很多软件工具,大多是以SD为底层逻辑开发,其可控性和渲染能力也非常之强,现在也有很多设计师使用它去进行一些辅助工作。
DALL-E 2是由OpenAI团队开发推出的,与Midjourney不同的是,简单的指令下生成的图片普遍偏向写实类,DALL-E 2 在逼真图像和简洁提示方面是这三者中最好的。
表现能力
下面我们一起来看看他们的表现能力,在同样关键词的描述下,他们的图像反馈如何?
DALL·E 2(左)、Midjourney(中)和 Stable Diffusion(右)
DALL·E 2(左)、Midjourney(中)和 Stable Diffusion(右)
DALL·E 2(左)、Midjourney(中)和 Stable Diffusion(右)
从上图的对比中我们可以看到,DALL-E 2能够很好地处理自然、人物的图像,目前,通过使用 DALL-E 2 的API,可实现 3 种与图像交互的方法:根据文本提示从头开始创建图像、根据新的文本提示创建现有图像的编辑、创建现有图像的变体。
Midjourney在所有尝试中都具有丰富的色彩和逼真的图像。其能够根据用户的提示生成图像。Midjourney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。
而Stable Diffusion是一个开源的模型,人人都可以使用。它对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。只是对于普通用户来说,使用难度较大。目前大家讨论最热的就是SD和MJ谁更胜一筹,于是我们又测试了一些图像。
Midjourney(左)和 Stable Diffusion(右)
Midjourney(左)和 Stable Diffusion(右)
从卡通人物形象生成细节来看SD更胜一筹,同样的关键词生成,SD生成的五官更立体精致一些,Midjourney更具艺术特色一点。
Midjourney(左)和 Stable Diffusion(右)
在生成逼真插图风格图像时,两者生成效果不分秋色,SD的最大优势是用户可以通过模型的嵌入,LoRA或网络重新混合,可以产出令人意想不到的效果。
Midjourney(左)和 Stable Diffusion(右)
Stable Diffusion 目前有超过一千种模型可供下载。可以使用LoRA模型、嵌入模型和超网络进一步修改每个模型;Midjourney在模型方面是比较有限的。仅提供 v1 到 v5 模型,以及一些特殊模型,如 niji、test、testp 和 HD。还有一个附加参数可以让图像“风格化”。但总体来说和 Stable Diffusion 还是相形见绌。
使用指南