复制成功

分享至

主页 > 比特币 >

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

2023.10.20
打开 ChatGPT 就能用 DALL・E 3 生成图片了,OpenAI 还罕见地发布了一些技术细节。
OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

图片来源:由无界 AI生成

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

终于,「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后,一位网友感叹说。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于,它可以利用 ChatGPT 生成提示(prompt),然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说,这一改进大大提高了 DALL・E 3 的使用效率。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

此外,与 DALL・E 2 相比,DALL・E 3 生成的图质量也更高。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL・E 2 与 DALL・E 3 的生成效果对比。对于同样的 prompt「一幅描绘篮球运动员扣篮的油画,并伴以爆炸的星云」,左图 DALL・E 2 在细节、清晰度、明亮度等方面显然逊于右图 DALL・E 3。

即使与当前最流行的文生图应用 Midjourney 相比,DALL・E 3 也能打个平手甚至超越 Midjourney。而且与 Midjourney 相比,DALL・E 3 不需要用户自己掌握复杂的 Prompt 编写知识,使用起来门槛更低。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL・E 3 vs. Midjourney 文生图效果。prompt:这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 「Find the universe within you」。

这一模型的发布引发了不小的轰动,也再次巩固了 OpenAI 技术领头羊的形象。一时间,所有人都很好奇,这么炸裂的效果是怎么做到的?不过,令人失望的是,当时 OpenAI 并没有透露技术细节,就像之前发布 GPT-4 时一样。

不过,一个月后,OpenAI 还是给了大家一些惊喜。在一份篇幅达 22 页的论文中,他们阐述了针对 DALL・E 3 所做的改进。论文要点包括:

  • 模型能力的提升主要来自于详尽的图像文本描述(image captioning);
  • 他们训练了一个图像文本描述模型来生成简短而详尽的文本;
  • 他们使用了 T5 文本编码器;
  • 他们使用了 GPT-4 来完善用户写出的简短提示;
  • 他们训练了一个 U-net 解码器,并将其蒸馏成 2 个去噪步骤;
  • 文本渲染仍然不可靠,他们认为该模型很难将单词 token 映射为图像中的字母
  • 除了论文之外,OpenAI 还公布了一个重要消息:DALL・E 3 已经正式上线 ChatGPT,Plus 用户和 Enterprise 用户都可以使用。以下是机器之心的试用效果:

    OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

    如果对结果不满意,你还可以直接让它在原图的基础上修改:

    OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

    不过,随着对话长度的增加,生成结果变得有些不稳定:

    OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

    在文字生成方面,DALL・E 3 已经提升了不少:

    OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

    不过,在面对中文时,它的表现仍然较差:  

    OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

    为了保证 DALL・E 3 输出内容的安全性和合规性,OpenAI 也做了一些努力,确保模型输出的内容是被检查过的,而且不侵犯在世艺术家的版权。

    当然,要了解 DALL・E 3 背后的技术,还是要详细阅读论文。以下是论文介绍:

    论文概览

    OpenAI 发布的 DALL・E 3 相关论文总共有 19 页,作者共有 15 位,半数为华人,分别来自 OpenAI 和微软。

    OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

    论文地址:https://cdn.openai.com/papers/dall-e-3.pdf

    论文提出了一种解决提示跟随(prompt following)问题的新方法:文本描述改进(caption improvement)。本文假设现有的文本 - 图像模型面临的一个基本问题是:训练数据集中的文本 - 图像对的质量较差,这一问题在其他研究中也已经被指出。本文建议通过为数据集中的图像生成改进的文本描述来解决这个问题。 

    为了达到这一目标,该研究首先学习了一个具有稳健性的图像文本生成器,它可以生成详细、准确的图像描述。然后,将此文本生成器应用到数据集以生成更详细的文本。最终在改进的数据集上训练文本 - 图像模型。

    免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier