再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

2023.12.21

原文来源：机器之心

图片来源：由无界 AI生成

「能不能把这张图里的产品，都放到另一张图的桌子上？」

面对这样的要求，设计师肯定会脑瓜嗡嗡的。

把指定物品放进另一张图片不像贴张贴纸一样简单，想要做到无缝接入，贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。

如果有一种能让贴图穿进背景图里，它们根据你的指令自动摆好姿势、站位的「魔法」呢？

来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品，只需要一张照片，就能被传送到另一张图片的世界中。

论文链接：https://arxiv.org/pdf/2307.09481.pdf 项目链接：https://damo-vilab.github.io/AnyDoor-Page/

例如，想让这只柯基按照涂鸦的姿势，在墙角站卧坐躺，没有问题。

让哆啦 A 梦从背着手换成向你打招呼的姿势，分分钟搞定，还保留了原本的毛毡材质质感。

交换位置，移动物品，也是小 case。

不需要实物的多角度照片，也不需要 3D 建模，就可以看到这只鞋子的正面和侧面。

把野餐布上的另一只小熊换成这只鞋，再给它做个镜像效果，画个框，就可以静待魔法生成了。重新合成后，餐布的褶皱没有产生明显的形变。

试穿衣服也能玩成贴画游戏版本，给照片贴上想要的衣服，立体的上身效果立即可见。

随着扩散模型的发展，图像编辑界卷出了不少新成果。此前的模型已经可以根据文本提示或给定图像重新生成局部的图像区域。但是这些方法对于不在训练数据内的新图象，泛化性较差，或者需要输入多个图像，在近一个小时后，才能等到生成结果。

Anydoor 做到的是「对象传送」，这意味着将目标对象准确无缝地放置在场景图像的期望位置。具体来说，Anydoor 以目标对象为模板，重新生成场景图像被框中的局部区域，在图像合成、效果图像渲染、海报制作、虚拟试穿等应用场景都很实用。

方法简介

对于给定目标对象、场景和位置，Anydoor 实现了高保真度和多样化的零样本对象 - 场景合成。为了做到这一点，作者的核心思想是用身份和细节高度相关的特征来表示目标对象，然后将它们组合到与背景场景的交互之中。作者用一个 ID 提取器来生产有区分度的 ID token，并设计了一个以频率感知的细节提取器来获取细节图作为补充。再将 ID token 和提取器获得的细节图注入一个预训练好的文本到图像扩散模型中，指导生成所需的图像。

为了使定制对象生成泛化性更强，作者从视频中收集了同一对象的图像对，方便模型学习生成对象的外观变化。在保证场景多样性方面，他们运用了大规模统计图像。为了提高视频和图像学习效率，作者们还设计了一个自适应时间步长采样器，对不同的训练数据源采取不同的去噪步骤。

身份提取特征

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

加⼊OKEx全球社群

相关推荐