![特朗普转发添热度,Poly 特朗普转发添热度,Poly](/uploads/allimg/c240201/1FC93544X510-56342.jpg)
特朗普转发添热度,Poly
文章来源:机器之心
最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。
InstantID 凭借着高质量的图像生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。
这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。
对,你没看错。如图左侧所示,与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是,InstantID 只需一张自拍,不依赖模型训练,不需要等待,瞬间变身。
无论是古典油画的优雅,炫酷的赛博朋克,或是 3D 雕像的立体感,只要是你喜欢的风格,InstantID 都能轻松驾驭。
它不仅风格多样,还能在保持人物面部高保真的同时,无需模型训练,实现秒级出图,效率大幅提升。
InstantID 目前位列 Hugging Face Space Trending 榜首,许多小伙伴玩得不亦乐乎~
比如,把马斯克送上了火星。
让蒙娜丽莎拍「樱花写真」,微笑依旧很神秘。
甚至可以让语文课本中的杜甫从二维变三维,穿越到现代变身「帅大叔」。
图灵奖得主 Yann LeCun,化身多种动漫人物,你猜出了几个角色?
就连 Yann LeCun 本人也点赞转发,调侃自己的「钢铁侠」衣服在哪里。
在个性化图像合成领域,实现强烈风格化写真的同时保持面部高保真度,一直是个挑战。
从效果上看,InstantID 做到了。那它背后运用了哪些方法,有什么独到之处吗?
回顾过去,尽管 Textual Inversion、 DreamBooth 和 LoRAs 等技术已经取得了重大进展。但它们在实际应用中仍受限于高存储需求、耗时的微调过程以及对多张参考图像的依赖。相比之下,现有基于 ID 嵌入的方法虽然只需一次前向推理,但也面临不小挑战:要么需要对大量模型参数进行广泛的微调,要么与社区预训练模型不兼容,要么无法保持高真实性。
InstantID 的出现,打破了这些局限。小红书 InstantX 团队公开了论文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代码,他们表示:InstantID 巧妙地避免了对文生图模型 UNet 部分的训练,仅通过训练一个轻量级的可插拔模块,实现了在推理过程中无需 test-time tuning,同时保持了文本控制的灵活性,确保了面部特征的高保真度。
如图所示,InstantID 的工作原理可分为三个关键部分:
ID Embedding:团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征,并使用可训练的投影层,将这些特征映射到文本特征空间,形成 Face Embedding,具有丰富的语义信息,包括如面部特征、表情、年龄等,为后续的图像生成提供了坚实的基础。免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。
和全球数字资产投资者交流讨论
扫码加入OKEx社群
industry-frontier