NOVEMBER 27, 2024

<aside> 🔖 从六月份开始就没怎么看过论文了,趁着 ICLR 和 CVPR 结束的小空档跟进一下当前AIGC 圈子的进度吧。

</aside>

Stable Flow: Vital Layers for Training-Free Image Editing

image.png

一篇关于 DiT 的 Ablation 实验,测试每一个 layer 是否关键的,很有意思。

One of the known consequences of this difference, however, is that these models exhibit lower diversity than previous diffusion models

一个奇怪的结论,就是说对于相同的种子,生成的多样性变少了。如下图。

image.png

由于DiT是残差的形式,可以选择忽略某个block,然后生成图片,然后用DINO算相似度,最终得到的结果是:

image.png

image.png

Removing vital layers leads to significant changes: complete noise generation (G0), global structure and identity changes (G18), and alterations in texture and fine details (G56).

大概就是,第 18 层主要控制 ID 、layout,最后一层控制材质、色调什么的,第一层控制全局的 sematic。

编辑方法应该是把关键层的 image token 全部替换。

复现了这种编辑实验,结果发现,可能替换的 step 有很大讲究啊…全部替换的话25步只能替换3步,自己做了一个PPT效果如下:

image.png

Taming Rectified Flow for Inversion and Editing

image.png

image.png

我去,好有意思的论文,我好喜欢 QWQ。有种 diffusion 时代刚刚开启的感觉,但这是这两天才挂出来的。