论文笔记|DDT:Decoupled Diffusion Transformer

Posted on 2025-12-16 In 扩散模型 , 论文笔记

现有的去噪模型的一个问题是同一个网络去噪网络同时要“编码”噪声输入来提取低频语义信息，之后通过“解码”获得高频信息。这是一个优化困境（optimization dilemma）：编码低频语义必须要减少高频信号。DDT提出将二者解耦，从原来的only-decoder转变为encoder-decoder架构。DDT包含一个Condition Encoder用于低频语义信息的提取，Velocity Decoder用于速度预测生成更高质量的图像。

DDT将Condition Encoder的输出称为self-condition，在此基础上，他们采用了sharing strategy提高推理速度，这通常伴随极小的性能损失。DDT仅训练256个epoch，4倍于REPA的训练速度即可达到1.31的FID。

sharing strategy是指相邻去噪步的生成结果具有一致性（local consistency），假设推理步数N，编码器给定计算成本K，则共享率计算为$1-(K/N)$。因此，有$|\Phi|=K$ 是self-conditon重新计算的时间步的集合：

$$ \[\begin{equation} z_t = \begin{cases} z_{t-{\delta}t}, & \text{if }t \notin \Phi \\ Encoder(x_t, t, y), & \text{if }t \in \Phi \end{cases} \end{equation}\] $$

$|\Phi|=K$ 通过动态规划求解？？？？？？？？